Моджибаке

UTF -8 в кодировке Статья японской Википедии *для Mojibake* отображается так, как если бы она интерпретировалась как Windows-1252.

UTF -8 в кодировке Статья о церковнославянском языке в русской Википедии отображается так, как если бы она интерпретировалась как KOI8-R.

Эта статья содержит специальные символы . Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, прямоугольники и другие символы .

Моджибаке ( яп .: искаженные символы ; IPA: [mod͡ʑibake] , «преобразование символов») — это искаженный или бредовый текст, который является результатом декодирования текста с использованием непредусмотренной кодировки символов . ^[1] Результатом является систематическая замена символов совершенно несвязанными между собой, часто из другой системы письма .

Это отображение может включать общий символ замены («�») в тех местах, где двоичное представление считается недействительным. Замена также может включать несколько последовательных символов, если рассматривать их в одной кодировке, когда один и тот же двоичный код представляет собой один символ в другой кодировке. Это происходит либо из-за различий в кодировке постоянной длины (как в азиатских 16-битных кодировках и европейских 8-битных кодировках), либо из-за использования кодировок переменной длины (особенно UTF-8 и UTF-16 ).

Неудачная отрисовка глифов из-за отсутствия шрифта или отсутствия глифов в шрифте — это другая проблема, которую не следует путать с моджибаке. Признаками этого неудачного рендеринга являются блоки с кодовой точкой, отображаемой в шестнадцатеричном формате или с использованием общего символа замены. Важно отметить, что эти замены действительны и являются результатом правильной обработки ошибок программным обеспечением.

Причины [ править ]

Для корректного воспроизведения исходного закодированного текста необходимо сохранить соответствие между закодированными данными и понятием их кодирования (т. е. исходный и целевой стандарты кодирования должны совпадать). Поскольку моджибаке является примером несоответствия между ними, этого можно достичь, манипулируя самими данными или просто переименовывая их.

Mojibake часто встречается с текстовыми данными, помеченными неправильной кодировкой; он может вообще не быть помечен, а перемещаться между компьютерами с разными кодировками по умолчанию. Основным источником проблем являются протоколы связи , которые полагаются на настройки каждого компьютера, а не на отправку или сохранение метаданных вместе с данными.

Различные настройки по умолчанию на разных компьютерах частично объясняются разным применением Unicode в разных семействах операционных систем , а частично — специализацией устаревших кодировок для разных систем письма человеческих языков. В то время как дистрибутивы Linux в основном перешли на UTF-8 в 2004 году, ^[2] Microsoft Windows обычно использует UTF-16, а иногда и 8-битные кодовые страницы для текстовых файлов на разных языках.

Для некоторых систем письма , таких как японская , исторически использовалось несколько кодировок, из-за чего пользователи относительно часто видели моджибаке. Например, само слово моджибаке («文字化け»), хранящееся как EUC-JP, может неправильно отображаться как «ﾊｸｻ�ｽ､ｱ», «ﾊｸｻ嵂ｽ､ｱ» ( MS-932 ) или «ﾊｸｻ郾ｽ». ､ｱ», если интерпретируется как Shift-JIS или как «Ê¸»ú²½¤±» в программном обеспечении, которое предполагает, что текст находится в кодировке Windows-1252 или ISO 8859-1 , обычно обозначаемой Western или Western European . Ситуация еще больше усугубляется, если задействованы другие локали: тот же текст, хранящийся в формате UTF-8, отображается как «譁蟄怜喧縺», если интерпретируется как Shift-JIS, как «æ–‡å—åŒ–ã '», если интерпретируется как Western или (например) как «鏂囧瓧鍖栥亼», если интерпретируется как находящийся в локали GBK (материковый Китай).

Пример Моджибаке
Исходный текст	искусство				Характер				изменять				волосы
Необработанные байты кодировки EUC-JP	ЧТО		Б8		ББ		НО		Б2		БД		A4		Б1
Байты EUC-JP интерпретируются как Shift-JIS	Ха		｜		｜		郾				｜		､		А
Байты EUC-JP интерпретируются как GBK	стрелка				машина				шаг				волосы
Байты EUC-JP интерпретируются как Windows-1252.	Э		¸		»		ты		²		½		¤		±
Необработанные байты кодировки UTF-8.	Е6	96		87	Е5	ОБЪЯВЛЕНИЕ		97	Е5	8С		96	Е3	81		91
Байты UTF-8 интерпретируются как Shift-JIS	высокомерие			�	жало			жалость		шум			нить			�
Байты UTF-8 интерпретируются как GBK	鏂			Смущенный		秧			鍖			栥		人
Байты UTF-8 интерпретируются как Windows-1252.	ой	–		‡	к	ЗАСТЕНЧИВЫЙ		—	к	О		–	ã	ПРЫГАТЬ		‘

Недостаточная спецификация [ править ]

Если кодировка не указана, программное обеспечение должно определить ее другими способами. В зависимости от типа программного обеспечения типичным решением является эвристика определения конфигурации или кодировки . Оба склонны к ошибочным прогнозам.

На кодировку текстовых файлов влияют настройки локали , которые зависят от языка пользователя, марки операционной системы и многих других условий. Таким образом, предполагаемая кодировка систематически неверна для файлов, поступающих с компьютера с другими настройками или даже из другого локализованного программного обеспечения в той же системе. Для Unicode одним из решений является использование знака порядка байтов , но для исходного кода и другого машиночитаемого текста многие парсеры этого не допускают. Другой вариант — сохранение кодировки в виде метаданных в файловой системе. Файловые системы, поддерживающие расширенные атрибуты файлов , могут хранить это как user.charset. ^[3] Это также требует поддержки со стороны программного обеспечения, которое хочет воспользоваться этим, но не мешает другому программному обеспечению.

Хотя некоторые кодировки легко обнаружить, например UTF-8, многие из них трудно различить (см. Определение кодировки ). Веб -браузер может быть не в состоянии отличить страницу, закодированную в EUC-JP , от другой в Shift-JIS, если кодировка не назначена явно с использованием заголовков HTTP, отправляемых вместе с документами, или с использованием HTML- документа метатегов , которые используются для замены за отсутствие заголовков HTTP, если сервер не может быть настроен на отправку правильных заголовков HTTP; см. кодировки символов в HTML .

Неправильная спецификация [ править ]

Моджибаке также возникает, когда неверно указана кодировка. Это часто происходит между похожими кодировками. Например, известно, что почтовый клиент Eudora для Windows отправлял электронные письма, помеченные как ISO 8859-1 , которые на самом деле были Windows-1252 . ^[4] Windows-1252 содержит дополнительные печатные символы в диапазоне C1 (чаще всего это изогнутые кавычки и дополнительные тире ), которые не отображались должным образом в программном обеспечении, соответствующем стандарту ISO; особенно это затронуло программное обеспечение, работающее под управлением других операционных систем, таких как Unix .

Пользовательский контроль [ править ]

Из кодировок, которые до сих пор широко используются, многие возникли из ASCII и добавления поверх него; в результате эти кодировки частично совместимы друг с другом. Примеры этого включают Windows-1252 и ISO 8859-1. Таким образом, люди могут перепутать используемый ими расширенный набор кодировок с простым ASCII.

Чрезмерная спецификация [ править ]

Когда существуют уровни протоколов, каждый из которых пытается указать кодировку на основе различной информации, наименее надежная информация может ввести получателя в заблуждение.Например, рассмотрим веб-сервер, обслуживающий статический HTML-файл через HTTP. Набор символов может быть передан клиенту любым из трех способов:

в HTTP-заголовке. Эта информация может основываться на конфигурации сервера (например, при передаче файла с диска) или контролироваться приложением, работающим на сервере (для динамических веб-сайтов).
в файле в виде метатега HTML ( http-equiv или charset) или encoding атрибут объявления XML . Это кодировка, в которой автор хотел сохранить конкретный файл.
в файле как знак порядка байтов . Это та кодировка, в которой его фактически сохранил редактор автора. Если только не произошло случайное преобразование кодировки (путем открытия в одной кодировке и сохранения в другой), это будет правильно. Однако он доступен только в кодировках Unicode , таких как UTF-8 или UTF-16.

Отсутствие аппаратной или программной поддержки [ править ]

Гораздо более старое оборудование обычно рассчитано на поддержку только одного набора символов, и этот набор символов обычно не может быть изменен. Таблица символов, содержащаяся в прошивке дисплея, будет локализована и будет содержать символы для страны, в которой продается устройство, и обычно таблица различается от страны к стране. Таким образом, эти системы потенциально будут отображать моджибаке при загрузке текста, сгенерированного в системе из другой страны. Аналогичным образом, многие ранние операционные системы не поддерживают несколько форматов кодирования и, таким образом, в конечном итоге будут отображать моджибаке, если они будут отображать нестандартный текст — например, ранние версии Microsoft Windows и Palm OS локализуются для каждой страны и будут доступны только для каждой страны. поддерживает стандарты кодирования, соответствующие стране, в которой будет продаваться локализованная версия, и будет отображать mojibake, если открывается файл, содержащий текст в формате кодировки, отличном от версии, для поддержки которой предназначена ОС.

Резолюции [ править ]

Приложения, использующие UTF-8 в качестве кодировки по умолчанию, могут достичь большей степени совместимости благодаря его широкому использованию и обратной совместимости с US-ASCII . UTF-8 также может напрямую распознаваться с помощью простого алгоритма, поэтому хорошо написанное программное обеспечение должно избегать смешивания UTF-8 с другими кодировками.

Сложность устранения экземпляра моджибаке варьируется в зависимости от приложения, в котором он возникает, и его причин. Двумя наиболее распространенными приложениями, в которых может возникнуть mojibake, являются веб-браузеры и текстовые процессоры . Современные браузеры и текстовые процессоры часто поддерживают широкий спектр кодировок символов. Браузеры часто позволяют пользователю изменять настройки кодировки своего механизма рендеринга на лету, а текстовые процессоры позволяют пользователю выбирать подходящую кодировку при открытии файла. Пользователям может потребоваться метод проб и ошибок, чтобы найти правильную кодировку.

Проблема усложняется, когда она возникает в приложении, которое обычно не поддерживает широкий диапазон кодировок символов, например в компьютерной игре, не поддерживающей Юникод. В этом случае пользователь должен изменить настройки кодировки операционной системы, чтобы они соответствовали настройкам игры. Однако изменение общесистемных настроек кодирования также может привести к появлению Mojibake в уже существующих приложениях. В Windows XP или более поздней версии пользователь также имеет возможность использовать Microsoft AppLocale , приложение, которое позволяет изменять настройки локали для каждого приложения. Несмотря на это, изменение настроек кодировки операционной системы невозможно в более ранних операционных системах, таких как Windows 98 ; Чтобы решить эту проблему в более ранних операционных системах, пользователю приходилось использовать сторонние приложения для рендеринга шрифтов.

Проблемы в разных системах письма [ править ]

английский [ править ]

Моджибаке в английских текстах обычно встречается в знаках препинания, таких как длинные тире (—), длинные тире (–) и фигурные кавычки («»,,','), но редко в тексте символов, поскольку большинство кодировок согласуются с ASCII в кодировка английского алфавита . Например, знак фунта £ появится как Â£ если он был закодирован отправителем как UTF-8 , но интерпретирован получателем как одна из западноевропейских кодировок ( CP1252 или ISO 8859-1 ). Если повторить с использованием CP1252, это может привести к Ã‚Â£, Ãƒâ€šÃ‚Â£, ÃƒÆ’Ã¢â‚¬Å¡Ãƒâ€šÃ‚Â£, ÃƒÆ’Ã†â€™ÃƒÂ¢Ã¢â€šÂ¬Ã…Â¡ÃƒÆ’Ã¢â‚¬Å¡Ãƒâ€šÃ‚Â£, и так далее.

Аналогично, правая одинарная кавычка (') при кодировании в UTF-8 и декодировании с помощью Windows-1252 становится â€™, Ã¢â‚¬â„¢, ÃƒÂ¢Ã¢â€šÂ¬Ã¢â€žÂ¢, и так далее.

В старые времена некоторые компьютеры имели кодировки, специфичные для конкретного поставщика, что приводило к несоответствию также и английского текста. Commodore компьютерах марки В 8-битных использовалась кодировка PETSCII , особенно примечательная инвертированием верхнего и нижнего регистра по сравнению со стандартным ASCII . Принтеры PETSCII прекрасно работали на других компьютерах той эпохи, но меняли регистр всех букв. IBM Мэйнфреймы используют кодировку EBCDIC , которая вообще не соответствует ASCII.

Другие западноевропейские языки [ править ]

Алфавиты северогерманских языков : каталанского , румынского , финского , французского , немецкого , итальянского , португальского и испанского являются расширениями латинского алфавита . Дополнительные символы обычно повреждаются, в результате чего текст становится нечитабельным с помощью моджибаке:

å , ä , ö в финском и шведском языках (š и ž присутствуют в некоторых финских заимствованиях, é незначительно в шведском языке, в основном также в заимствованиях)
à, ç, è, é, ï, í, ò, ó, ú, ü на каталонском языке
æ , ø , å на норвежском и датском языках , а также дополнительные острые акценты на é и т. д. для устранения неоднозначности.
á, é, ó, ĳ , è, e, ï на голландском языке
ä, ö, ü и ß на немецком языке
á, ð , í , ó , ú , ý , æ, ø на фарерском языке
á, ð, é , í, ó, ú, ý, þ , æ, ö на исландском языке
à, â, ç, è, é, ë, ê, ï, î, ô, ù, û, ü, ÿ, æ, œ на французском языке
à, è, é, ì, ò, ù по- итальянски
á, é, í, ñ , ó, ú, ü, ¡, ¿ по- испански
ü на португальском языке ( ü больше не используется)
á, é, í, ó, ú по- ирландски
à, è, ì, ò, ù на шотландском гэльском языке
ă, â, î, ş, ts на румынском языке
£ в британском английском (æ и œ используются редко)

… и их аналоги в верхнем регистре, если применимо.

Это языки, для которых набор символов ISO 8859-1 (также известный как Latin 1 или Western используется ). Однако ISO 8859-1 устарел из-за двух конкурирующих стандартов: обратно совместимого Windows-1252 и слегка измененного ISO 8859-15 . Оба добавляют знак евро € и французский œ, но в остальном любая путаница этих трех наборов символов не приводит к созданию моджибаке на этих языках. Кроме того, всегда безопасно интерпретировать ISO 8859-1 как Windows-1252 и довольно безопасно интерпретировать его как ISO 8859-15, особенно в отношении знака евро, который заменяет редко используемый знак валюты (¤). Однако с появлением UTF-8 моджибаке стал более распространенным в определенных сценариях, например при обмене текстовыми файлами между компьютерами UNIX и Windows , из-за несовместимости UTF-8 с Latin-1 и Windows-1252. Но UTF-8 имеет возможность напрямую распознаваться с помощью простого алгоритма, поэтому хорошо написанное программное обеспечение должно избегать смешивания UTF-8 с другими кодировками, поэтому это было наиболее распространено, когда у многих было программное обеспечение, не поддерживающее UTF-8. Большинство этих языков поддерживались MS-DOS по умолчанию CP437 и другими машинными кодировками по умолчанию, кроме ASCII, поэтому проблемы при покупке версии операционной системы были менее распространены. Однако Windows и MS-DOS несовместимы.

В шведском, норвежском, датском и немецком языках гласные повторяются редко, и обычно это заметно, когда один символ поврежден, например, вторая буква в шведском слове kärlek («любовь»), когда оно закодировано в UTF-8, но декодировано в Вестерн, производящий «kÃ⁠¤rlek», или für по-немецки, что становится «fÃ¼r». Таким образом, даже если читателю придется угадывать исходную букву, почти весь текст останется разборчивым. В финском языке, с другой стороны, часто используются повторяющиеся гласные в таких словах, как hääyö («брачная ночь»), из-за чего испорченный текст становится очень трудным для чтения (например, hääyö появляется как «hÃ⁠¤Ã⁠¤yÃ⁠¶»). В исландском языке есть десять символов, которые могут сбивать с толку, а в фарерском - восемь, что делает многие слова почти совершенно непонятными при искажении (например, исландский þjóðlöð , «выдающееся гостеприимство», появляется как «Ã¾jÃ³Ã°lÃ¶Ã°»).

В немецком языке Buchstabensalat («салат из букв») является общим термином для этого явления, в испанском языке deformación используется (буквально «деформация»), а в португальском языке desformatação (буквально «деформирование»).

Некоторые пользователи транслитерируют свое письмо при использовании компьютера, либо опуская проблемные диакритические знаки, либо используя замены орграфов (å → aa, ä/æ → ae, ö/ø → oe, ü → ue и т. д.). Таким образом, автор может написать «ueber» вместо «über», что является стандартной практикой в немецком языке, когда умлауты недоступны. Последняя практика, кажется, более терпима в сфере немецкого языка, чем в странах Северной Европы . Например, в норвежском языке диграфы связаны с архаичным датским языком и могут использоваться в шутку. Однако диграфы полезны в общении с другими частями света. Например, у норвежского футболиста Оле Гуннара Сульшера на форме была написана фамилия «СОЛЬСКЬЕР», когда он играл за «Манчестер Юнайтед» .

Артефакт UTF-8, ошибочно интерпретированный как ISO 8859-1 , где « Ring meg nå » отображается как «Ring meg nÃ¥», был замечен в 2014 году в мошенническом SMS-рассылке, направленной на Норвегию. ^[5]


Шведский пример	Исходная кодировка	Целевая кодировка	Результат (Символы, выделенные красным, неверны.)
Сэндвич ( открытый бутерброд )
	MS-DOS 437	ИСО 8859-1	См " рг † с
	UTF-8	ИСО 8859-1	См Ã¶ rg Ã¥ s
		IBM/CP037 (EBCDIC)	ë_C¶ÊÅCvË
		Мак Роман	Sm √∂ rg √• s
	ИСО 8859-1	Мак Роман	Sm ˆ rg Â s

Та же проблема возникает и в румынском языке, см. эти примеры:


Румынский пример	Исходная кодировка	Целевая кодировка	Результат (Символы, выделенные красным, неверны.)
Пепел ( пепел )
	UTF-8
		ASCII	Ужин
		ИСО 8859-2	Cenu ČÄ
		OEM 737	Cenu ╚β─Δ
		Shift-HE	Сену ﾈ卞
		ТИС-620	Чену с™рƒ
		IBM/CP037 (EBCDIC)	äÁ>ÍHRDc

и Центральная Восточная Европа

Пользователи языков Центральной и Восточной Европы также могут пострадать. Поскольку в середине-конце 1980-х годов большинство компьютеров не были подключены к какой-либо сети, для каждого языка существовали разные кодировки символов с диакритическими символами (см. ISO/IEC 8859 и KOI-8 ), часто также различающиеся в зависимости от операционной системы.

венгерский [ править ]

На венгерском языке это явление называется betűszemét , что означает «письменный мусор». Венгерский язык особенно восприимчив, поскольку он содержит акцентированные буквы á, é, í, ó, ú, ö, ü (все они присутствуют в наборе символов Latin-1), а также два символа ő и ű, которых нет в Latin-1. . Эти два символа можно правильно закодировать в Latin-2, Windows-1250 и Unicode. Однако до того, как Unicode стал обычным явлением в почтовых клиентах, в электронных письмах, содержащих венгерский текст, буквы ő и ű часто были повреждены, иногда до неузнаваемости. На испорченное электронное письмо обычно отвечают бессмысленной фразой «Árvíztűrő tükörfúrógép» (буквально «защищенная от наводнения машина для сверления зеркал»), которая содержит все символы с диакритическими знаками, используемые в венгерском языке.

Примеры [ править ]

Венгерский пример	Исходная кодировка	Целевая кодировка	Результат	возникновение
ЗАЩИТНАЯ БУРОВАЯ МАШИНА С ЗЕРКАЛЬНЫМ НАВОДНЕНИЕМ сверлильный станок для зеркал с защитой от наводнений
	UTF-8 — для печати	7-битный ASCII	=C3=81 RV =C3=8D ZT =C5=B0 R =C5=90 T =C3=9C K =C3=96 RF =C3=9A R =C3=93 G =C3=89 P =C3=A1 rv =C3=AD zt =C5=B1 r =C5=91 t =C3=BC k =C3=B6 rf =C3=BA r =C3=B3 g =C3=A9 p	В основном вызвано неправильно настроенными почтовыми серверами, но может возникать в SMS- и сообщениях на некоторых мобильных телефонах.
	ISO 8859-2 Цитируется для печати	7-битный ASCII	=C1 RV =CD ZT =DB R =D5 T =DC K =D6 RF =DA R =D3 G =C9 P =E1 rv =ED zt =FB r =F5 t =FC k =F6 rf =FA r =F3 g =E9 p
	КРИ-2	КП 437	Å RV ì ZT ÿ R º TÜKÖRF ù R ò GÉP Flood û r ô сверлильный станок для зеркала	Кодировка CWI -2 была разработана таким образом, чтобы венгерский текст оставался достаточно хорошо читаемым, даже если устройство на принимающей стороне использует одну из кодировок по умолчанию ( CP 437 или CP 850 ). Эта кодировка очень широко использовалась в период с начала 1980-х по начало 1990-х годов, но в настоящее время она полностью устарела.
	КП 852	КП 437	╡ РВ ╓ ZT δ R è ЗЕРКАЛО Θ R α МАШ наводнение √ r ï сверло для зеркала	Это было очень распространено во времена DOS , так как текст часто кодировался с использованием кодовой страницы 852 («Центральноевропейская»), но программное обеспечение на принимающей стороне часто не поддерживало CP 852 и вместо этого пыталось отображать текст с использованием CP 437 или CP 437 или CP 437. КП 850 . Строчные буквы в основном правильные, за исключением ű и ő. Ü/ü и Ö/ö верны, поскольку CP 437 и CP 850 были совместимы с немецким языком. Хотя в наши дни это редкость, это все еще можно увидеть в таких местах, как напечатанные рецепты и чеки.
		КП 850	FLOOD Ù R è ЗЕРКАЛО-БУРИЛЬНАЯ МАШИНА arvizt ¹ r ï tükörfúrógép
		Windows-1250	µ РВ Ö ЗТ ë R Š T š K ™ RF é R à G Мистер rv ˇ ztűr ‹ t k " rf Ł r ˘ g ‚ p	Обе кодировки являются центральноевропейскими, но текст кодируется кодировкой DOS и декодируется кодировкой Windows. Использование ű правильно.
		Мак Роман	µ RV ÷ ZT Î R ä T ö K Ô RF È R ‡ G ê P † rv ° zt ˚ r ã t Å k î rf £ r ¢ g Ç p	Это также было обычным явлением во времена DOS, это можно было увидеть, когда компьютеры Apple пытались отображать венгерский текст, отправленный с помощью компьютеров DOS или Windows, поскольку они часто по умолчанию использовали собственную кодировку Apple.
	Windows-1250	Мак Роман	¡ РВ х ЗТ € Р ' Т ‹ К ÷ РФ ⁄ Р ” Г … П · rv Ì zt ˚ r ı t ¸ k ˆ rf ˙ r Û g È p
		КП 852	┴ RV ═ ZT █ R Ň T ▄ K Í RF ┌ R Ë G ╔ P ß rv Ý ztűr § t Ř k ÷ rf ˙ r ˇ g Ú p	Обе кодировки являются центральноевропейскими, но текст кодируется кодировкой Windows, а декодируется кодировкой DOS. Использование ű правильно.
		Windows-1252	АРВИЗТ Û R Õ ЗЕРКАЛО-СВЕРЛИЛЬНЫЙ СТАНОК наводнение û r õ зеркально-сверлильный станок	Вместо центральноевропейской используется западноевропейская кодировка Windows по умолчанию. Неправильны только ő-Ő (õ-Õ) и ű-Ű (û-Û), и текст вполне читаем. В настоящее время это самая распространенная ошибка; из-за незнания это часто встречается на веб-страницах или даже в печатных СМИ.
	UTF-8	Windows-1252	Ã RV Ã ZT Å° R Å T Ãœ K Ã– RF Ãš R Ã" G Ã‰ P Ã¡ рв Ã zt Å± r Å' t Ã¼ k Ã¶ rf Ãº r Ã³ g Ã© p	В основном вызвано веб-службами или клиентами веб-почты, которые настроены неправильно или не проверены для международного использования (поскольку проблема остается скрытой для английских текстов). В этом случае фактическое (часто генерируемое) содержимое имеет формат UTF-8 , но некоторые старые программы могут по умолчанию использовать локализованные кодировки, если UTF-8 явно не указан в заголовках HTML.
	UTF-8	Мак Роман	√Å RV √ç ZT ≈∞ R ≈ê T √ú K √ñ RF √ö R √ì G √â P √° rv √≠ zt ≈± r ≈ë t √º k √∂ rf √∫ r √≥ g √© p

польский [ править ]

До создания ISO 8859-2 в 1987 году пользователи различных вычислительных платформ использовали свои собственные кодировки символов , такие как AmigaPL на Amiga, Atari Club на Atari ST и Masovia, IBM CP852 , Mazovia и Windows CP1250 на IBM PC. Польские компании, продававшие первые компьютеры DOS, создали свои собственные, несовместимые друг с другом способы кодирования польских символов и просто перепрограммировали EPROM видеокарт (обычно CGA , EGA или Hercules ), чтобы обеспечить аппаратные кодовые страницы необходимыми глифами для польского языка, расположенными произвольно без ссылка на то, где их разместили другие продавцы компьютеров.

Ситуация начала улучшаться, когда под давлением академических кругов и групп пользователей ISO 8859-2 стал «стандартом Интернета» с ограниченной поддержкой программного обеспечения доминирующих поставщиков (сегодня его в значительной степени заменяет Unicode). Из-за многочисленных проблем, вызванных разнообразием кодировок, даже сегодня некоторые пользователи склонны называть польские диакритические символы krzaczki ( [ˈkʂät͜ʂ.ki] , букв. «кустарники»).

Русский и другие кириллические алфавиты [ править ]

Моджибаке в просторечии называется кракозябры ( кракозя́бры [krɐkɐˈzʲæbrɪ̈] ) на русском языке , который был и остается сложным из-за нескольких систем кодирования кириллицы . ^[6] В Советском Союзе и в ранней Российской Федерации были разработаны кодировки KOI ( Код Обмена Информацией , Код Обмена Информацией , что переводится как «Кодекс для обмена информацией»). , состоящего только из кириллицы, Это началось с 7-битного KOI7 основанного на ASCII, но с заменой латинских и некоторых других символов кириллическими буквами. Затем появилась 8-битная KOI8 кодировка , которая представляет собой расширение ASCII , которое кодирует буквы кириллицы только с набором старших бит октетов, соответствующих 7-битным кодам из KOI7. Именно по этой причине текст KOI8, даже русский, остается частично читаемым после удаления восьмого бита, что считалось большим преимуществом в эпоху почтовых систем, не поддерживающих 8BITMIME . Например, слова « Школа русского языка » школа русского языка , закодированные в KOI8, а затем прошедшие процесс удаления старших битов, в конечном итоге отображаются как «[KOLA RUSSKOGO qZYKA». Со временем KOI8 приобрел разные варианты для русского и болгарского ( KOI8-R ), украинского ( KOI8-U ), белорусского (KOI8-RU) и даже таджикского (KOI8-T).

Между тем, на Западе кодовая страница 866 поддерживала украинский и белорусский языки , а также русский и болгарский в MS-DOS . Для Microsoft Windows в кодовую страницу 1251 добавлена поддержка сербского и других славянских вариантов кириллицы .

Совсем недавно кодировка Unicode включала кодовые точки практически для всех символов всех языков, включая все символы кириллицы.

До появления Unicode необходимо было сопоставить кодировку текста со шрифтом, использующим ту же систему кодировки; невыполнение этого требования приводило к нечитаемой тарабарщине , конкретный вид которой варьировался в зависимости от точной комбинации кодировки текста и шрифта. Например, попытка просмотреть кириллический текст, отличный от Unicode, с использованием шрифта, ограниченного латинским алфавитом, или с использованием кодировки по умолчанию («западной») обычно приводит к тому, что текст почти полностью состоит из заглавных гласных с диакритическими знаками (например, KOI8 « Библиотека » ( библиотека , библиотека) становится «âÉÂÌÉÏÔÅËÁ», а «Школа русского языка» ( школа русского языка) становится «ûËÏÌÁ ÒÕÓÓËÏÇÏ ÑÚÙËÁ»). Использование кодовой страницы 1251 для просмотра текста в KOI8 или наоборот приводит к искажению текста, состоящему в основном из заглавных букв (KOI8 и кодовая страница 1251 используют один и тот же регион ASCII, но KOI8 имеет прописные буквы в том регионе, где кодовая страница 1251 имеет строчные буквы). , и наоборот).

В первые годы существования российского сектора Всемирной паутины и KOI8, и кодовая страница 1251 были обычным явлением. Почти все веб-сайты сейчас используют Юникод, но по состоянию на ноябрь 2023 г. ^[update] примерно 0,35% всех веб-страниц в мире, включая все языки, по-прежнему закодированы в кодовой странице 1251, в то время как менее 0,003% сайтов по-прежнему закодированы в KOI8-R. ^[7]^[8] Хотя стандарт HTML включает возможность указать кодировку для любой веб-страницы в ее исходном коде, ^[9] этим иногда пренебрегают, заставляя пользователя переключать кодировки в браузере вручную.

По -болгарски моджибаке часто называют маймуница ( маймуница ), что означает «обезьяний [алфавит]». По -сербски оно называется Джубре ( ђубре ), что означает « мусор ». В отличие от бывшего СССР, южные славяне никогда не использовали что-то вроде KOI8, а кодовая страница 1251 была там доминирующей кодировкой кириллицы до Unicode. Таким образом, на этих языках возникало меньше проблем с несовместимостью кодировок, чем на русском. В 1980-х годах в болгарских компьютерах использовалась собственная кодировка MIK , внешне похожая на CP866 (хотя и несовместимая с ней).

Пример
Исходный текст	Исходная кодировка	Целевая кодировка	Результат
Кракозябры
	Windows-1251	КОИ8-Р	yПЮЙНГААПШ
	КОИ8-Р	Windows-1251	лТБЛПСВТШТ
	КОИ8-Р	Windows-1252	СНТÁËÏÚСÑÂÒÙ
	MS-DOS 855		Çá ÆÖóÞ¢áñ
	Windows-1251		Эдакийский
	UTF-8		ÐšÑ€Ð°ÐºÐ¾Ð·Ñ Ð±С€Ñ‹
		КОИ8-Р	п я─п╟п╨п╬п╥я▐п╠я─я▀ (Второй символ — неразрывный пробел )
		MS-DOS 855	лџЛђл░л║лЙлиЛЈл▒ЛђЛІ
		Windows-1251	РљС‚Р°РєРѕР·СДЖР±С‚С‹
		Мак Роман	–ö—Ä–∞–∫–æ–∑—è–±—Ä—ã
		Мак-кириллица	–Ъ—А–∞–Ї–Њ–Ј—П–±—А—Л

Югославские языки [ править ]

Хорватский , боснийский , сербский (выделившиеся разновидности сербско-хорватского языка) и словенский добавляют к основному латинскому алфавиту буквы š, đ, č, ć, ž и их заглавные аналоги Š, Đ, Č, Ć, Ž (только č/Č, š/Š и ž/Ž на словенском языке официально, хотя при необходимости используются и другие, в основном и в иностранных именах). Все эти буквы определены в Latin-2 и Windows-1250 , тогда как только некоторые (š, Š, ž, Ž, Đ) существуют в обычной ОС Windows-1252 по умолчанию и существуют из-за некоторых других языков.

Хотя Mojibake может встречаться с любым из этих символов, буквы, не включенные в Windows-1252, гораздо более подвержены ошибкам. Таким образом, даже в наши дни «šđčćž ŠĐČĆŽ» часто отображается как «šðèæž ŠÐÈÆŽ», хотя ð, È и Æ никогда не используются в славянских языках.

Если ограничиться базовым ASCII (например, большинство имен пользователей), распространенными заменами являются: š→s, đ→dj, č→c, ć→c, ž→z (аналогично заглавные буквы с Đ→Dj или Đ→DJ). в зависимости от регистра слов). Все эти замены вносят неоднозначность, поэтому восстановление оригинала по такой форме при необходимости обычно выполняется вручную.

Кодировка Windows -1252 важна, поскольку наиболее распространены английские версии операционной системы Windows, а не локализованные. ^{[ нужна ссылка ]} Причинами этого являются относительно небольшой и фрагментированный рынок, рост цен на высококачественную локализацию, высокая степень пиратства в области программного обеспечения (в свою очередь, вызванная высокой ценой на программное обеспечение по сравнению с доходом), что препятствует усилиям по локализации, а также люди, предпочитающие английские версии. Windows и другого программного обеспечения. ^{[ нужна ссылка ]}

Стремление отличить хорватский язык от сербского, боснийского от хорватского и сербского, а теперь даже и черногорского от трех других, создает множество проблем. Существует множество различных локализаций, использующих разные стандарты и разного качества. Для огромного количества компьютерной терминологии, происходящей из английского языка, не существует общепринятых переводов. В конце концов, люди используют английские заимствованные слова («компьютер» для «компьютера», «компайлирати» для «компилировать» и т. д.), и если они не привыкли к переведенным терминам, они могут не понимать, что такое тот или иной пункт в меню. предполагается сделать на основе переведенной фразы. Поэтому люди, понимающие английский, а также те, кто привык к английской терминологии (а их больше всего, потому что английская терминология тоже в основном преподается в школах из-за этих проблем) регулярно выбирают оригинальные английские версии неспециализированного программного обеспечения.

При использовании кириллицы (для македонского и частично сербского ) проблема аналогична другим сценариям на основе кириллицы .

Более новые версии английской Windows позволяют кодовую страницу изменять (более старые версии требуют специальных английских версий с такой поддержкой), но этот параметр может быть и часто был установлен неправильно. Например, в Windows 98 и Windows Me можно настроить большинство однобайтовых кодовых страниц без направления справа налево, включая 1250, но только во время установки.

Кавказские языки [ править ]

Системы письма некоторых языков Кавказского региона, включая письменность грузинского и армянского языков , могут производить моджибаке. Эта проблема особенно остра в случае ArmSCII или ARMSCII — набора устаревших кодировок символов армянского алфавита, которые были заменены стандартами Unicode. ArmSCII не получил широкого распространения из-за отсутствия поддержки в компьютерной индустрии. Например, Microsoft Windows его не поддерживает.

Азиатские кодировки [ править ]

Другой тип моджибаке возникает, когда текст, закодированный в однобайтовой кодировке, ошибочно анализируется в многобайтовой кодировке, например одной из кодировок восточноазиатских языков . При использовании этого вида моджибаке одновременно повреждается более одного (обычно двух) символов. Например, если шведское слово kärlek закодировано в Windows-1252, но декодировано с помощью GBK, оно будет отображаться как «k鋜lek», где « är » анализируется как «鋜». По сравнению с приведенным выше моджибаке, его труднее читать, поскольку отсутствуют буквы, не связанные с проблемными å, ä или ö, и это особенно проблематично для коротких слов, начинающихся с å, ä или ö (например, «än» становится «鋘»). . Поскольку две буквы объединены, моджибаке также кажется более случайным (более 50 вариантов по сравнению с обычными тремя, не считая более редких заглавных букв). В некоторых редких случаях вся текстовая строка, которая включает в себя шаблоны слов определенной длины, например предложение « Буш скрыл факты », может быть неправильно истолкована.

Вьетнамский [ править ]

На вьетнамском языке это явление называется тхо ма ( Hán–Nôm : 𡨸魔, «персонажи-призраки») или loạn mã (от китайского 乱码, luànmǎ ). Это может произойти, когда компьютер пытается декодировать текст, закодированный в UTF-8, как Windows-1258 , TCVN3 или VNI. Во Вьетнаме тхо ма обычно можно было увидеть на компьютерах с ОС Windows до версии Vista или на дешевых мобильных телефонах.


Пример	Исходная кодировка	Целевая кодировка	Результат
Сто лет в человеческом мире 𤾓𢆥𥪞𡎝𠊛какой-то ( «Сказка о Киеу» , Нгуен Ду )
	UTF-8	Windows-1258	Tr Äƒ m n ã» m in c Ãμ i ng Æ°á» i ta d¤¾“đ¢†¥đ¥ªžđ¡Ž d Šääº›
		ТЦВН3	Тр¨ мн¨ м нашей жизни в �¤¾��¢��¥¥ª��¡��¾ä��
		ВНИ (Windows)	Трамвай в мире нашем ��
		Мак Роман	Tr ƒÉ m n ƒÉ m in c √µ i ng ∆∞·ªù i ta §æì¢Ü••™û°éù†äõ‰∫õ

японский [ править ]

В Японии моджибаке особенно проблематичен, поскольку существует множество различных кодировок японского текста. Помимо кодировок Unicode (UTF-8 и UTF-16), существуют и другие стандартные кодировки, такие как Shift-JIS (машины Windows) и EUC-JP (системы UNIX). Даже по сей день моджибаке часто встречается как японцами, так и неяпонцами при попытке запустить программное обеспечение, написанное для японского рынка.


Исходный текст	Исходная кодировка	Целевая кодировка	Результат
Это письмо является посланием для всех.
	UTF-8
		UTF-7	��̃��(�q��Y�_�C�G�b�g)
		EUC-JP	.
		Shift-HE	繝薙�繝。繝ｼ繝ｫ縺ｯ逧�ｧ倥ا縺ｮ繝。
		Мак Роман	„Åì „ÅÆ„É° „Эо“É ́„ÅØÁöÜÊÊßò „Å∏„ÅÆ„É°„ÉÉ„Ça „Éo„Ç∏„Åß„Åô„ÄÇ
		ИСО 8859-6	كك�ك�ك�ك�ك�هن�ك�ك�ك�كك؛ك�ك�ك�كك
		Windows-1252	ã “ã ®ãƒ¡ãƒ¼ãƒ«ã ¯çš†æ§˜ã ¸ã ®ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ã §ã ™ã€‚
	EUC-JP		¤³¤Î¥á¡¼¥ë¤Ï³§ÍÍ¤Ø¤Î¥á¥Ã¥»¡¼¥¸¤Ç¤¹¡£
	Shift-HE		‚±‚ìƒ [ƒ‹‚ÍŠF—l‚Ö‚ìƒ ƒbƒZ [ƒW‚Å‚· B

китайский [ править ]

По -китайски то же явление называется Луан му ( пиньинь , упрощенный китайский 乱码 , традиционный китайский 亂碼 , что означает «хаотический код») и может возникнуть, когда компьютерный текст закодирован в одной китайской кодировке символов , но отображается с использованием неправильной кодировки. В этом случае зачастую проблему можно решить, переключив кодировку символов без потери данных. Ситуация осложняется существованием нескольких используемых систем кодирования китайских символов, наиболее распространенными из которых являются: Unicode , Big5 и Guobiao (с несколькими обратно совместимыми версиями), а также возможностью кодирования китайских символов с использованием японской кодировки.

Относительно легко определить исходную кодировку, когда luànmώ встречается в кодировках Guobiao:

Исходный текст	Исходная кодировка	Целевая кодировка	Результат	Примечание
Хроники Трех Королевств: Биография Цао Цао	Большой5	ГБ	�Т- клапан становится огромным животом T瓣в变巨肚	Искаженные символы, почти не имеющие намека на первоначальный смысл. Красный символ не является допустимым кодом в GB 2312 .
Проверка искаженного текста	Shift-HE		暥帤壔偗флуоресценция僗僩	Кана отображается как символы с радикалом 亻 (китайский: 單人旁 ; пиньинь: dānrénpáng ), а кандзи — это другие символы. Многие заменяющие символы крайне необычны в современном китайском языке. Его довольно легко идентифицировать благодаря наличию нескольких последовательных символов 亻.
DJ Макс Техника	EUC-КР		Кальциевый клей и чернила Nongcong	Случайные упрощенные символы , которые в большинстве случаев не имеют смысла. Вероятно, его легче всего идентифицировать из-за пробелов между каждыми несколькими символами.

Дополнительная проблема в китайском языке возникает, когда в некоторых кодировках отсутствуют редкие или устаревшие символы, многие из которых до сих пор используются в личных названиях или географических названиях. Примеры этого:

xuān 王建 Отсутствие в кодировке Big5 буквы «煊» ( ) в имени тайваньского политика Ван Цзянь-шиена (китайский: 煊 ; пиньинь: Wáng Jiànxuān ), буквы «堃» ( kūn ) в имени Юй Шии-куна ( упрощенный китайский: 游锡堃 ; традиционный китайский: 游錫堃 ; пиньинь: Ю Сикунь ) и «喆» ( чжэ ) в имени певца Дэвида Тао (китайский: 陶喆 ; пиньинь: Тао Чжэ ),
в GB 2312 отсутствие буквы «镕» ( róng ) в слове бывшего премьер-министра КНР Чжу Жунцзи (кит.: Zhu Rongji ; пиньинь: Zhu Róngji ), и
GBK Отсутствие у символа авторского права "©" . ^[10]

Газеты по-разному справлялись с недостающими символами, в том числе использовали программное обеспечение для редактирования изображений для их синтеза путем объединения других радикалов и символов; используя изображения личностей (в случае имен людей) или просто заменяя омофоны в надежде, что читатели смогут сделать правильный вывод.

Индийский текст [ править ]

Подобный эффект может произойти в брахмических или индийских письменностях Южной Азии , используемых в таких индоарийских или индийских языках, как хиндустани (хинди-урду), бенгали , пенджаби , маратхи и других, даже если используемый набор символов правильно распознается приложение. Это связано с тем, что во многих индийских сценариях правила, по которым отдельные буквенные символы объединяются для создания символов для слогов, могут быть неправильно поняты компьютером, у которого нет соответствующего программного обеспечения, даже если глифы для отдельных буквенных форм доступны.

Одним из примеров этого является старый логотип Википедии , который пытается показать символ, аналогичный «wi» (первый слог слова «Arc.Ask3.Ru»), на каждой из многих частей головоломки. Кусочек головоломки, предназначенный для обозначения символа деванагари , обозначающего «ви», вместо этого использовался для отображения символа «ва», за которым следовала непарная гласная -модификатор «i» , легко узнаваемая как моджибаке, сгенерированная компьютером, не настроенным для отображения индийского текста. ^[11] Логотип в измененном дизайне по состоянию на май 2010 г. ^[ref] исправил эти ошибки.

Идея обычного текста требует, чтобы операционная система предоставила шрифт для отображения кодов Unicode. Этот шрифт для сингальского языка отличается от ОС к ОС и создает орфографически неправильные глифы для некоторых букв (слогов) во всех операционных системах. Например, «reph», короткая форма буквы «r», представляет собой диакритический знак, который обычно ставится поверх простой буквы. Однако неправильно использовать некоторые буквы, такие как «йа» или «ла», в определенных контекстах. Для санскритских слов или имен, унаследованных современными языками, таких как कार्य, IAST: kārya или आर्या, IAST: aryā , его можно поставить поверх этих букв. Напротив, для подобных звуков в современных языках, которые возникают в результате их определенных правил, он не ставится сверху, например, слово करणाऱ्या, IAST: karaṇāryā , основа общего слова करणारा/री, IAST: kaṇārā/rī , на языке маратхи . ^[12] Но это происходит в большинстве операционных систем. Похоже, это ошибка внутреннего программирования шрифтов. В Mac OS и iOS комбинация muurdhaja l (темная l) и «u», а также ее длинная форма дают неправильные формы. ^{[ нужна ссылка ]}

Некоторые индийские и производные от индийских алфавитов, особенно лаосский , официально не поддерживались Windows XP до выпуска Vista . ^[13] Однако на различных сайтах шрифты доступны для бесплатной загрузки.

бирманский [ править ]

Из-за западных санкций ^[14] и позднее появление поддержки бирманского языка в компьютерах, ^[15]^[16] большая часть ранней бирманской локализации была разработана внутри страны без международного сотрудничества. Преобладающим средством поддержки бирманского языка является шрифт Zawgyi , шрифт, который был создан как шрифт Unicode , но на самом деле лишь частично совместим с Unicode. ^[16] В шрифте Zawgyi некоторые кодовые точки для бирманского письма были реализованы так, как указано в Unicode , а другие — нет. ^[17] Консорциум Unicode называет это специальными кодировками шрифтов . ^[18] С появлением мобильных телефонов производители мобильных устройств, такие как Samsung и Huawei, просто заменили системные шрифты, совместимые с Unicode, версиями Zawgyi. ^[15]

Из-за этих специальных кодировок сообщения между пользователями Zawgyi и Unicode будут отображаться как искаженный текст. Чтобы обойти эту проблему, производители контента должны публиковать сообщения как в Zawgyi, так и в Unicode. ^[19] Правительство Мьянмы объявило 1 октября 2019 года «Днем U», чтобы официально перейти на Unicode. ^[14] По оценкам, полный переход займет два года. ^[20]

Африканские языки [ править ]

В некоторых системах письменности Африки незакодированный текст не читается. Тексты, которые могут создавать моджибаке, включают тексты с Африканского Рога, такие как письмо геэз в Эфиопии и Эритрее , используемое для амхарского , тигрского и других языков, а также сомалийский язык , в котором используется алфавит османия . В Южной Африке алфавит Мвангвего используется для написания языков Малави , а алфавит Мандомбе был создан для Демократической Республики Конго , но они обычно не поддерживаются. Различные другие системы письма, родные для Западной Африки, представляют аналогичные проблемы, такие как алфавит нко , используемый для языков мандинг в Гвинее , и слоговое письмо вай , используемое в Либерии .

арабский [ править ]

Еще один затронутый язык — арабский (см. ниже ), на котором текст становится совершенно нечитаемым, если кодировки не совпадают.

Примеры [ править ]

арабский пример	Браузерный рендеринг	Исходная кодировка	Целевая кодировка	Результат
( Всеобщая декларация прав человека )
	Всеобщая декларация прав человека
		UTF-8	КОИ8-Р	ь╖ы└ь╔ь╧ы└ь╖ы├ ь╖ы└ь╧ь╖ы└ы┘ы┴ ы└ь╜ы┌ы┬ы┌ ь╖ы└ь╔ы├ьЁь╖ы├
			Windows-1250	Ř§Ů„ŘĄŘąŮŘ§Ů† Ř§Ů„ŘąŘ§Ů„Ů…Ů‰ Ů„ŘŮ‚ŮˆŮ‚ Ř§Ů„ŘĄŮ†ŘłŘ§Ů†
			Windows-1251	Ш§Щ„ШҐШ№Щ“Ш§Щ† Ш§Щ„Ш№Ш§Щ„Щ…Щ‰ Щ„ШЩ‚Щ€Щ‚ Ш§Щ„ШҐЩ†ШіШ§Щ†
			Windows-1252	Ø§Ù„Ø¥Ø¹Ù“Ø§Ù† Ø§Ù„Ø¹Ø§Ù„Ù…Ù‰ Ù„ØÙ‚ÙˆÙ‚ Ø§Ù„Ø¥Ù†Ø³Ø§Ù†
			Windows-1256	ت§ظ„ط¥ط¹ظ„ط§ظ†
			ИСО 8859-5	иЇй�иЅиЙй�иЇй� иЇй�иЙиЇй�й�й� й�ий�й�й� иЇй�иЅй�иГиЇй�
			ИСО 8859-6	ظ�عظ�ظ�عظ�ع ظ�عظ�ظ�ععع عظععع ظ�عظ�عظ�ظ�ع
			КП 852	ěž┘äěąě╣┘äěž┘ć ěž┘äě╣ěž┘ä┘ů┘ë ┘äěş┘é┘ł┘é ěž┘äěą┘ćě│ěž┘ć
			КП 866	╪з┘Д╪е╪╣┘Д╪з┘Ж ╪з┘Д╪╣╪з┘Д┘Е┘Й ┘Д╪н┘В┘И┘В ╪з┘Д╪е┘Ж╪│╪з┘Ж
			Мак-арабский	ذ'عظ%ظ9عÑظ'عÜ ظ'عÑظ9ظ'عÑعÖعâ ؑظ-عÇعàعÇ ظ'عÑظ%عÜظ3ظ'عÜ
			Мак Роман	ÿßŸÑÿ•ÿπŸÑÿßŸÜ ÿßŸÑÿπÿßŸÑŸÖŸâ ŸÑÿ≠ŸÇŸàŸÇ ÿßŸÑÿ•ŸÜÿ≥ÿßŸÜ
		Мак-арабский		«‰≈Ÿ‰«Ê†«‰Ÿ«‰ÂÈ†‰Õ‚Ë‚†«‰≈Ê»«Ê
		Windows-1256		«·≈⁄·«‰ «·⁄«·„Ï ·ÕfiÊfi «·≈‰»«‰
		Windows-1256	Windows-1252	Сана Сана Сана Сана

В примерах в этой статье нет UTF-8 в качестве настройки браузера, поскольку UTF-8 легко распознается, поэтому, если браузер поддерживает UTF-8, он должен распознавать его автоматически, а не пытаться интерпретировать что-то еще как UTF-8.

См. также [ править ]

Кодовая точка
Заменяющий символ
Заменить символ
Новая строка . Правила представления разрыва строки различаются в системах Windows и Unix. Хотя большая часть программного обеспечения поддерживает оба соглашения (что тривиально), программное обеспечение, которое должно сохранять или отображать разницу (например, системы контроля версий и инструменты сравнения данных ), может оказаться существенно более трудным в использовании, если не придерживаться одного соглашения.
Метка порядка байтов . Самый удобный способ сохранить кодировку вместе с данными — добавить ее в начало. Это намеренно невидимо для людей, использующих совместимое программное обеспечение, но по замыслу будет восприниматься как «мусорные символы» для несовместимого программного обеспечения (включая многие интерпретаторы ).
Объекты HTML . Кодировка специальных символов в HTML, в основном необязательная, но необходимая для того, чтобы определенные символы не интерпретировались как разметка. Хотя невозможность применить это преобразование является уязвимостью (см. межсайтовый скриптинг ), его слишком частое применение приводит к искажению этих символов. Например, кавычка " становится ", &quot;, &amp;quot; и так далее.
Буш скрыл факты

Ссылки [ править ]

^ Кинг, Ричи (2012). «Станет ли скоро Юникод универсальным кодом? [Данные]». IEEE-спектр . 49 (7): 60. doi : 10.1109/MSPEC.2012.6221090 .
^ ВИНДИШМАН, Стефан (31 марта 2004 г.). «curl -v linux.ars (Интернационализация)» . Арс Техника . Проверено 5 октября 2018 г.
^ «Руководство по расширенным атрибутам» . 17 мая 2013 г. Проверено 15 февраля 2015 г.
^ «Список рассылки Unicode в почтовом клиенте Eudora» . 13 мая 2001 г. Проверено 1 ноября 2014 г.
^ «смс-мошенничество» (на норвежском языке). 18 июня 2014 года . Проверено 19 июня 2014 г.
^ с. 141, Control+Alt+Delete: Словарь киберсленга , Джонатон Китс, Globe Pequot, 2007, ISBN 1-59921-039-8 .
^ «Статистика использования Windows-1251 для веб-сайтов» . w3techs.com .
^ «Статистика использования KOI8-R для веб-сайтов» . w3techs.com .
^ «Объявление кодировок символов в HTML» .
^ «ГБК КНР (XGB)» . Майкрософт . Архивировано из оригинала 1 октября 2002 г. Карта преобразования между кодовой страницей 936 и Unicode. необходимо вручную выбрать GB 18030 или GBK в браузере. Для правильного просмотра
^ Коэн, Ноам (25 июня 2007 г.). «Некоторые ошибки не поддаются исправлению: опечатка в логотипе Википедии разрушает санскрит» . Нью-Йорк Таймс . Проверено 17 июля 2009 г.
^ «Набор текста на маратхи | С английского на маратхи | Набор текста на маратхи онлайн» . marathi.indiatyping.com . Проверено 2 августа 2022 г.
^ «Содержимое перемещено (Windows)» . Msdn.microsoft.com . Проверено 5 февраля 2014 г.
^ Jump up to: Перейти обратно: ^а ^б «Юникод присутствует, Заги уходит: современность наконец-то догоняет цифровой мир Мьянмы» . Джапан Таймс . 27 сентября 2019 года. Архивировано из оригинала 30 сентября 2019 года . Проверено 24 декабря 2019 г. 1 октября — «День U», когда Мьянма официально примет новую систему… Microsoft и Apple помогли другим странам стандартизировать много лет назад, но западные санкции означали, что Мьянма проиграла.
^ Jump up to: Перейти обратно: ^а ^б Хочкисс, Гриффин (23 марта 2016 г.). «Битва шрифтов» . Граница Мьянмы . Проверено 24 декабря 2019 г. С выпуском пакета обновления 2 для Windows XP стали поддерживаться сложные сценарии, что позволило Windows отображать бирманский шрифт, совместимый с Unicode, такой как Myanmar1 (выпущенный в 2005 году). ... Мьязеди, BIT, а затем и Загий, решили проблему рендеринга, добавив дополнительные кодовые точки, зарезервированные для этнических языков Мьянмы. Переназначение не только предотвращает будущую поддержку этнических языков, но и приводит к тому, что система набора текста может сбивать с толку и быть неэффективной даже для опытных пользователей. ... Huawei и Samsung, два самых популярных бренда смартфонов в Мьянме, мотивированы только захватом наибольшей доли рынка, а это означает, что они поддерживают Zawgyi «из коробки».
^ Jump up to: Перейти обратно: ^а ^б Син, Тан (7 сентября 2019 г.). «Объединены в одной системе шрифтов, поскольку Мьянма готовится перейти с Zawgyi на Unicode» . Восходящие голоса . Проверено 24 декабря 2019 г. Стандартные шрифты Unicode Мьянмы никогда не были широко распространены, в отличие от частного и частично совместимого с Unicode шрифта Zawgyi. ... Unicode улучшит обработку естественного языка
^ «Зачем нужен Юникод» . Код Google: Проект Zawgyi . Проверено 31 октября 2013 г.
^ «Писания и языки Мьянмы» . Часто задаваемые вопросы . Консорциум Юникод . Проверено 24 декабря 2019 г. «UTF-8» технически не применяется к специальным кодировкам шрифтов, таким как Zawgyi.
^ ЛаГроу, Ник; Прузан, Мири (26 сентября 2019 г.). «Интеграция автоконвертации: путь Facebook от Zawgyi к Unicode — Facebook Engineering» . Фейсбук Инжиниринг . Фейсбук . Проверено 25 декабря 2019 г. Это затрудняет общение на цифровых платформах, поскольку контент, написанный в Юникоде, кажется пользователям Zawgyi искаженным, и наоборот. ... Чтобы лучше охватить свою аудиторию, производители контента в Мьянме часто публикуют в одном сообщении одновременно и Zawgyi, и Unicode, не говоря уже об английском или других языках.
^ Пила Йи Нанда (21 ноября 2019 г.). «Переход Мьянмы на Unicode займет два года: разработчик приложений» . Мьянма Таймс . Архивировано из оригинала 24 декабря 2019 года . Проверено 24 декабря 2019 г.

Внешние ссылки [ править ]

Словарное определение моджибаке в Викисловаре
СМИ, связанные с Моджибаке, на Викискладе?

[ieee-1] Кинг, Ричи (2012). «Станет ли скоро Юникод универсальным кодом? [Данные]». IEEE-спектр . 49 (7): 60. doi : 10.1109/MSPEC.2012.6221090 .

[2] ВИНДИШМАН, Стефан (31 марта 2004 г.). «curl -v linux.ars (Интернационализация)» . Арс Техника . Проверено 5 октября 2018 г.

[3] «Руководство по расширенным атрибутам» . 17 мая 2013 г. Проверено 15 февраля 2015 г.

[4] «Список рассылки Unicode в почтовом клиенте Eudora» . 13 мая 2001 г. Проверено 1 ноября 2014 г.

[5] «смс-мошенничество» (на норвежском языке). 18 июня 2014 года . Проверено 19 июня 2014 г.

[6] с. 141, Control+Alt+Delete: Словарь киберсленга , Джонатон Китс, Globe Pequot, 2007, ISBN 1-59921-039-8 .

[7] «Статистика использования Windows-1251 для веб-сайтов» . w3techs.com .

[8] «Статистика использования KOI8-R для веб-сайтов» . w3techs.com .

[9] «Объявление кодировок символов в HTML» .

[10] «ГБК КНР (XGB)» . Майкрософт . Архивировано из оригинала 1 октября 2002 г. Карта преобразования между кодовой страницей 936 и Unicode. необходимо вручную выбрать GB 18030 или GBK в браузере. Для правильного просмотра

[NYTimes-11] Коэн, Ноам (25 июня 2007 г.). «Некоторые ошибки не поддаются исправлению: опечатка в логотипе Википедии разрушает санскрит» . Нью-Йорк Таймс . Проверено 17 июля 2009 г.

[12] «Набор текста на маратхи | С английского на маратхи | Набор текста на маратхи онлайн» . marathi.indiatyping.com . Проверено 2 августа 2022 г.

[13] «Содержимое перемещено (Windows)» . Msdn.microsoft.com . Проверено 5 февраля 2014 г.

[japantimes-14] Jump up to: Перейти обратно: ^а ^б «Юникод присутствует, Заги уходит: современность наконец-то догоняет цифровой мир Мьянмы» . Джапан Таймс . 27 сентября 2019 года. Архивировано из оригинала 30 сентября 2019 года . Проверено 24 декабря 2019 г. 1 октября — «День U», когда Мьянма официально примет новую систему… Microsoft и Apple помогли другим странам стандартизировать много лет назад, но западные санкции означали, что Мьянма проиграла.

[griffin-15] Jump up to: Перейти обратно: ^а ^б Хочкисс, Гриффин (23 марта 2016 г.). «Битва шрифтов» . Граница Мьянмы . Проверено 24 декабря 2019 г. С выпуском пакета обновления 2 для Windows XP стали поддерживаться сложные сценарии, что позволило Windows отображать бирманский шрифт, совместимый с Unicode, такой как Myanmar1 (выпущенный в 2005 году). ... Мьязеди, BIT, а затем и Загий, решили проблему рендеринга, добавив дополнительные кодовые точки, зарезервированные для этнических языков Мьянмы. Переназначение не только предотвращает будущую поддержку этнических языков, но и приводит к тому, что система набора текста может сбивать с толку и быть неэффективной даже для опытных пользователей. ... Huawei и Samsung, два самых популярных бренда смартфонов в Мьянме, мотивированы только захватом наибольшей доли рынка, а это означает, что они поддерживают Zawgyi «из коробки».

[sin-16] Jump up to: Перейти обратно: ^а ^б Син, Тан (7 сентября 2019 г.). «Объединены в одной системе шрифтов, поскольку Мьянма готовится перейти с Zawgyi на Unicode» . Восходящие голоса . Проверено 24 декабря 2019 г. Стандартные шрифты Unicode Мьянмы никогда не были широко распространены, в отличие от частного и частично совместимого с Unicode шрифта Zawgyi. ... Unicode улучшит обработку естественного языка

[17] «Зачем нужен Юникод» . Код Google: Проект Zawgyi . Проверено 31 октября 2013 г.

[unicode_faq-18] «Писания и языки Мьянмы» . Часто задаваемые вопросы . Консорциум Юникод . Проверено 24 декабря 2019 г. «UTF-8» технически не применяется к специальным кодировкам шрифтов, таким как Zawgyi.

[fb_eng-19] ЛаГроу, Ник; Прузан, Мири (26 сентября 2019 г.). «Интеграция автоконвертации: путь Facebook от Zawgyi к Unicode — Facebook Engineering» . Фейсбук Инжиниринг . Фейсбук . Проверено 25 декабря 2019 г. Это затрудняет общение на цифровых платформах, поскольку контент, написанный в Юникоде, кажется пользователям Zawgyi искаженным, и наоборот. ... Чтобы лучше охватить свою аудиторию, производители контента в Мьянме часто публикуют в одном сообщении одновременно и Zawgyi, и Unicode, не говоря уже об английском или других языках.

[mmti_Myan-20] Пила Йи Нанда (21 ноября 2019 г.). «Переход Мьянмы на Unicode займет два года: разработчик приложений» . Мьянма Таймс . Архивировано из оригинала 24 декабря 2019 года . Проверено 24 декабря 2019 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

v т и Кодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун/Кана китайский Кириллица корейский Бодо и Мюррей Полевые данные ASCII ИСО/МЭК 646 BCDIC-код Телетекс и Видеотекс / Телетекст Т.51/ИСО/МЭК 6937 ИТ Т.61 ИТ Т.101 Мировая система телетекста фон наборы Перекодировать
ИСО/МЭК 8859	Утвержденные детали -1 (Западная Европа) -2 (Центральная Европа) -3 (мальтийский/эсперанто) -4 (Северная Европа) -5 (кириллица) -6 (арабский) -7 (греческий) -8 (иврит) -9 (турецкий) -10 (Скандинавия) -11 (тайский) -13 (Балтика) -14 (Селтик) -15 (Новая Западная Европа) -16 (румынский) Заброшенные части -12 (Деванагари) Предложено, но не одобрено КОИ-8 кириллица Саамы Адаптации валлийский Баренцева кириллица эстонский Украинская кириллица
Библиографическое использование	МАРК-8 АНСЕЛЬ CCII/EACC ИСО 5426 5426-2 5427 5428 6438 6862
Национальные стандарты	АрмSCII Большой5 БраSCII ЦНС 11643 DIN 66003 ЭЛОТ 927 ГОСТЬ 10859 ГБ 2312 ГБ 12345 ГБ 12052 ГБ 18030 HKSCS ИЩИС ДЖИС Х 0201 ДЖИС Х 0208 ДЖИС Х 0212 ДЖИС Х 0213 ТРЕБОВАНИЕ-7 КПС 9566 КС Х 1001 КС Х 1002 ЛСТ 1564 ЛСТ 1590-4 ПАСХА Сдвиг HE СИ 960 ТИС-620 ТСКИИ ВИСКИ VSCII ДЖОЗЕФ
ИСО/МЭК 2022	ИСО/МЭК 8859 ИСО/МЭК 10367 Расширенный код Unix/EUC
Mac OS Кодовые страницы («сценарии»)	Армянский арабский Баренцева кириллица Селтик Центральноевропейский хорватский Кириллица Деванагари Фарси (персидский) Шрифт X (Кермит) гэльский грузинский Греческий Гуджарати Гурмухи иврит Исландия Инуиты Клавиатура Латынь (Кермит) Мальтийский/Эсперанто Огам Роман румынский Саамы турецкий Тюркская кириллица Украинский ВТ100
Кодовые страницы DOS	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1034 1040 1042 1043 1044 1098 1115 1116 1117 1118 1127 3846 АБИКОМП CS Индик CSX Индик CSX+ Индикация КРИ-2 Иранская система Каменицкий Мазовия ЧТО
Кодовые страницы IBM AIX	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1124 1133
Кодовые страницы Windows	ССЭР-ГС 932 936 ( ГБК ) 950 1169 Расширенная латиница-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий
EBCDIC Кодовые страницы	Японский язык в EBCDIC ДКОИ
DEC Терминалы ( VTx )	Многонациональный (MCS) Национальная замена (NRCS) Французский канадец швейцарский испанский Великобритания Голландский финский Французский норвежский и датский Шведский Норвежский и датский (альтернативный вариант) 8-битный греческий 8-битный турецкий СИ 960 иврит Специальная графика Технический (ТКС)
Зависит от платформы	1052 1053 1054 1055 1056 1057 1058 ОС Acorn RISC Амстрад КТК Яблоко II ПРИЛОЖЕНИЯ Атари СТ БИКС Калькуляторы Касио CDC Компюколор 8001 Компюколор II КП/М+ ОСНОВАНИЕ ДЕКАБРЯ 50 ДЭК МКС / НРКС Генеральный директор по международным делам Галактика драгоценный камень GSM 03.38 HP Роман HP ФОКАЛ ХП РПЛ Сжать ЛИКС ЛМБКС MSX НЭК БТР Следующий ПЕТСКИИ Стандарт PostScript Постскриптум латиница 1 СЭМ Купе Сега СК-3000 Калькуляторы Sharp Шарп МЗ Синклер, QL Телетекст Калькуляторы TI ТРС-80 Вентура Интернэшнл ВИСЦИИ XCCS ZX80 ZX81 ZX Спектр
Юникод / ИСО/МЭК 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC ГБ 18030 ОТ 91379 БУТЫЛКА-1 ЦЭСУ-8 ЮКГУ ТАСЕ16 Сравнение кодировок Unicode
TeX Система набора текста	Корк LY1 ОМЛ ОМС OT1
Разные кодовые страницы	АБИКОМП ЦЕЛЬ 449 Цифровое кодирование символов APL ИСО-ИР-68 АРИБ СТД-B24 Полевые данные ХЗ МЭК-П27-1 РАЗДРАЖЕННЫЙ 7-битный 8-битный ИСО-ИР-169 ИСО 2033 НЕОБХОДИМЫЙ КОИ8-Р КОИ8-RU КОИ8-У Модзикё СЕЗОНЫ Стэнфорд/ИТС Символ ТРОН Единый кодекс хангыль
Управляющий персонаж	Азбука Морзе Коды управления C0 и C1 ИСО/МЭК 6429 ДЖИС Х 0211 Управляющие символы Юникода, формат и символы-разделители Пробельные символы
Связанные темы	CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Кодовая страница оборудования MICR-код Моджибаке Кодирование переменной длины
Наборы символов