~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 844CA71C0DBF07DC7CEB9A11F3CA5341__1713990600 ✰
Заголовок документа оригинал.:
✰ Mojibake - Wikipedia ✰
Заголовок документа перевод.:
✰ Моджибаке — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Mojibake ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/84/41/844ca71c0dbf07dc7ceb9a11f3ca5341.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/84/41/844ca71c0dbf07dc7ceb9a11f3ca5341__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 18:19:59 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 24 April 2024, at 23:30 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Моджибаке — Википедия Jump to content

Моджибаке

Из Википедии, бесплатной энциклопедии
Статья UTF-8 в кодировке японской Википедии для Mojibake отображается так, как если бы она интерпретировалась как Windows-1252.
Статья UTF-8 в кодировке о церковнославянском языке в русской Википедии отображается так, как если бы она интерпретировалась как KOI8-R.

Моджибаке ( яп .: искаженные символы ; IPA: [mod͡ʑibake] , «преобразование символов») — это искаженный или бредовый текст, который является результатом декодирования текста с использованием непредусмотренной кодировки символов . [1] Результатом является систематическая замена символов совершенно несвязанными между собой, часто из другой системы письма .

Это отображение может включать общий символ замены («�») в тех местах, где двоичное представление считается недействительным. Замена также может включать несколько последовательных символов, если рассматривать их в одной кодировке, когда один и тот же двоичный код представляет собой один символ в другой кодировке. Это происходит либо из-за различий в кодировке постоянной длины (как в азиатских 16-битных кодировках и европейских 8-битных кодировках), либо из-за использования кодировок переменной длины (особенно UTF-8 и UTF-16 ).

Неудачная отрисовка глифов из-за отсутствия шрифта или отсутствия глифов в шрифте — это другая проблема, которую не следует путать с моджибаке. Признаками этого неудачного рендеринга являются блоки с кодовой точкой , отображаемой в шестнадцатеричном формате или с использованием общего символа замены. Важно отметить, что эти замены действительны и являются результатом правильной обработки ошибок программным обеспечением.

Причины [ править ]

Для корректного воспроизведения исходного закодированного текста необходимо сохранить соответствие между закодированными данными и понятием их кодирования (т. е. исходный и целевой стандарты кодирования должны совпадать). Поскольку моджибаке является примером несоответствия между ними, этого можно достичь, манипулируя самими данными или просто переименовывая их.

Mojibake часто встречается с текстовыми данными, помеченными неправильной кодировкой; он может вообще не быть помечен, а перемещаться между компьютерами с разными кодировками по умолчанию. Основным источником проблем являются протоколы связи , которые полагаются на настройки каждого компьютера, а не на отправку или сохранение метаданных вместе с данными.

Различные настройки по умолчанию на разных компьютерах частично объясняются разным применением Unicode в разных семействах операционных систем , а частично — специализацией устаревших кодировок для разных систем письма человеческих языков. В то время как дистрибутивы Linux в основном перешли на UTF-8 в 2004 году, [2] Microsoft Windows обычно использует UTF-16, а иногда и 8-битные кодовые страницы для текстовых файлов на разных языках.

Для некоторых систем письма , таких как японская , исторически использовалось несколько кодировок, из-за чего пользователи относительно часто видели моджибаке. Например, само слово моджибаке («文字化け»), хранящееся как EUC-JP, может неправильно отображаться как «ハクサ�ス、ア», «ハクサ嵂ス、ア» ( MS-932 ) или «ハクサ郾ス». 、ア», если интерпретируется как Shift-JIS или как «Ê¸»ú²½¤±» в программном обеспечении, которое предполагает, что текст находится в кодировке Windows-1252 или ISO 8859-1 , обычно обозначаемой Western или Western European . Ситуация еще больше усугубляется, если задействованы другие локали: тот же текст, хранящийся в формате UTF-8 , отображается как «譁蟄怜喧縺», если интерпретируется как Shift-JIS, как «æ–‡å—化ã '», если интерпретируется как Western или (например) как «鏂囧瓧鍖栥亼», если интерпретируется как находящийся в локали GBK (материковый Китай).

Пример Моджибаке
Оригинальный текст искусство Характер изменять волосы
Необработанные байты кодировки EUC-JP ЧТО Б8 ББ НО Би 2 БД A4 Б1
Байты EUC-JP интерпретируются как Shift-JIS Ха А
Байты EUC-JP интерпретируются как GBK стрелка машина шаг волосы
Байты EUC-JP интерпретируются как Windows-1252. Э ¸ » ты ² ½ ¤ ±
Необработанные байты кодировки UTF-8. Е6 96 87 Е5 ОБЪЯВЛЕНИЕ 97 Е5 96 Е3 81 91
Байты UTF-8 интерпретируются как Shift-JIS высокомерие жало жалость шум нить
Байты UTF-8 интерпретируются как GBK упс
Байты UTF-8 интерпретируются как Windows-1252. ой к ЗАСТЕНЧИВЫЙ к О ã ПРЫГАТЬ

Недостаточная спецификация [ править ]

Если кодировка не указана, программное обеспечение должно определить ее другими способами. В зависимости от типа программного обеспечения типичным решением является эвристика определения конфигурации или кодировки . Оба склонны к ошибочным прогнозам.

На кодировку текстовых файлов влияют настройки локали , которые зависят от языка пользователя, марки операционной системы и многих других условий. Таким образом, предполагаемая кодировка систематически неверна для файлов, поступающих с компьютера с другими настройками или даже из другого локализованного программного обеспечения в той же системе. Для Unicode одним из решений является использование знака порядка байтов , но для исходного кода и другого машиночитаемого текста многие парсеры этого не допускают. Другой вариант — сохранение кодировки в виде метаданных в файловой системе. Файловые системы, поддерживающие расширенные атрибуты файлов, могут хранить это как user.charset. [3] Это также требует поддержки со стороны программного обеспечения, которое хочет воспользоваться этим, но не мешает другому программному обеспечению.

Хотя некоторые кодировки легко обнаружить, например UTF-8, многие из них трудно различить (см. Определение кодировки ). Веб -браузер может быть не в состоянии отличить страницу, закодированную в EUC-JP , от другой в Shift-JIS, если кодировка не назначена явно с помощью заголовков HTTP , отправляемых вместе с документами, или с использованием HTML- документа метатегов , которые используются для замены за отсутствие заголовков HTTP, если сервер не может быть настроен на отправку правильных заголовков HTTP; см. кодировки символов в HTML .

Неправильная спецификация [ править ]

Моджибаке также возникает, когда неверно указана кодировка. Это часто происходит между похожими кодировками. Например, известно, что почтовый клиент Eudora для Windows отправлял электронные письма, помеченные как ISO 8859-1 , которые на самом деле были Windows-1252 . [4] Windows-1252 содержит дополнительные печатные символы в диапазоне C1 (наиболее часто встречающиеся — изогнутые кавычки и дополнительные тире ), которые не отображались должным образом в программном обеспечении, соответствующем стандарту ISO; особенно это затронуло программное обеспечение, работающее под управлением других операционных систем, таких как Unix .

Пользовательский контроль [ править ]

Из кодировок, которые до сих пор широко используются, многие возникли из ASCII и добавления поверх него; в результате эти кодировки частично совместимы друг с другом. Примеры этого включают Windows-1252 и ISO 8859-1. Таким образом, люди могут перепутать используемый ими расширенный набор кодировок с простым ASCII.

Чрезмерная спецификация [ править ]

Когда существуют уровни протоколов, каждый из которых пытается указать кодировку на основе различной информации, наименее надежная информация может ввести получателя в заблуждение. Например, рассмотрим веб-сервер , обслуживающий статический HTML-файл через HTTP. Набор символов может быть передан клиенту любым из трех способов:

  • в HTTP-заголовке. Эта информация может основываться на конфигурации сервера (например, при передаче файла с диска) или контролироваться приложением, работающим на сервере (для динамических веб-сайтов).
  • в файле в виде метатега HTML ( http-equiv или charset) или encodingатрибут объявления XML . Это кодировка, в которой автор хотел сохранить конкретный файл.
  • в файле как знак порядка байтов . Это та кодировка, в которой его фактически сохранил редактор автора. Если только не произошло случайное преобразование кодировки (путем открытия в одной кодировке и сохранения в другой), это будет правильно. Однако он доступен только в кодировках Unicode , таких как UTF-8 или UTF-16.

Отсутствие аппаратной или программной поддержки [ править ]

Гораздо более старое оборудование обычно рассчитано на поддержку только одного набора символов, и этот набор символов обычно не может быть изменен. Таблица символов, содержащаяся в прошивке дисплея, будет локализована и будет содержать символы для страны, в которой продается устройство, и обычно таблица различается от страны к стране. Таким образом, эти системы потенциально будут отображать моджибаке при загрузке текста, сгенерированного в системе из другой страны. Аналогичным образом, многие ранние операционные системы не поддерживают несколько форматов кодирования и, таким образом, в конечном итоге будут отображать моджибаке, если они будут отображать нестандартный текст — например, ранние версии Microsoft Windows и Palm OS локализуются для каждой страны и будут доступны только для каждой страны. поддерживает стандарты кодирования, соответствующие стране, в которой будет продаваться локализованная версия, и будет отображать mojibake, если открывается файл, содержащий текст в формате кодировки, отличном от версии, для поддержки которой предназначена ОС.

Резолюции [ править ]

Приложения, использующие UTF-8 в качестве кодировки по умолчанию, могут достичь большей степени совместимости благодаря его широкому использованию и обратной совместимости с US-ASCII . UTF-8 также может напрямую распознаваться с помощью простого алгоритма, поэтому хорошо написанное программное обеспечение должно избегать смешивания UTF-8 с другими кодировками.

Сложность устранения экземпляра моджибаке варьируется в зависимости от приложения, в котором он возникает, и его причин. Двумя наиболее распространенными приложениями, в которых может возникнуть mojibake, являются веб-браузеры и текстовые процессоры . Современные браузеры и текстовые процессоры часто поддерживают широкий спектр кодировок символов. Браузеры часто позволяют пользователю изменять настройки кодировки своего механизма рендеринга на лету, а текстовые процессоры позволяют пользователю выбирать подходящую кодировку при открытии файла. может потребоваться метод проб и ошибок, Пользователям чтобы найти правильную кодировку.

Проблема усложняется, когда она возникает в приложении, которое обычно не поддерживает широкий диапазон кодировок символов, например в компьютерной игре, не поддерживающей Юникод. В этом случае пользователь должен изменить настройки кодировки операционной системы, чтобы они соответствовали настройкам игры. Однако изменение общесистемных настроек кодирования также может привести к появлению Mojibake в уже существующих приложениях. В Windows XP или более поздней версии пользователь также имеет возможность использовать Microsoft AppLocale , приложение, которое позволяет изменять настройки локали для каждого приложения. Несмотря на это, изменение настроек кодировки операционной системы невозможно в более ранних операционных системах, таких как Windows 98 ; Чтобы решить эту проблему в более ранних операционных системах, пользователю приходилось использовать сторонние приложения для рендеринга шрифтов.

Проблемы в разных системах письма [ править ]

английский [ править ]

Моджибаке в английских текстах обычно встречается в знаках препинания, таких как длинные тире (—), длинные тире (–) и фигурные кавычки («»,,','), но редко в символьном тексте, поскольку большинство кодировок согласуются с ASCII в кодировка английского алфавита . Например, знак фунта £ появится как £если он был закодирован отправителем как UTF-8 , но интерпретирован получателем как одна из западноевропейских кодировок ( CP1252 или ISO 8859-1 ). Если повторить с использованием CP1252, это может привести к £, £, £, £, и так далее.

Аналогично, правая одинарная кавычка (') при кодировании в UTF-8 и декодировании с помощью Windows-1252 становится ’, ’, ’, и так далее.

В старые времена некоторые компьютеры имели кодировки, специфичные для конкретного поставщика, что приводило к несоответствию также и английского текста. Commodore марки В 8-битных компьютерах использовалась кодировка PETSCII , особенно примечательная инвертированием верхнего и нижнего регистра по сравнению со стандартным ASCII . Принтеры PETSCII прекрасно работали на других компьютерах той эпохи, но меняли регистр всех букв. IBM Мэйнфреймы используют кодировку EBCDIC , которая вообще не соответствует ASCII.

Другие западноевропейские языки [ править ]

Алфавиты северогерманских языков , каталонского , румынского , финского , французского , , немецкого , итальянского языков португальского и испанского являются расширениями латинского алфавита . Дополнительные символы обычно повреждаются, в результате чего текст становится нечитабельным с помощью моджибаке:

… и их аналоги в верхнем регистре, если применимо.

Это языки, для которых набор символов ISO 8859-1 (также известный как Latin 1 или Western используется ). Однако ISO 8859-1 устарел из-за двух конкурирующих стандартов: обратно совместимого Windows-1252 и слегка измененного ISO 8859-15 . Оба добавляют знак евро € и французский œ, но в остальном любая путаница этих трех наборов символов не приводит к созданию моджибаке на этих языках. Кроме того, всегда безопасно интерпретировать ISO 8859-1 как Windows-1252 и довольно безопасно интерпретировать его как ISO 8859-15, особенно в отношении знака евро, который заменяет редко используемый знак валюты (¤). Однако с появлением UTF-8 моджибаке стал более распространенным в определенных сценариях, например, при обмене текстовыми файлами между компьютерами UNIX и Windows , из-за несовместимости UTF-8 с Latin-1 и Windows-1252. Но UTF-8 имеет возможность напрямую распознаваться с помощью простого алгоритма, поэтому хорошо написанное программное обеспечение должно избегать смешивания UTF-8 с другими кодировками, поэтому это было наиболее распространено, когда у многих было программное обеспечение, не поддерживающее UTF-8. Большинство этих языков поддерживались MS-DOS по умолчанию CP437 и другими машинными кодировками по умолчанию, кроме ASCII, поэтому проблемы при покупке версии операционной системы были менее распространены. Однако Windows и MS-DOS несовместимы.

В шведском, норвежском, датском и немецком языках гласные повторяются редко, и это обычно заметно, когда один символ поврежден, например, вторая буква в шведском слове kärlek («любовь»), когда оно закодировано в UTF-8, но декодировано в Вестерн, производящий «kÃ⁠¤rlek», или für по-немецки, что становится «für». Таким образом, даже если читателю придется угадывать исходную букву, почти весь текст останется разборчивым. В финском языке, с другой стороны, часто используются повторяющиеся гласные в таких словах, как hääyö («брачная ночь»), из-за чего испорченный текст становится очень трудным для чтения (например, hääyö появляется как «hÃ⁠¤Ã⁠¤yÃ⁠¶»). В исландском языке есть десять символов, которые могут сбивать с толку, а в фарерском - восемь, что делает многие слова почти совершенно непонятными при искажении (например, исландский þjóðlöð , «выдающееся гостеприимство», появляется как «Ã¾jóðlöð»).

В немецком языке Buchstabensalat («салат из букв») является общим термином для этого явления, в испанском языке deformación используется (буквально «деформация»), а в португальском языке desformatação (буквально «деформирование»).

Некоторые пользователи транслитерируют свое письмо при использовании компьютера, либо опуская проблемные диакритические знаки, либо используя замены орграфов (å → aa, ä/æ → ae, ö/ø → oe, ü → ue и т. д.). Таким образом, автор может написать «ueber» вместо «über», что является стандартной практикой в ​​​​немецком языке, когда умлауты недоступны. Последняя практика, кажется, более терпима в сфере немецкого языка, чем в странах Северной Европы . Например, в норвежском языке диграфы связаны с архаичным датским языком и могут использоваться в шутку. Однако диграфы полезны в общении с другими частями света. Например, у норвежского футболиста Оле Гуннара Сульшера на форме была написана фамилия «СОЛЬСКЬЕР», когда он играл за «Манчестер Юнайтед» .

Артефакт UTF-8 , ошибочно интерпретированный как ISO 8859-1 , где « Ring meg nå » отображается как «Ring meg nÃ¥», был замечен в 2014 году в мошенническом SMS-рассылке, направленной на Норвегию. [5]

Шведский пример Исходная кодировка Целевое кодирование Результат
(Символы, выделенные красным, неверны.)
Сэндвич
( открытый бутерброд )
MS-DOS 437 ИСО 8859-1 См " рг с
UTF-8 См ö rg Ã¥ s
IBM/CP037 (EBCDIC) ë_C¶ÊÅCvË
Мак Роман Sm √∂ rg √• s
ИСО 8859-1 Sm ˆ rg  s

Та же проблема возникает и в румынском языке, см. эти примеры:


Румынский пример Исходная кодировка Целевое кодирование Результат
(Символы, выделенные красным, неверны.)
Пепел
( пепел )
UTF-8
ASCII Ужин
ИСО 8859-2 Cenu șă
OEM 737 Cenu ╚β─Δ
Shift-HE Сену ネ卞
ТИС-620 Сену с™рƒ
IBM/CP037 (EBCDIC) äÁ>ÍHRDc

и Европа Центральная Восточная

Пользователи языков Центральной и Восточной Европы также могут пострадать. Поскольку в середине-конце 1980-х годов большинство компьютеров не были подключены к какой-либо сети, для каждого языка существовали разные кодировки символов с диакритическими символами (см. ISO/IEC 8859 и KOI-8 ), часто также различающиеся в зависимости от операционной системы.

венгерский [ править ]

На венгерском языке это явление называется betűszemét , что означает «письменный мусор». Венгерский язык особенно восприимчив, поскольку он содержит акцентированные буквы á, é, í, ó, ú, ö, ü (все они присутствуют в наборе символов Latin-1), а также два символа ő и ű , которых нет в Latin-1. . Эти два символа можно правильно закодировать в Latin-2, Windows-1250 и Unicode. Однако до того, как Unicode стал обычным явлением в почтовых клиентах, в электронных письмах, содержащих венгерский текст, буквы ő и ű часто были повреждены, иногда до неузнаваемости. На поврежденное электронное письмо обычно отвечают бессмысленной фразой «Árvíztűrő tükörfúrógép» (буквально «защищенная от наводнений машина для сверления зеркал»), которая содержит все символы с диакритическими знаками, используемые в венгерском языке.

Примеры [ править ]
Венгерский пример Исходная кодировка Целевое кодирование Результат Вхождение
ПАДОСТОЙКОСТЬ С ЗЕРКАЛОМ
устойчивая к наводнению дрель для зеркала
UTF-8 — для печати 7-битный ASCII =C3=81 RV =C3=8D ZT =C5=B0 R =C5=90 T =C3=9C K =C3=96 RF =C3=9A R =C3=93 G =C3=89 P =C3=A1 rv =C3=AD zt =C5=B1 r =C5=91 t =C3=BC k =C3=B6 rf =C3=BA r =C3=B3 g =C3=A9 p В основном вызвано неправильно настроенными почтовыми серверами, но может возникать в SMS- и сообщениях на некоторых мобильных телефонах.
ISO 8859-2 Цитируется для печати =C1 RV =CD ZT =DB R =D5 T =DC K =D6 RF =DA R =D3 G =C9 P
=E1 rv =ED zt =FB r =F5 t =FC k =F6 rf =FA r =F3 g =E9 p
КРИ-2 КП 437 Å RV ì ZT ÿ R º TÜKÖRF ù R ò GÉP
дрель для зеркала устойчивая к наводнению
Кодировка CWI-2 была разработана таким образом, чтобы венгерский текст оставался достаточно хорошо читаемым, даже если устройство на принимающей стороне использует одну из кодировок по умолчанию ( CP 437 или CP 850 ). Эта кодировка очень широко использовалась в период с начала 1980-х по начало 1990-х годов, но в настоящее время она полностью устарела.
КП 852 РВ ZT δ R è ЗЕРКАЛО Θ R α МАШ
наводнение r ï сверло для зеркала
Это было очень распространено во времена DOS , так как текст часто кодировался с использованием кодовой страницы 852 («Центральноевропейская»), но программное обеспечение на принимающей стороне часто не поддерживало CP 852 и вместо этого пыталось отображать текст с использованием CP 437 или CP 437 или КП 850 . Строчные буквы в основном правильные, за исключением ű и ő. Ü/ü и Ö/ö верны, поскольку CP 437 и CP 850 были совместимы с немецким языком. Хотя в настоящее время это редкость, это все еще можно увидеть в таких местах, как напечатанные рецепты и чеки.
КП 850 FLOOD Ù R è ЗЕРКАЛО-БУРИЛЬНАЯ МАШИНА
arvizt ¹ r ï tükörfúrógép
Windows-1250 µ РВ Ö ЗТ ë R Š T š K RF é R à G Мистер
 rv ˇ ztűr t k " rf Ł r ˘ g p
Обе кодировки являются центральноевропейскими, но текст кодируется кодировкой DOS и декодируется кодировкой Windows. Использование ű правильно.
Мак Роман µ RV ÷ ZT Î R ä T ö K Ô RF È R G ê P
rv ° zt ˚ r ã t Å k î rf £ r ¢ g Ç p
Это также было обычным явлением во времена DOS, это можно было увидеть, когда компьютеры Apple пытались отображать венгерский текст, отправленный с помощью компьютеров DOS или Windows, поскольку они часто по умолчанию использовали собственную кодировку Apple.
Windows-1250 ¡ РВ х ЗТ Р ' Т К ÷ РФ Р Г П
· rv Ì zt ˚ r ı t ¸ k ˆ rf ˙ r Û g È p
КП 852 RV ZT R Ň T K Í RF R Ë G P
ß rv Ý ztűr § t Ř k ÷ rf ˙ r ˇ g Ú p
Обе кодировки являются центральноевропейскими, но текст кодируется кодировкой Windows, а декодируется кодировкой DOS. Использование ű правильно.
Windows-1252 НАВОДНО - СТОЙКОСТЬ СВЕРЛИ ДЛЯ ЗЕРКАЛА
дрель зеркала для устойчивая к наводнению
Вместо центральноевропейской используется западноевропейская кодировка Windows по умолчанию. Только ő-Ő (õ-Õ) и ű-Ű (û-Û) неправильные, и текст вполне читаем. Сегодня это самая распространенная ошибка; из-за незнания это часто встречается на веб-страницах или даже в печатных СМИ.
UTF-8 à RV à ZT Å° R Å T Ãœ K Ö RF Ú R Ã" G É P
á рв à zt ű r Å' t ü k ö rf ú r ó g é p
В основном вызвано веб-службами или клиентами веб-почты, которые настроены неправильно или не проверены для международного использования (поскольку проблема остается скрытой для английских текстов). В этом случае фактическое (часто генерируемое) содержимое имеет формат UTF-8 , но некоторые старые программы могут по умолчанию использовать локализованные кодировки, если UTF-8 явно не указан в заголовках HTML.
Мак Роман √Å RV √ç ZT ≈∞ R ≈ê T √ú K √ñ RF √ö R √ì G √â P
á rv í zt ű r ő t ü k ö rf ú r ó g é p

польский [ править ]

До создания ISO 8859-2 в 1987 году пользователи различных вычислительных платформ использовали свои собственные кодировки символов, такие как AmigaPL на Amiga, Atari Club на Atari ST и Masovia, IBM CP852 , Mazovia и Windows CP1250 на IBM PC. Польские компании, продававшие первые компьютеры DOS , создали свои собственные, несовместимые друг с другом способы кодирования польских символов и просто перепрограммировали EPROM видеокарт (обычно CGA , EGA или Hercules ), чтобы обеспечить аппаратные кодовые страницы необходимыми глифами для польского языка, расположенными произвольно без ссылка на то, где их разместили другие продавцы компьютеров.

Ситуация начала улучшаться, когда под давлением академических групп и групп пользователей ISO 8859-2 стал «стандартом Интернета» с ограниченной поддержкой программного обеспечения доминирующих поставщиков (сегодня его в значительной степени заменяет Unicode). Из-за многочисленных проблем, вызванных разнообразием кодировок, даже сегодня некоторые пользователи склонны называть польские диакритические символы krzaczki ( [ˈkʂät͜ʂ.ki] , букв. «кустарники»).

Русский и другие кириллические алфавиты [ править ]

Моджибаке в просторечии называется кракозябры ( кракозя́бры [krɐkɐˈzʲæbrɪ̈] ) на русском языке , который был и остаётся осложненным несколькими системами кодирования кириллицы . [6] В Советском Союзе и в ранней Российской Федерации были разработаны кодировки KOI ( Код Обмена Информацией , Код Обмена Информацией , что переводится как «Кодекс для обмена информацией»). Это началось с 7-битного KOI7 , состоящего только из кириллицы, основанного на ASCII , но с заменой латинских и некоторых других символов кириллическими буквами. Затем появилась 8-битная KOI8 кодировка , которая представляет собой расширение ASCII , которое кодирует буквы кириллицы только с набором старших бит октетов, соответствующих 7-битным кодам из KOI7. Именно по этой причине текст KOI8, даже русский, остается частично читаемым после удаления восьмого бита, что считалось большим преимуществом в эпоху почтовых систем, не поддерживающих 8BITMIME . Например, слова « Школа русского языка » школа русского языка , закодированные в KOI8, а затем прошедшие процесс удаления старших битов, в конечном итоге отображаются как «[KOLA RUSSKOGO qZYKA». Со временем KOI8 приобрел разные варианты для русского и болгарского ( KOI8-R ), украинского ( KOI8-U ), белорусского (KOI8-RU) и даже таджикского (KOI8-T).

Между тем, на Западе кодовая страница 866 поддерживала украинский и белорусский языки , а также русский и болгарский в MS-DOS . Для Microsoft Windows в кодовую страницу 1251 добавлена ​​поддержка сербского и других славянских вариантов кириллицы .

Совсем недавно кодировка Unicode включала кодовые точки практически для всех символов всех языков, включая все символы кириллицы.

До появления Unicode необходимо было сопоставить кодировку текста со шрифтом, использующим ту же систему кодировки; невыполнение этого требования приводило к нечитаемой тарабарщине , конкретный вид которой варьировался в зависимости от точной комбинации кодировки текста и шрифта. Например, попытка просмотреть кириллический текст, отличный от Unicode, с использованием шрифта, ограниченного латинским алфавитом, или с использованием кодировки по умолчанию («западной») обычно приводит к тому, что текст почти полностью состоит из заглавных гласных с диакритическими знаками (например, KOI8 « Библиотека » ( библиотека , библиотека) становится «âÉÂÂÌÉÏÔÅËÁ», а «Школа русского языка» ( школа русского языка) становится «ûËÏÌÁ ÒÕÓÓËÏÇÏ ÑÚÙËÁ»). Использование кодовой страницы 1251 для просмотра текста в формате KOI8 или наоборот приводит к искажению текста, который состоит в основном из заглавных букв (KOI8 и кодовая страница 1251 используют один и тот же регион ASCII, но KOI8 имеет прописные буквы в той области, где кодовая страница 1251 имеет строчные буквы). , и наоборот).

В первые годы существования российского сектора Всемирной паутины и KOI8, и кодовая страница 1251 были обычным явлением. Почти все веб-сайты сейчас используют Юникод, но по состоянию на ноябрь 2023 г. примерно 0,35% всех веб-страниц в мире, включая все языки, по-прежнему закодированы в кодовой странице 1251, в то время как менее 0,003% сайтов по-прежнему закодированы в KOI8-R. [7] [8] Хотя стандарт HTML включает возможность указать кодировку для любой веб-страницы в ее исходном коде, [9] этим иногда пренебрегают, заставляя пользователя переключать кодировки в браузере вручную.

По -болгарски моджибаке часто называют маймуница ( маймуница ), что означает «обезьяний [алфавит]». По -сербски оно называется Джубре ( ђубре ), что означает « мусор ». В отличие от бывшего СССР, южные славяне никогда не использовали что-то вроде KOI8, а кодовая страница 1251 была там доминирующей кодировкой кириллицы до Unicode. Таким образом, на этих языках возникало меньше проблем с несовместимостью кодировок, чем на русском. В 1980-х годах в болгарских компьютерах использовалась собственная кодировка MIK , внешне похожая на CP866 (хотя и несовместимая с ней).

Пример
Оригинальный текст Исходная кодировка Целевое кодирование Результат
Кракозябры
Windows-1251 КОИ8-Р yПЮЙНГААПШ
КОИ8-Р Windows-1251 лТБЛПСВТШТ
Windows-1252 СНТÁËÏÚСÑÂÒÙ
MS-DOS 855 Çá ÆÖóÞ¢áñ
Windows-1251 Эдакийский
UTF-8 ÐšÑ€Ð°ÐºÐ¾Ð·Ñ Ð±С€Ñ‹
КОИ8-Р п я─п╟п╨п╬п╥я▐п╠я─я▀
(Второй символ — неразрывный пробел )
MS-DOS 855 лџЛђл░л║лЙлиЛЈл▒ЛђЛІ
Windows-1251 КтакозСДЖбты
Мак Роман –ö—Ä–∞–∫–æ–∑—è–±—Ä—ã
Мак-кириллица –Ъ—А–∞–Ї–Њ–Ј—П–±—А—Л

Югославские языки [ править ]

Хорватский , боснийский , сербский (выделившиеся разновидности сербско-хорватского языка) и словенский добавляют к основному латинскому алфавиту буквы š, đ, č, ć, ž и их заглавные аналоги Š, Đ, Č, Ć, Ž (только č/Č, š/Š и ž/Ž на словенском официально, хотя при необходимости используются и другие, в основном и в иностранных именах). Все эти буквы определены в Latin-2 и Windows-1250 , тогда как только некоторые (š, Š, ž, Ž, Đ) существуют в обычной ОС Windows-1252 по умолчанию и существуют из-за некоторых других языков.

Хотя Mojibake может встречаться с любым из этих символов, буквы, не включенные в Windows-1252, гораздо более подвержены ошибкам. Таким образом, даже в наши дни «šđčćž ŠĐČĆŽ» часто отображается как «šðèæž ŠÐÈÆŽ», хотя ð, È и Æ никогда не используются в славянских языках.

Если ограничиться базовым ASCII (например, большинство имен пользователей), распространенными заменами являются: š→s, đ→dj, č→c, ć→c, ž→z (аналогично заглавные буквы, с Đ→Dj или Đ→DJ). в зависимости от регистра слов). Все эти замены вносят неоднозначность, поэтому восстановление оригинала по такой форме при необходимости обычно выполняется вручную.

Кодировка Windows-1252 важна, поскольку наиболее распространены английские версии операционной системы Windows, а не локализованные. [ нужна цитата ] Причинами этого являются относительно небольшой и фрагментированный рынок, рост цен на высококачественную локализацию, высокая степень пиратства в области программного обеспечения (в свою очередь, вызванная высокой ценой на программное обеспечение по сравнению с доходом), что препятствует усилиям по локализации, а также люди, предпочитающие английские версии. Windows и другого программного обеспечения. [ нужна цитата ]

Стремление отличить хорватский язык от сербского, боснийского от хорватского и сербского, а теперь даже и черногорского от трех других, создает множество проблем. Существует множество различных локализаций, использующих разные стандарты и разного качества. Для огромного количества компьютерной терминологии, происходящей из английского языка, не существует общепринятых переводов. В конце концов, люди используют английские заимствованные слова («компьютер» для «компьютера», «компайлирати» для «компилировать» и т. д.), и если они не привыкли к переведенным терминам, они могут не понимать, что такое тот или иной пункт в меню. предполагается сделать на основе переведенной фразы. Поэтому люди, понимающие английский, а также те, кто привык к английской терминологии (а их больше всего, потому что английская терминология тоже в основном преподается в школах из-за этих проблем) регулярно выбирают оригинальные английские версии неспециализированного программного обеспечения.

При использовании кириллицы (для македонского и частично сербского ) проблема аналогична другим сценариям на основе кириллицы .

Более новые версии английской Windows позволяют кодовую страницу изменять кодовых страниц без направления справа налево, (более старые версии требуют специальных английских версий с такой поддержкой), но этот параметр может быть и часто был установлен неправильно. Например, в Windows 98 и Windows Me можно настроить большинство однобайтовых включая 1250, но только во время установки.

Кавказские языки [ править ]

Системы письменности некоторых языков Кавказского региона, включая письменность грузинского и армянского языков , могут производить моджибаке. Эта проблема особенно остра в случае ArmSCII или ARMSCII — набора устаревших кодировок символов армянского алфавита, которые были заменены стандартами Unicode. ArmSCII не получил широкого распространения из-за отсутствия поддержки в компьютерной индустрии. Например, Microsoft Windows его не поддерживает.

Азиатские кодировки [ править ]

Другой тип моджибаке возникает, когда текст, закодированный в однобайтовой кодировке, ошибочно анализируется в многобайтовой кодировке, например одной из кодировок восточноазиатских языков . При использовании этого типа моджибаке одновременно повреждается более одного (обычно двух) символов. Например, если шведское слово kärlek закодировано в Windows-1252, но декодировано с помощью GBK, оно будет отображаться как «k鋜lek», где « är » анализируется как «鋜». По сравнению с приведенным выше моджибаке, его труднее читать, поскольку отсутствуют буквы, не связанные с проблемными å, ä или ö, и это особенно проблематично для коротких слов, начинающихся с å, ä или ö (например, «än» становится «鋘»). . Поскольку две буквы объединены, моджибаке также кажется более случайным (более 50 вариантов по сравнению с обычными тремя, не считая более редких заглавных букв). В некоторых редких случаях вся текстовая строка, которая включает в себя шаблоны слов определенной длины, например предложение « Буш скрыл факты », может быть неправильно истолкована.

Вьетнамский [ править ]

На вьетнамском языке это явление называется тхо ма ( Hán–Nôm : 𡨸魔, «персонажи-призраки») или loạn mã (от китайского 乱码, luànmǎ ). Это может произойти, когда компьютер пытается декодировать текст, закодированный в UTF-8, как Windows-1258 , TCVN3 или VNI. Во Вьетнаме чума часто можно было увидеть на компьютерах с ОС Windows до версии Vista или на дешевых мобильных телефонах.

Пример Исходная кодировка Целевое кодирование Результат
Сто лет в королевствах
𤾓𢆥𥪞𡎝𠊛какой-то
Сказка о Киеу» , Нгуен Ду )
UTF-8 Windows-1258 Tr ă m n ă m in c Ãμ i ng Æ°á» i ta
d¤¾“đ¢†¥đ¥ªžđ¡Ž d Šä些
ТЦВН3 Тр¨ мн¨ м в нашей жизни
�¤¾��¢��¥¥ª��¡������¾ä��
ВНИ (Windows) Трамвай в нашем мире
�����������������������
Мак Роман Tr ƒÉ m n ƒÉ m in c √µ i ng ∆∞·ªù i ta
𤾓𢆥𥪞𡎝𠊛些

японский [ править ]

В Японии моджибаке особенно проблематичен, поскольку существует множество различных кодировок японского текста. Помимо кодировок Unicode (UTF-8 и UTF-16), существуют и другие стандартные кодировки, такие как Shift-JIS (машины Windows) и EUC-JP (системы UNIX). Даже по сей день моджибаке часто встречается как японцами, так и неяпонцами при попытке запустить программное обеспечение, написанное для японского рынка.

Оригинальный текст Исходная кодировка Целевое кодирование Результат
Это письмо является посланием для всех.
UTF-8
UTF-7 ���̃��(�q���Y�_�C�G�b�g)
EUC-JP .
Shift-HE 繝薙�繝。繝シ繝ォ縺ッ逧�ァ倥ا縺ョ繝。
Мак Роман „Åì „ÅÆ„É° „ɺ „É´ „ÅØÁöÜÊßò“ Å∏ „ÅÆ„É° „ÉɄǪ„ɺ„Ç∏„Åß„Åô„ÄÇ
ИСО 8859-6 ك“ك�كƒ�كƒ�كƒ�ك�هš†ن�˜ك�ك�كƒ�كƒƒك‚؛كƒ�ك‚�ك�ك™ك€‚
Windows-1252 㠓㠮メール㠯皆様㠸㠮メッセージ㠧㠙。
EUC-JP ¤³¤Î¥á¡¼¥ë¤Ï³§ÍͤؤΥá¥Ã¥»¡¼¥¸¤Ç¤¹¡£
Shift-HE ‚±‚ìƒ [ƒ‹‚ÍŠF—l‚Ö‚ìƒ ƒbƒZ [ƒW‚Å‚· B

китайский [ править ]

По -китайски то же явление называется Луань му ( пиньинь , упрощенный китайский 乱码 , традиционный китайский 亂碼 , что означает «хаотический код») и может возникнуть, когда компьютерный текст закодирован в одной китайской кодировке символов , но отображается с использованием неправильной кодировки. В этом случае зачастую проблему можно решить, переключив кодировку символов без потери данных. Ситуация осложняется существованием нескольких используемых систем кодирования китайских символов, наиболее распространенными из которых являются: Unicode , Big5 и Guobiao (с несколькими обратно совместимыми версиями), а также возможностью кодирования китайских символов с использованием японской кодировки.

Относительно легко определить исходную кодировку, когда luànmώ встречается в кодировках Guobiao:

Оригинальный текст Исходная кодировка Целевое кодирование Результат Примечание
Хроники Трех Королевств: Биография Цао Цао Большой5 ГБ �Т- клапан становится огромным животом T瓣в变巨肚 Искаженные символы, почти не имеющие намека на первоначальный смысл. Красный символ не является допустимым кодом в GB 2312 .
Проверка искаженного текста Shift-HE 暥帤壔偗флуоресценция僗僩 Кана отображается как символы с радикалом 亻 (китайский: 單人旁 ; пиньинь: dānrénpáng ), а кандзи — это другие символы. Многие заменяющие символы крайне необычны в современном китайском языке. Его довольно легко идентифицировать благодаря наличию нескольких последовательных символов 亻.
DJ Макс Техника EUC-КР Кальциевый клей и чернила Nongcong Случайные упрощенные символы , которые в большинстве случаев не имеют смысла. Вероятно, его легче всего идентифицировать из-за пробелов между каждыми несколькими символами.

Дополнительная проблема в китайском языке возникает, когда в некоторых кодировках отсутствуют редкие или устаревшие символы, многие из которых до сих пор используются в личных названиях или географических названиях. Примеры этого:

Газеты по-разному справлялись с недостающими символами, в том числе использовали программное обеспечение для редактирования изображений для их синтеза путем объединения других радикалов и символов; используя изображения личностей (в случае имен людей) или просто заменяя омофоны в надежде, что читатели смогут сделать правильный вывод.

Индийский текст [ править ]

Подобный эффект может произойти в брахмических или индийских письменностях Южной Азии , используемых в таких индоарийских или индийских языках, как хиндустани (хинди-урду), бенгали , пенджаби , маратхи и других, даже если используемый набор символов правильно распознается приложение. Это связано с тем, что во многих индийских сценариях правила, по которым отдельные буквенные символы объединяются для создания символов для слогов, могут быть неправильно поняты компьютером, у которого нет соответствующего программного обеспечения, даже если глифы для отдельных буквенных форм доступны.

Одним из примеров этого является старый логотип Википедии , который пытается показать символ, аналогичный «wi» (первый слог слова «Википедия»), на каждой из многих частей головоломки. Кусочек головоломки, предназначенный для обозначения символа деванагари , обозначающего «ви», вместо этого использовался для отображения символа «ва», за которым следовала непарная гласная -модификатор «i» , легко узнаваемая как моджибаке, сгенерированная компьютером, не настроенным для отображения индийского текста. [11] Логотип в измененном дизайне по состоянию на май 2010 г. исправил эти ошибки.

Идея обычного текста требует, чтобы операционная система предоставила шрифт для отображения кодов Unicode. Этот шрифт для сингальского языка отличается от ОС к ОС и создает орфографически неправильные глифы для некоторых букв (слогов) во всех операционных системах. Например, «reph», короткая форма буквы «r», представляет собой диакритический знак, который обычно ставится поверх простой буквы. Однако неправильно использовать некоторые буквы, такие как «йа» или «ла», в определенных контекстах. Для санскритских слов или имен, унаследованных современными языками, таких как कार्य, IAST: kārya или आर्या, IAST: aryā , его можно поставить поверх этих букв. Напротив, для аналогичных звуков в современных языках, которые возникают в результате их определенных правил, он не ставится сверху, например, слово करणाऱ्या, IAST: karaṇāryā , основная форма общего слова करणारा/री, IAST: karaṇārā/rī , на языке маратхи . [12] Но это происходит в большинстве операционных систем. Похоже, это ошибка внутреннего программирования шрифтов. В Mac OS и iOS комбинация muurdhaja l (темная l) и «u», а также ее длинная форма дают неправильные формы. [ нужна цитата ]

Некоторые индийские и производные от индийских алфавитов, особенно лаосский , официально не поддерживались Windows XP до выпуска Vista . [13] Однако на различных сайтах шрифты доступны для бесплатной загрузки.

бирманский [ править ]

Из-за западных санкций [14] и позднее появление поддержки бирманского языка в компьютерах, [15] [16] большая часть ранней бирманской локализации была разработана внутри страны без международного сотрудничества. Преобладающим средством поддержки бирманского языка является шрифт Zawgyi , шрифт, который был создан как шрифт Unicode , но на самом деле лишь частично совместим с Unicode. [16] В шрифте Zawgyi некоторые кодовые точки для бирманского письма были реализованы так, как указано в Unicode , а другие — нет. [17] Консорциум Unicode называет это специальными кодировками шрифтов . [18] С появлением мобильных телефонов производители мобильных устройств, такие как Samsung и Huawei, просто заменили системные шрифты, совместимые с Unicode, версиями Zawgyi. [15]

Из-за этих специальных кодировок сообщения между пользователями Zawgyi и Unicode будут отображаться как искаженный текст. Чтобы обойти эту проблему, производители контента должны публиковать сообщения как в Zawgyi, так и в Unicode. [19] Правительство Мьянмы объявило 1 октября 2019 года «Днем U», чтобы официально перейти на Unicode. [14] По оценкам, полный переход займет два года. [20]

Африканские языки [ править ]

В некоторых системах письменности Африки незакодированный текст не читается. Тексты, которые могут создавать моджибаке, включают тексты с Африканского Рога , такие как письмо геэз в Эфиопии и Эритрее , используемое для амхарского , тигрского и других языков, а также сомалийский язык , в котором используется алфавит османия . В Южной Африке используется алфавит Мвангвего для написания языков Малави , а алфавит Мандомбе был создан для Демократической Республики Конго , но они обычно не поддерживаются. Различные другие системы письма, родные для Западной Африки, представляют аналогичные проблемы, такие как алфавит нко , используемый для языков мандинг в Гвинее , и слоговое письмо вай , используемое в Либерии .

арабский [ править ]

Еще один затронутый язык — арабский (см. ниже ), на котором текст становится совершенно нечитаемым, если кодировки не совпадают.

Примеры [ править ]

арабский пример Браузерный рендеринг Исходная кодировка Целевое кодирование Результат

( Всеобщая декларация прав человека )
Всеобщая декларация прав человека
UTF-8 КОИ8-Р ь╖ы└ь╔ь╧ы└ь╖ы├ ь╖ы└ь╧ь╖ы└ы┘ы┴ ы└ь╜ы┌ы┬ы┌ ь╖ы└ь╔ы├ьЁь╖ы├
Windows-1250 الإعٓان العالمى Ů„ŘŮ‚ŮˆŮ‚ الإنسان
Windows-1251 Ш§Щ„ШҐШ№Щ“Ш§Щ† Ш§Щ„Ш№Ш§Щ„Щ…Щ‰ Щ„ШЩ‚Щ€Щ‚ Ш§Щ„ШҐЩ†ШіШ§Щ†
Windows-1252 الإعٓان العالمى Ù„Øقوق الإنسان
Windows-1256 ت§ظ„ط¥ط¹ظ„ط§ظ†
ИСО 8859-5 иЇй�иЅиЙй�иЇй� иЇй�иЙиЇй�й�й� й�ий�й�й� иЇй�иЅй�иГиЇй�
ИСО 8859-6 ظ�ع„ظ�ظ�ع„ظ�ع† ظ�ع„ظ�ظ�ع„ع…ع‰ ع„ظ­ع‚عˆع‚ ظ�ع„ظ�ع†ظ�ظ�ع†
КП 852 ěž┘äěąě╣┘äěž┘ć ěž┘äě╣ěž┘ä┘ů┘ë ┘äěş┘é┘ł┘é ěž┘äěą┘ćě│ěž┘ć
КП 866 ╪з┘Д╪е╪╣┘Д╪з┘Ж ╪з┘Д╪╣╪з┘Д┘Е┘Й ┘Д╪н┘В┘И┘В ╪з┘Д╪е┘Ж╪│╪з┘Ж
Мак-арабский ذ'عظ%ظ9عÑظ'عÜ ظ'عÑظ9ظ'عÑعÖعâ ؑظ-عÇعàعÇ ظ'عÑظ%عÜظ3ظ'عÜ
Мак Роман ÿߟÑÿ•ÿπŸÑÿßŸÜ ÿߟÑÿπÿߟџ֟⠟Ñÿ≠ŸÇŸàŸÇ ÿߟÑÿ•ŸÜÿ≥ÿߟÜ
Мак-арабский «‰≈Ÿ‰«Ê†«‰Ÿ«‰ÂȆ‰Õ‚Ë‚†«‰≈Ê»«Ê
Windows-1256 «·≈⁄·«‰ «·⁄«·„Ï ·ÕfiÊfi «·≈‰»«‰
Windows-1252 Сана Сана Сана Сана

В примерах в этой статье нет UTF-8 в качестве настройки браузера, поскольку UTF-8 легко распознается, поэтому, если браузер поддерживает UTF-8, он должен распознавать его автоматически, а не пытаться интерпретировать что-то еще как UTF-8.

См. также [ править ]

  • Кодовая точка
  • Заменяющий символ
  • Заменить символ
  • Новая строка . Правила представления разрыва строки различаются в системах Windows и Unix. Хотя большая часть программного обеспечения поддерживает оба соглашения (что тривиально), программное обеспечение, которое должно сохранять или отображать разницу (например, системы контроля версий и инструменты сравнения данных ), может оказаться существенно более трудным в использовании, если не придерживаться одного соглашения.
  • Метка порядка байтов . Самый удобный способ сохранить кодировку вместе с данными — добавить ее в начало. Это намеренно невидимо для людей, использующих совместимое программное обеспечение, но по замыслу будет восприниматься как «мусорные символы» для несовместимого программного обеспечения (включая многие интерпретаторы ).
  • Объекты HTML . Кодировка специальных символов в HTML, в основном необязательная, но необходимая для того, чтобы определенные символы не интерпретировались как разметка. Хотя невозможность применить это преобразование является уязвимостью (см. межсайтовый скриптинг ), его слишком частое применение приводит к искажению этих символов. Например, кавычка " становится ", ", " и так далее.
  • Буш скрыл факты

Ссылки [ править ]

  1. ^ Кинг, Ричи (2012). «Станет ли скоро Юникод универсальным кодом? [Данные]». IEEE-спектр . 49 (7): 60. doi : 10.1109/MSPEC.2012.6221090 .
  2. ^ ВИНДИШМАН, Стефан (31 марта 2004 г.). «curl -v linux.ars (Интернационализация)» . Арс Техника . Проверено 5 октября 2018 г.
  3. ^ «Руководство по расширенным атрибутам» . 17 мая 2013 г. Проверено 15 февраля 2015 г.
  4. ^ «Список рассылки Unicode в почтовом клиенте Eudora» . 13 мая 2001 г. Проверено 1 ноября 2014 г.
  5. ^ «смс-мошенничество» (на норвежском языке). 18 июня 2014 года . Проверено 19 июня 2014 г.
  6. ^ с. 141, Control+Alt+Delete: Словарь киберсленга , Джонатон Китс, Globe Pequot, 2007, ISBN   1-59921-039-8 .
  7. ^ «Статистика использования Windows-1251 для веб-сайтов» . w3techs.com .
  8. ^ «Статистика использования KOI8-R для веб-сайтов» . w3techs.com .
  9. ^ «Объявление кодировок символов в HTML» .
  10. ^ «ГБК КНР (XGB)» . Майкрософт . Архивировано из оригинала 1 октября 2002 г. Карта преобразования между кодовой страницей 936 и Unicode. необходимо вручную выбрать GB 18030 или GBK в браузере. Для правильного просмотра
  11. ^ Коэн, Ноам (25 июня 2007 г.). «Некоторые ошибки не поддаются исправлению: опечатка в логотипе Википедии разрушает санскрит» . Нью-Йорк Таймс . Проверено 17 июля 2009 г.
  12. ^ «Набор текста на маратхи | С английского на маратхи | Набор текста на маратхи онлайн» . marathi.indiatyping.com . Проверено 2 августа 2022 г.
  13. ^ «Содержимое перемещено (Windows)» . Msdn.microsoft.com . Проверено 5 февраля 2014 г.
  14. ^ Перейти обратно: а б «Unicode пришел, Zawgyi ушел: современность наконец-то догоняет цифровой мир Мьянмы» . Джапан Таймс . 27 сентября 2019 года. Архивировано из оригинала 30 сентября 2019 года . Проверено 24 декабря 2019 г. 1 октября — «День U», когда Мьянма официально примет новую систему… Microsoft и Apple помогли другим странам стандартизировать много лет назад, но западные санкции означали, что Мьянма проиграла.
  15. ^ Перейти обратно: а б Хочкисс, Гриффин (23 марта 2016 г.). «Битва шрифтов» . Граница Мьянмы . Проверено 24 декабря 2019 г. С выпуском пакета обновления 2 для Windows XP стали поддерживаться сложные сценарии, что позволило Windows отображать бирманский шрифт, совместимый с Unicode, такой как Myanmar1 (выпущенный в 2005 году). ... Мязеди, BIT, а затем и Загий, решили проблему рендеринга, добавив дополнительные кодовые точки, зарезервированные для этнических языков Мьянмы. Переназначение не только предотвращает будущую поддержку этнических языков, но и приводит к тому, что система набора текста может сбивать с толку и быть неэффективной даже для опытных пользователей. ... Huawei и Samsung, два самых популярных бренда смартфонов в Мьянме, мотивированы только захватом наибольшей доли рынка, а это означает, что они поддерживают Zawgyi «из коробки».
  16. ^ Перейти обратно: а б Син, Тан (7 сентября 2019 г.). «Объединены в одной системе шрифтов, поскольку Мьянма готовится перейти с Zawgyi на Unicode» . Восходящие голоса . Проверено 24 декабря 2019 г. Стандартные шрифты Unicode Мьянмы никогда не были широко распространены, в отличие от частного и частично совместимого с Unicode шрифта Zawgyi. ... Unicode улучшит обработку естественного языка
  17. ^ «Зачем нужен Юникод» . Код Google: Проект Zawgyi . Проверено 31 октября 2013 г.
  18. ^ «Писания и языки Мьянмы» . Часто задаваемые вопросы . Консорциум Юникод . Проверено 24 декабря 2019 г. «UTF-8» технически не применяется к специальным кодировкам шрифтов, таким как Zawgyi.
  19. ^ ЛаГроу, Ник; Прузан, Мири (26 сентября 2019 г.). «Интеграция автоконвертации: путь Facebook от Zawgyi к Unicode — Facebook Engineering» . Фейсбук Инжиниринг . Фейсбук . Проверено 25 декабря 2019 г. Это затрудняет общение на цифровых платформах, поскольку контент, написанный в Юникоде, кажется пользователям Zawgyi искаженным, и наоборот. ... Чтобы лучше охватить свою аудиторию, производители контента в Мьянме часто публикуют в одном сообщении и Zawgyi, и Unicode, не говоря уже об английском или других языках.
  20. ^ Пила Йи Нанда (21 ноября 2019 г.). «Переход Мьянмы на Unicode займет два года: разработчик приложений» . Мьянма Таймс . Архивировано из оригинала 24 декабря 2019 года . Проверено 24 декабря 2019 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 844CA71C0DBF07DC7CEB9A11F3CA5341__1713990600
URL1:https://en.wikipedia.org/wiki/Mojibake
Заголовок, (Title) документа по адресу, URL1:
Mojibake - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)