~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 084A3A569ECE4DFDEA73136C6D0727DC__1712577300 ✰
Заголовок документа оригинал.:
✰ Charset detection - Wikipedia ✰
Заголовок документа перевод.:
✰ Определение кодировки — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Charset_detection ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/08/dc/084a3a569ece4dfdea73136c6d0727dc.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/08/dc/084a3a569ece4dfdea73136c6d0727dc__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 22:26:26 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 8 April 2024, at 14:55 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Определение кодировки — Википедия Jump to content

Обнаружение кодировки

Из Википедии, бесплатной энциклопедии

Обнаружение кодировки символов , обнаружение набора символов или обнаружение кодовой страницы — это процесс эвристического угадывания кодировки символов серии байтов, представляющих текст. Этот метод признан ненадежным и используется только в том случае, если определенные метаданные , такие как HTTP-запрос, Content-Type: заголовок либо недоступен, либо считается ненадежным.

Этот алгоритм обычно включает статистический анализ шаблонов байтов, например, частотное распределение триграфов различных языков, закодированных в каждой обнаруженной кодовой странице; такой статистический анализ также можно использовать для определения языка . Этот процесс не является надежным, поскольку он зависит от статистических данных.

В общем, неправильное определение кодировки приводит к mojibake .

Одним из немногих случаев, когда определение кодировки работает надежно, является обнаружение UTF-8 . Это связано с большим процентом недопустимых последовательностей байтов в UTF-8, поэтому текст в любой другой кодировке, в которой используются байты с установленным старшим битом, крайне маловероятно пройдет тест на достоверность UTF-8. Однако плохо написанные процедуры определения кодировки не выполняют сначала надежный тест UTF-8 и могут решить, что UTF-8 — это какая-то другая кодировка. Например, часто веб-сайты в кодировке UTF-8, содержащие название немецкого города Мюнхен, отображались как München, поскольку код решал, что это кодировка ISO-8859, прежде чем (или без нее) даже проверить, соответствует ли это кодировке. UTF-8.

UTF-16 достаточно надежен для обнаружения из-за большого количества символов новой строки (U+000A) и пробелов (U+0020), которые необходимо обнаружить при разделении данных на 16-битные слова, а также большого количества NUL-байтов, причем все по четным значениям. или странные места. проверить наличие общих символов Необходимо , полагаясь на проверку правильности текста. UTF-16 не работает: операционная система Windows ошибочно распознает фразу « Буш скрыл факты » (без новой строки) в ASCII как китайскую UTF- 16LE , поскольку все пары байтов соответствуют назначенным символам Юникода в UTF-16LE.

Обнаружение кодировки особенно ненадежно в Европе, в среде смешанных кодировок ISO-8859. Это тесно связанные восьмибитные кодировки, нижняя половина которых частично перекрывается с ASCII, и все расположения байтов допустимы. Не существует технического способа отличить эти кодировки друг от друга, и их распознавание зависит от определения особенностей языка, таких как частота букв или написание.

Из-за ненадежности эвристического обнаружения лучше помечать наборы данных правильной кодировкой. См. Кодировки символов в HTML#Указание кодировки символов документа . Несмотря на то, что UTF-8 и UTF-16 легко обнаружить, некоторые системы требуют кодировки UTF, чтобы явно помечать документ префиксом метки порядка байтов (BOM).

См. также [ править ]

Ссылки [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 084A3A569ECE4DFDEA73136C6D0727DC__1712577300
URL1:https://en.wikipedia.org/wiki/Charset_detection
Заголовок, (Title) документа по адресу, URL1:
Charset detection - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)