Jump to content

Популярность кодировок текста

ряд стандартов кодирования текста исторически использовался Во Всемирной паутине , хотя к настоящему времени во всех странах доминирует UTF-8, за некоторыми крупными региональными исключениями, перечисленными ниже. Те же самые кодировки используются в локальных файлах (или базах данных), на самом деле их гораздо больше, по крайней мере, исторически. Точные измерения распространенности каждого из них невозможны из-за соображений конфиденциальности (например, для локальных файлов, недоступных в Интернете), однако доступны довольно точные оценки для общедоступных веб-сайтов, а статистика может (или может быть неточно) отражать использование на локальном уровне. файлы. Попытки измерить популярность кодирования могут использовать подсчеты количества (веб) документов или подсчеты, взвешенные по фактическому использованию или видимости этих документов.

Решение использовать любую кодировку может зависеть от языка, используемого в документах, или языкового стандарта, который является источником документа, или цели документа. Кодировка текста может быть неоднозначной, например, чистый текст ASCII является допустимым ASCII, ISO-8859-1 , CP1252 или UTF-8 . «Теги» могут указывать на кодировку документа, но если она неверна, это может быть автоматически исправлено программным обеспечением отображения (например, в спецификации HTML указано, что тег для ISO-8859-1 следует обрабатывать как CP1252), поэтому количество тегов может не быть точным.

Популярность во всемирной паутине

[ редактировать ]
Использование основных кодировок в сети с 2001 по 2012 год по данным Google. [1] при этом UTF-8 обогнал все остальные в 2008 году и более 60% сети в 2012 году (с тех пор приближается к 100%). Число только ASCII включает все веб-страницы, содержащие только символы ASCII, независимо от объявленного заголовка.
Заявлен набор символов для 10 миллионов самых популярных веб-сайтов с 2010 года.

UTF-8 является самой распространенной кодировкой во Всемирной паутине с 2008 года. [2] По состоянию на июль 2024 г. UTF-8 используется на 98,2% опрошенных веб-сайтов (а также на 99,1% из 100 000 лучших страниц и 98,6% из 1000 веб-страниц с самым высоким рейтингом), следующая по популярности кодировка, ISO-8859-1 , используется 1,2% (и только 12 из 1000 лучших страниц). [3] Хотя на многих страницах для отображения контента используются только символы ASCII, очень немногие веб-сайты теперь заявляют, что их кодировка — только ASCII, а не UTF-8. [4]

Практически во всех странах и более 97 % всех отслеживаемых языков 95 % или более используют в Интернете кодировку UTF-8. Ниже приведены основные альтернативные кодировки:

Вторая по популярности кодировка варьируется в зависимости от локали и обычно более эффективна для соответствующего языка. Одной из таких кодировок является китайский стандарт GB 18030 , который представляет собой полный формат преобразования Unicode , однако 95,9% веб-сайтов в Китае и других территориях используют UTF-8. [5] [6] [7] с этим (эффективно [8] ) следующая популярная кодировка. Big5 — еще одна популярная , отличная от UTF кодировка , предназначенная для традиционных китайских иероглифов (хотя GB 18030 подходит и для них, это полная кодировка UTF ), она является следующей по популярности на Тайване после UTF-8 с 96,6%, а также второй по популярности кодировкой. используется в Гонконге, хотя там, как и везде, UTF-8 доминирует еще больше — 98,2%. [9] Однобайтовый Windows-1251 в два раза эффективнее для кириллицы и по-прежнему 95,1% российских сайтов используют UTF-8. [10] (однако, например, кодировки на греческом и иврите также в два раза эффективнее, а UTF-8 используется более чем в 99% этих языков). [11] [12] Веб-сайты на японском и корейском языках также относительно часто используют кодировку, отличную от UTF-8, по сравнению с большинством других стран: японский UTF-8 используется на уровне 95,0%, за ним следует устаревший Shift JIS (фактически декодированный как надмножество кодировки Windows-31J ), а затем EUC. -JP- кодировка. [13] [14] В Южной Корее 95,4% используют UTF-8, а остальные веб-сайты в основном используют EUC-KR , который более эффективен для корейского текста.

За исключением GB 18030 (а также UTF-16 и UTF-8 ), другие (устаревшие) кодировки не поддерживают все символы Юникода, поскольку они были разработаны для определенных языков.

По состоянию на июль 2024 г. , Лимбурган ( Limburgish ) имеет самый низкий уровень использования UTF-8 в сети среди всех отслеживаемых языков - 86%. [15] Более трети отслеживаемых языков имеют 100,0% использование UTF-8 в сети, например вьетнамский , маратхи , телугу , тамильский , яванский , панджаби/панджаби , гуджарати , фарси/персидский , хауса , пушту , каннада , лаосский , Курдские языки , тагальский , сомалийский , кхмерский/камбоджийский , исизулу/зулу , туркменский (кириллица и латиница с момента распада Советского Союза ; также можно использовать арабскую письменность), таджикский ( имеет собственную письменность на основе кириллицы ). и ивритский сценарий, используемый некоторыми, а также два других сценария исторически ), а также множество языков с наименьшим количеством носителей (часто со своими собственными сценариями), таких как армянский , монгольский ( который имеет письмо сверху вниз). [16] плюс также использовалась письменность на основе кириллицы, причем более исторически), мальдивский ( Таана ), гренландский ( Калааллисут ), а также языки жестов . [17]

Популярность локальных текстовых файлов

[ редактировать ]

В локальном хранилище на компьютерах значительно чаще используются «устаревшие» однобайтовые кодировки, чем в Интернете. Попытки обновления до UTF-8 были заблокированы редакторами, которые не отображают и не записывают UTF-8, если только первый символ в файле не является знаком порядка байтов , что делает невозможным использование UTF-8 другим программным обеспечением без перезаписи для игнорирования. метку порядка байтов на вводе и добавьте ее на вывод. Файлы UTF-16 также довольно распространены в Windows, но не в других системах. [18] [19]

Внутренняя популярность программного обеспечения

[ редактировать ]

В памяти компьютерной программы использование UTF-16 очень распространено, особенно в Windows, а также в JavaScript , Qt и многих других кроссплатформенных программных библиотеках. Основной причиной этого является совместимость с Windows API.

Когда-то многие считали (а некоторые до сих пор так считают), что наличие кодовых единиц фиксированного размера дает вычислительные преимущества, что побудило многие системы, в частности Windows, использовать UCS-2 фиксированного размера с двумя байтами на каждый. характер. Это неверно: к строкам почти никогда не осуществляется произвольный доступ, а последовательный доступ имеет ту же скорость. Кроме того, даже UCS-2 не имел «фиксированного размера», если учитывать объединение символов , и когда Unicode превышал 65536 кодовых точек, его все равно приходилось заменять на UTF-16 нефиксированного размера.

Недавно стало ясно, что накладные расходы на преобразование из/в UTF-8 при вводе и выводе, а также устранение потенциальных ошибок кодирования во входном UTF-8 значительно превосходят любую экономию, которую может предложить UTF-16. Поэтому новые программные системы начинают использовать UTF-8. Компания International Components for Unicode (ICU) исторически использовала только UTF-16 и до сих пор использует только для Java, хотя теперь она поддерживает UTF-8 (для C/C++ и других языков косвенно), например, используемый таким образом Microsoft; поддерживается как «Кодировка по умолчанию» [20] включая правильную обработку «незаконного UTF-8». [21] Строковый примитив по умолчанию, используемый в новых языках программирования, таких как Go . [22] Юля , Раст и Свифт 5, [23] предположим кодировку UTF-8. PyPy также использует UTF-8 для своих строк. [24] и Python рассматривает возможность хранения всех строк с помощью UTF-8. [25] Microsoft теперь рекомендует использовать UTF-8 для приложений, использующих Windows API , продолжая при этом поддерживать устаревший интерфейс «Unicode» (что означает UTF-16). [26]

  1. ^ Дэвис, Марк (3 февраля 2012 г.). «Юникод используется более чем в 60 процентах Интернета» . Официальный блог Google . Архивировано из оригинала 9 августа 2018 г. Проверено 24 июля 2020 г.
  2. ^ Дэвис, Марк (5 мая 2008 г.). «Переход на Юникод 5.1» . Официальный блог Google . Проверено 13 марта 2023 г.
  3. ^ «Обзор использования кодировок символов с разбивкой по рейтингу» . W3Techs . Проверено 03 июля 2024 г.
  4. ^ «Статистика использования и доля рынка ASCII для веб-сайтов, январь 2024 г.» . W3Techs . Проверено 13 января 2024 г.
  5. ^ «Распространение кодировок символов между веб-сайтами, использующими Китай и территории» . w3techs.com . Проверено 03 июля 2024 г.
  6. ^ «Распространение кодировок символов среди веб-сайтов, использующих .cn» . w3techs.com . Проверено 1 ноября 2021 г.
  7. ^ «Распространение кодировок символов среди веб-сайтов, использующих китайский язык» . w3techs.com . Проверено 1 ноября 2021 г.
  8. ^ Китайский стандарт GB 2312 и его расширение GBK (оба интерпретируются веб-браузерами как GB 18030 и поддерживают одни и те же буквы a[[Uns UTF-8)
  9. ^ «Распространение кодировок символов среди веб-сайтов, использующих Тайвань» . w3techs.com . Проверено 9 апреля 2024 г.
  10. ^ «Распространение кодировок символов среди сайтов, использующих домен .ru» . w3techs.com . Проверено 22 мая 2024 г.
  11. ^ «Распространение кодировок символов среди веб-сайтов, использующих греческий язык» . w3techs.com . Проверено 1 января 2024 г.
  12. ^ «Распространение кодировок символов среди веб-сайтов, использующих иврит» . w3techs.com . Проверено 2 февраля 2024 г.
  13. ^ «Исторические тенденции использования кодировок символов» . Проверено 03 июля 2024 г.
  14. ^ «Статистика использования UTF-8» . Построен с . Проверено 28 марта 2011 г.
  15. ^ «Отчет об использовании UTF-8 с разбивкой по языкам контента» . w3techs.com . Проверено 22 мая 2024 г.
  16. ^ «HUMAN PAPERS» [Человеческие документы]. khumuunbichig.montsame.mn (на монгольском языке). Информационное агентство Монтсаме . Проверено 26 октября 2022 г.
  17. ^ «Распространение кодировок символов среди веб-сайтов, использующих язык жестов» . w3techs.com . Проверено 03 декабря 2018 г.
  18. ^ «Чарсет» . Android-разработчики . Проверено 02 января 2021 г. Примечание для Android. Платформа Android по умолчанию всегда использует кодировку UTF-8.
  19. ^ Галлоуэй, Мэтт (9 октября 2012 г.). «Кодировка символов для разработчиков iOS. Или UTF-8, что теперь?» . www.galloway.me.uk . Проверено 02 января 2021 г. на самом деле вы обычно просто предполагаете UTF-8, поскольку это, безусловно, самая распространенная кодировка.
  20. ^ «UTF-8 — Руководство пользователя отделения интенсивной терапии» . userguide.icu-project.org . Проверено 03 апреля 2018 г.
  21. ^ «#13311 (изменить обработку недопустимого UTF-8 на «лучшую практику» Unicode)» . bugs.icu-project.org . Проверено 03 апреля 2018 г.
  22. ^ «Спецификация языка программирования Go» . Проверено 10 февраля 2021 г.
  23. ^ Цай, Майкл Дж. «Майкл Цай — Блог — Строка UTF-8 в Swift 5» . Проверено 15 марта 2021 г.
  24. ^ Маттип (24 марта 2019 г.). «Блог о статусе PyPy: выпущен PyPy v7.1; теперь для строк Юникода внутри используется utf-8» . Блог о статусе PyPy . Проверено 21 ноября 2020 г.
  25. ^ «PEP 623 — Удалить wstr из Юникода» . Python.org . Проверено 21 ноября 2020 г. Пока мы не отбросим устаревший объект Unicode, очень сложно попробовать другую реализацию Unicode, например реализацию на основе UTF-8 в PyPy.
  26. ^ «Используйте кодовую страницу Windows UTF-8» . UWP-приложения . docs.microsoft.com . Проверено 6 июня 2020 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 83ddad18ab904a46e11ec517dd3fd1c4__1720051560
URL1:https://arc.ask3.ru/arc/aa/83/c4/83ddad18ab904a46e11ec517dd3fd1c4.html
Заголовок, (Title) документа по адресу, URL1:
Popularity of text encodings - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)