~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 5500EDCACD81C95749F0001943A9129B__1709260380 ✰
Заголовок документа оригинал.:
✰ GBK (character encoding) - Wikipedia ✰
Заголовок документа перевод.:
✰ GBK (кодировка символов) — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/GBK_(character_encoding) ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/55/9b/5500edcacd81c95749f0001943a9129b.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/55/9b/5500edcacd81c95749f0001943a9129b__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 21:59:52 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 1 March 2024, at 05:33 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

GBK (кодировка символов) — Википедия Jump to content

ГБК (кодировка символов)

Из Википедии, бесплатной энциклопедии
Гуоцзя Биаожан Куожин (ГБК)
Схема ГБК ( см. ниже ) увеличенную копию этой схемы
МИМ / IANA ГБК
Псевдоним(а) CP936 , MS936, Windows-936, csGBK
Язык(и) Веб-браузеры декодируют как GB 18030 , поддерживают все языки, при этом кодировка (и другие программные декодеры) в основном используется для упрощенного китайского , но также поддерживает традиционный китайский , японский , английский , русский и (частично) греческий .
Стандартный ГБК 1.0
Классификация Расширенный ASCII , [а] кодировка переменной ширины , кодировка CJK
Расширяет EUC-CN
Предшествует ГБ 2312
Преемник ГБ 18030
  1. ^ Не в самом строгом смысле этого слова, поскольку байты ASCII могут отображаться как байты следа.

GBK — это расширение GB 2312 набора символов для символов упрощенного китайского языка , используемого в Китайской Народной Республике . Он включает в себя все унифицированные символы CJK , найденные в GB 13000.1-93 , т. е. ISO/IEC 10646:1993 или Unicode 1.1. С момента своего первого выпуска в 1993 году GBK был расширен Microsoft с помощью кодовой страницы 936/1386 , которая затем была расширена до GBK 1.0 . GBK также является зарегистрированным в IANA интернет-именем для сопоставления Microsoft. [1] который отличается от других реализаций прежде всего однобайтовым знаком евро по адресу 0x80.

GB сокращает Guójiā Biāozhǔn , что на китайском языке означает национальный стандарт , а K означает расширение (扩展 kuòzhǎn ). GBK не только расширил старый стандарт GB 2312 традиционными китайскими иероглифами, но также китайскими иероглифами, которые были упрощены после создания GB 2312 в 1981 году. С появлением GBK некоторые имена с иероглифами, ранее непредставимыми, например 镕 ( róng ), иероглиф в имени бывшего премьер-министра Китая Чжу Жунцзи теперь представим. [2]

По состоянию на октябрь 2022 г. GBK — третья по популярности кодировка, обслуживаемая в Китае и других регионах (после UTF-8 и подмножества GB 2312 ), при этом 1,9% веб-серверов обслуживают страницы, объявляющие GBK. [3] Однако все основные веб-браузеры декодируют документы с пометкой GB2312, как если бы они были помечены GBK, за исключением Safari и Edge на этикетке. GB_2312. [4] Вместе кодировки GBK и GB 2312 имеют совокупное присутствие 5,5% в Китае и других регионах. [3] Во всем мире на GBK приходится менее 0,07% всех веб-страниц, а на GBK+GB2312 — 0,2%. [5]

История [ править ]

В 1993 году был выпущен стандарт Unicode 1.1, включавший 20 902 символа, используемых в материковом Китае , Тайване , Японии и Корее . Вслед за этим Китай выпустил GB 13000.1-93 , стандартный эквивалент Unicode 1.1 Гобяо.

Набор символов GBK был определен в 1993 году как расширение GB 2312-80 , а также включал символы GB 13000.1-93 через неиспользуемые кодовые точки, доступные в GB 2312. Следовательно, GBK обратно совместим с GB 2312. GBK был определен в нормативное приложение к GB 13000.1-93. [6]

Microsoft реализовала GBK в Windows 95 и Windows NT 3.51 как кодовую страницу 936 . Хотя GBK никогда не был официальным стандартом, широкое распространение Windows 95 привело к тому, что GBK стал стандартом де-факто . Хотя GBK включал все китайские символы, определенные в Unicode 1.1 и GB 13000.1-93, в этих стандартах использовались разные кодовые таблицы. Основной причиной его существования было просто преодоление разрыва между GB 2312-80 и GB 13000.1-93.

В 1995 году Китайский национальный технический комитет по стандартизации информационных технологий разработал китайскую спецификацию расширения внутреннего кода ( китайский : 汉字内码扩展规范 (GBK) ; пиньинь : Hànzì Nèimώ Kuòzhǎn Guīfàn (GBK) ), версию 1.0, известную как GBK 1.0 , которая является небольшим расширением кодовой страницы 936. Недавно добавленные 95 символов не были найдены в GB 13000.1-1993, и им были предварительно назначены Unicode PUA . кодовые точки [7] : 534 

Позже Microsoft добавила знак евро на кодовую страницу 936 и присвоила ему код 0x80. Это недопустимый код в GBK 1.0.

В 2000 году был выпущен стандарт GB 18030-2000 , заменивший, но сохранивший совместимость с GBK 1.0. Он увеличил количество определений китайских иероглифов и расширил количество возможных символов за счет реализации четырехбайтовых пространств символов. Подмножество GB 18030, состоящее из однобайтовых и двухбайтовых символов, иногда также называют GBK . Однако сопоставление с Unicode было немного изменено, поскольку некоторые символы теперь определены в Unicode. В самой последней версии стандарта GB 18030-2005 всего 24. [8] символы по-прежнему отображаются в Unicode PUA (см. GB 18030#PUA .)

В 2002 году GBK был зарегистрирован как кодировка IANA; при регистрации используется отображение кодовой страницы 936, а также псевдонимы CP936/MS936, но относится к спецификации GBK 1.0. [1] W3C , опубликованные в 2015 году. Технические рекомендации [9] определяет GBK кодировщик как кодер GB 18030 с однобайтовым знаком евро и без четырехбайтовых последовательностей (хотя GBK спецификация декодера W3C не имеет такого ограничения, декодирует как GB 18030 , т.е. с тем же диапазоном букв, что и весь Unicode ).

Кодировка [ править ]

Символ кодируется как 1 или 2 байта. Байт в диапазоне 007Fэто один байт, который означает то же самое, что и в ASCII . Строго говоря, в этом диапазоне 95 символов и 33 управляющих кода.

Байт с установленным старшим битом указывает, что он является первым из двух байтов. Грубо говоря, первый байт находится в диапазоне 81FE (то есть никогда 80 или FF), а второй байт 40A0 кроме 7F для некоторых областей и A1FE для других.

Более конкретно, определены следующие диапазоны байтов:

Диапазоны кодирования GBK
диапазон байт 1 байт 2 кодовые точки персонажи
ГБ 18030 ГБК 1.0 Кодовая страница 936 ГБ 2312
Уровень ГБК/1 A1A9 A1FE 846 718 [7] : 8–10  717 715 682
Уровень ГБК/2 B0F7 A1FE 6,768 6,763 6,763 6,763
Уровень ГБК/3 81A0 40FE кроме 7F 6,080 6,080 6,080
Уровень ГБК/4 AAFE 40A0 кроме 7F 8,160 8,160 8,080
Уровень ГБК/5 A8A9 40A0 кроме 7F 192 166 153
определяемый пользователем 1 [7] AAAF A1FE 564
определяемый пользователем 2 F8FE A1FE 658
определяемый пользователем 3 A1A7 40A0 кроме 7F 672
общий: 23,940 21,887 21,886 21,791 7,445

Схема расположения [ править ]

На следующем рисунке в графической форме показано пространство всех возможных 2-байтовых кодов размером 64 КБ. Зеленым и желтым областям присвоены коды GBK, красным — определяемые пользователем символы. Неокрашенные области представляют собой недопустимые комбинации байтов.

Связь с другими кодировками [ править ]

Области, обозначенные в предыдущем разделе как GBK/1 и GBK/2, взятые сами по себе, представляют собой просто GB 2312-80 в его обычной кодировке, причем GBK/1 представляет собой регион, не являющийся ханзи, а GBK/2 - регион ханзи. GB 2312 или, точнее, его кодировка EUC-CN, берет пару байтов из диапазона A1FE, как и любой набор символов 94² ISO-2022, загруженный в GR. Это соответствует нижней правой четверти рисунка выше. Однако GB 2312 не присваивает никаких кодовых точек строкам, расположенным в AAB0 и F8FE, хотя он и застолбил территорию. GBK добавил расширения к этим строкам. Вы можете видеть, что два пробела были заполнены определяемыми пользователем областями.

Что еще более важно, GBK расширил диапазон байтов. Наличие двухбайтовых символов в диапазоне ISO-2022 GR дает ограничение в 94²=8836 возможностей. Отказавшись от модели ISO-2022 со строгими областями для графики и управляющих символов, но сохранив особенность младших байтов, являющихся 1-байтовыми символами, и пар старших байтов, обозначающих символ, вы потенциально можете иметь 128² = 16 384 позиции. GBK принимает в этом участие, расширяя диапазон от A1FE (94 варианта для каждого байта) до 81FE (126 вариантов) для первого байта и 40FE (191 вариант) для второго байта, всего 24 066 позиций.

Кодовую страницу Microsoft 936 обычно называют GBK. [1] Однако 95 символов PUA , добавленные в GBK 1.0, не включены в кодовую страницу 936. Кодовая страница 936 также имеет однобайтовый знак евро по адресу 0x80, которого нет в GBK 1.0. [10]

Преемник GBK, GB 18030-2000 , использует оставшийся диапазон, доступный для второго байта ( 3039), чтобы еще больше расширить количество возможностей, сохранив GBK в качестве подмножества.

Ссылки [ править ]

  1. ^ Перейти обратно: а б с «Наборы символов» . Проверено 3 октября 2016 г.
  2. ^ «Кодовая страница 936 — КНР ГБК (XGB)» . Майкрософт . Архивировано из оригинала 1 октября 2002 г. Карта преобразования между кодовой страницей 936 и Unicode. Для правильного просмотра необходимо вручную выбрать GB 18030 или GBK в браузере.
  3. ^ Перейти обратно: а б «Распространение кодировок символов между веб-сайтами, использующими Китай и территории» . w3techs.com . Проверено 25 октября 2022 г.
  4. ^ «Кодирование: Обобщенные результаты испытаний» . www.w3.org . Проверено 15 ноября 2019 г.
  5. ^ «Исторические тенденции статистики использования кодировок символов для веб-сайтов, октябрь 2022 г.» . w3techs.com . Проверено 25 октября 2022 г.
  6. ^ «18.2: Символы идеографического описания» (PDF) . Стандарт Юникод . Версия 15.0.0. 2022. с. 763. Символы идеографического описания встречаются в GBK — расширении GB 2312-80, в которое добавлены все 20 902 иероглифов Unicode версии 1.1, которых еще нет в GB 2312-80. GBK определяется как нормативное приложение GB 13000.1-93.
  7. ^ Перейти обратно: а б с Управление стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии — набор китайских кодированных символов .
  8. ^ Стандарт GB 18030-2005, стр. 9, 79.
  9. ^ «Стандарт кодирования # gbk-encoder» . W3C . Проверено 2 октября 2016 г.
  10. ^ Шерер, Маркус (4 января 2002 г.). «Re: Развлечение с GBK и GB2312» . Архив списка рассылки Unicode . Проверено 4 марта 2020 г.

Примечания [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 5500EDCACD81C95749F0001943A9129B__1709260380
URL1:https://en.wikipedia.org/wiki/GBK_(character_encoding)
Заголовок, (Title) документа по адресу, URL1:
GBK (character encoding) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)