Jump to content

ГБ 18030

(Перенаправлено с кодовой страницы 1392 )
ГБ 18030
Схема кодировки GB 18030. «Полукоды» обозначают коды, используемые парами в виде четырехбайтовых кодов.
МИМ / IANA ГБ18030
Псевдоним(а) Кодовая страница 54936
Язык(и) Международный, но в первую очередь предназначен для китайцев
Стандартный ГБ 18030-2022, ГБ 18030-2005, ГБ 18030-2000, ГБ 18030-2022
Классификация Формат преобразования Unicode , расширенный ASCII , [а] кодировка переменной ширины , кодировка CJK
Расширяет EUC-CN , ГБК
Преобразует/кодирует ISO 10646 ( Юникод )
Предшественник ГБК , ГБ2312
  1. ^ Не в самом строгом смысле этого слова, поскольку байты ASCII могут отображаться как байты следа.

GB 18030 — это правительственный стандарт Китая , называемый « Информационные технологии — набор китайских кодированных символов» , который определяет язык и поддержку символов, необходимые для программного обеспечения в Китае . GB18030  — зарегистрированное интернет-имя для официального набора символов ( Китайской Народной Республики КНР), заменяющее GB2312 . [1] Как формат преобразования Unicode [а] (т.е. кодирование всех кодовых точек Unicode ), GB18030 поддерживает как упрощенные , так и традиционные китайские символы . Он также совместим с устаревшими кодировками, включая GB/T 2312 , CP936 , [б] и ГБК 1.0.

Консорциум Unicode предупредил разработчиков, что последняя версия этого китайского стандарта, GB 18030-2022 , вводит то, что они называют «подрывными изменениями» по сравнению с предыдущей версией GB 18030-2005, «включающей 33 различных символа и 55 кодовых позиций». [2] GB 18030-2022 вступил в силу 1 августа 2023 года. [3] Это было реализовано в ICU 73.2; и в Java 21, [4] и перенесен на более старые версии Java 8, 11, 17 (выпуски LTS) и 20.0.2. [5]

Помимо метода кодирования, этот стандарт содержит требования о том, какие дополнительные алфавиты и языки должны быть представлены и к кому применим этот стандарт. [6] Однако этот стандарт не определяет официальные формы китайских иероглифов; это стандартизировано в Таблице общих стандартных китайских иероглифов .

Набор символов GB18030 официально называется «Китайский национальный стандарт GB 18030-2005: Информационные технологии — набор китайских кодированных символов». GB сокращает Guójiā Biāozhhoun (国家标准), что означает национальный стандарт на китайском языке . Стандарт был опубликован China Standard Press, Пекин, 8 ноября 2005 г. Только часть стандарта является обязательной. [6] С 1 мая 2006 года поддержка обязательного подмножества официально требуется для всех программных продуктов, продаваемых в КНР.

Различные сопоставления Юникода между версиями GB 18030
Обмен ГБ
последовательность
Кодовая точка Юникода
ГБ 18030-2000 ГБ 18030-2005
А8 БК (ḿ) U+E7C7 U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ
81 35 Ф4 37 U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ U+E7C7

Более старая версия стандарта, известная как «Китайский национальный стандарт GB 18030-2000: Информационные технологии — набор символов, закодированный китайскими иероглифами для обмена информацией — расширение для базового набора», была опубликована 17 марта 2000 года. Схема кодирования остается прежней. то же самое в новой версии, и единственная разница в сопоставлении GB с Unicode заключается в том, что GB 18030-2000 отображал символ A8 BC (ḿ) в кодовую точку частного использования U+E7C7 и символ 81 35 F4 37 (без указания какого-либо глифа) на U+1E3F (ḿ), тогда как GB 18030-2005 меняет местами эти два назначения отображения. [7] : 534  Больше кодовых точек теперь связано с символами благодаря обновлению Unicode , особенно появлению расширения CJK Unified Ideographs Extension B. Некоторые символы, используемые этническими меньшинствами в Китае , такие как монгольские и тибетские иероглифы ( GB 16959-1997 и GB/T 20542). -2006), что также привело к переименованию стандарта.

По сравнению с его предками, отображение GB 18030 в Unicode было изменено для 81 символа, которым предварительно был присвоен кодовый знак области частного использования Unicode (U + E000 – F8FF) в GBK 1.0 и которые позже были закодированы в Unicode. [8] Это указано в Приложении E стандарта GB 18030. [7] : 534  [9] : 499  В GB 18030-2005 есть 24 символа, которые все еще сопоставлены с Unicode PUA. [10]

В обновлении GB 18030-2022 требования к символам, отображаемым в PUA, были полностью отменены, и все символы должны быть сопоставлены с их стандартными кодовыми точками Unicode. Из них 18 сопоставлений были обновлены путем замены позиций, аналогично тому, что произошло между GBK и GB 18030. Остальные шесть сохранили двухбайтовые сопоставления PUA, так что для следования не-PUA необходимо изменить 4-байтовую последовательность. предпочтение. [11]

Символы частного использования в сопоставлениях GB-Unicode
Обмен ГБ
последовательность
Кодовая точка Юникода [а]
ГБК 1.0 [12] [7] : 534  ГБ 18030-2005 [10] Юникод 4.1 ГБ 18030-2022 [11]
А6 Д9 [13] : 108  U+E78D U+FE10 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ЗАПЯТОЙ
А6 ДА U+E78E U+FE12 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ИДЕОГРАФИЧЕСКОЙ ТОЧКИ
А6 БД U+E78F U+FE11 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ИДЕОГРАФИЧЕСКОЙ ЗАПЯТОЙ
А6 ДК U+E790 U+FE13 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО Двоеточия
А6 ДД U+E791 U+FE14 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ТОЧКИ С ЗАПЯТОЙ
А6 ДЕ U+E792 U+FE15 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ВОСКЛИЦАТЕЛЬНОГО ЗНАКА
A6DF U+E793 U+FE16 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ВОПРОСИТЕЛЬНОГО ЗНАКА
А6 ЕС U+E794 U+FE17 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ЛЕВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА
A6 ED U+E795 U+FE18 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА
A6 F3 U+E796 U+FE19 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ГОРИЗОНТАЛЬНОГО ЭЛЛИПСИСА
А8 до нашей эры U+E7C7 U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ
А8 БФ U+E7C8 U + 01F9 ǹ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N С МОГИЛОЙ
А9 89 U+E7E7 U +303E ИНДИКАТОР ИДЕОГРАФИЧЕСКИХ ВАРИАЦИЙ
А9 8А U+E7E8 U+2FF0 СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ СЛЕВА НАПРАВО
А9 8Б U+E7E9 U+2FF1 СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ ВЫШЕ ДО НИЖЕ
А9 8С U+E7EA U+2FF2 СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ СЛЕВА СРЕДНЕГО И СПРАВА
А9 8Д U+E7EB U+2FF3 СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ ВЕРХУ ДО СРЕДНЕГО И НИЖЕ
А9 8Е U+E7EC U + 2FF4 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ПОЛНОЕ ОБЪЕМЫ
А9 8F U+E7ED U + 2FF5 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ ПЕРСОНАЖА, ОБЪЕДИНЕННОЕ СВЕРХУ
А9 90 U+E7EE U + 2FF6 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ОКРУЖЕНИЕ СНИЖЕ
А9 91 U+E7EF U + 2FF7 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ОБЪЕМ СЛЕВА СЛЕВА
А9 92 U+E7F0 U + 2FF8 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ОБЪЕДИНЕНИЕ СЛЕВА ВЕРХНЕГО
А9 93 U+E7F1 U + 2FF9 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛ ОКРУЖЕНИЕ СПРАВА ВЕРХНЕГО
А9 94 [13] : 173  U+E7F2 U + 2FFA ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛОВ ОБЪЕМ СЛЕВА НИЖНЕГО
А9 95 U+E7F3 U + 2FFB НАЛОЖЕННЫЙ СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ
ФЭ 50 U+E815 U + 2E81 CJK РАДИКАЛЬНЫЙ КЛИФФ
ФЭ 51 U+E816 U+20087 𠂇 ЕДИНАЯ ИДЕОГРАФИЯ ЦЖК-20087 [б] U+E816
ФЭ 52 U+E817 U+20089 𠂉 ЕДИНАЯ ИДЕОГРАФИЯ ЦЖК-20089 [с] U+E817
ФЭ 53 U+E818 U+200CC 𠃌 CJK ЕДИНАЯ ИДЕОГРАФИЯ-200CC [д] U+E818
ФЭ 54 U+E819 U + 2E84 CJK РАДИКАЛ ВТОРАЯ ТРЕТЬЯ
ФЭ 55 U+E81A U + 3473 ЕДИНАЯ ИДЕОГРАФИЯ CJK-3473
ФЭ 56 U+E81B U + 3447 ЕДИНАЯ ИДЕОГРАФИЯ CJK-3447
ФЭ 57 U+E81C U+2E88 CJK РАДИКАЛЬНЫЙ НОЖ ОДИН
ФЭ 58 U+E81D U+2E8B РАДИКАЛЬНОЕ УПЛОТНЕНИЕ CJK
ФЭ 59 U+E81E U+9FB4 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB4
ФЭ 5А U+E81F U + 359E CJK ЕДИНАЯ ИДЕОГРАФИЯ-359E
ФЭ 5Б U+E820 U + 361A CJK ЕДИНАЯ ИДЕОГРАФИЯ-361A
ФЭ 5С U+E821 U+360E CJK ЕДИНАЯ ИДЕОГРАФИЯ-360E
ФЭ 5Д U+E822 U+2E8C CJK РАДИКАЛ МАЛЫЙ ОДИН
ФЭ 5Е U+E823 U+2E97 CJK РАДИКАЛ СЕРДЦЕ ДВА
ФЭ 5Ф U+E824 U+396E CJK ЕДИНАЯ ИДЕОГРАФИЯ-396E
ФЭ 60 U+E825 U + 3918 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3918
ФЭ 61 U+E826 U + 9FB5 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB5
ФЭ 62 U+E827 U + 39CF CJK ЕДИНАЯ ИДЕОГРАФИЯ-39CF
ФЭ 63 U+E828 U+39DF CJK ЕДИНАЯ ИДЕОГРАФИЯ-39DF
ФЭ 64 U+E829 U + 3A73 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3A73
ФЭ 65 U+E82A U + 39D0 CJK ЕДИНАЯ ИДЕОГРАФИЯ-39D0
ФЭ 66 U+E82B U+9FB6 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB6
ФЭ 67 U+E82C U + 9FB7 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB7
ФЭ 68 U+E82D U+3B4E CJK ЕДИНАЯ ИДЕОГРАФИЯ-3B4E
ФЭ 69 U+E82E U+3C6E CJK ЕДИНАЯ ИДЕОГРАФИЯ-3C6E
ФЭ 6А U+E82F U + 3CE0 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3CE0
ФЭ 6Б U+E830 U+2EA7 CJK РАДИКАЛЬНАЯ КОРОВА
ФЭ 6С U+E831 U+215D7 𡗗 ЕДИНАЯ ИДЕОГРАФИЯ CJK-215D7 [и] U+E831
ФЭ 6Д U+E832 U+9FB8 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB8
ФЭ 6Е U+E833 U+2EAA CJK РАДИКАЛЬНЫЙ БОЛТ ТКАНИ
ФЭ 6Ф U+E834 U+4056 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4056
ФЭ 70 U+E835 U+415F CJK ЕДИНАЯ ИДЕОГРАФИЯ-415F
ФЭ 71 U+E836 U+2EAE CJK РАДИКАЛЬНЫЙ БАМБУК
ФЭ 72 U+E837 U+4337 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4337
ФЭ 73 U+E838 U + 2EB3 CJK РАДИКАЛ СЕТЬ ТРИ
ФЭ 74 U+E839 U+2EB6 CJK РАДИКАЛЬНАЯ ОВЦА
ФЭ 75 U+E83A U + 2EB7 CJK РАДИКАЛЬНАЯ ОЗУ
ФЭ 76 U+E83B U+2298F 𢦏 ЕДИНАЯ ИДЕОГРАФИЯ CJK-2298F [ф] U+E83B
ФЭ 77 U+E83C U+43B1 CJK ЕДИНАЯ ИДЕОГРАФИЯ-43B1
ФЭ 78 U+E83D U + 43AC CJK ЕДИНАЯ ИДЕОГРАФИЯ-43AC
ФЭ 79 U+E83E U+2EBB CJK РАДИКАЛЬНАЯ ЩЕТКА ДВА
ФЭ 7А U+E83F U + 43DD CJK ЕДИНАЯ ИДЕОГРАФИЯ-43DD
ИП 7Б U+E840 U+44D6 CJK ЕДИНАЯ ИДЕОГРАФИЯ-44D6
ФЭ 7С U+E841 U+4661 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4661
ФЭ 7Д U+E842 U+464C CJK ЕДИНАЯ ИДЕОГРАФИЯ-464C
ФЭ 7Е U+E843 U+9FB9 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB9
ФЭ 80 U+E844 U+4723 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4723
ФЭ 81 U+E845 U+4729 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4729
ФЭ 82 U+E846 U+477C CJK ЕДИНАЯ ИДЕОГРАФИЯ-477C
ФЭ 83 U+E847 U+478D CJK ЕДИНАЯ ИДЕОГРАФИЯ-478D
ФЭ 84 U+E848 U+2ECA CJK РАДИКАЛЬНАЯ НОГА
ФЭ 85 U+E849 U+4947 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4947
ФЭ 86 U+E84A U+497A CJK ЕДИНАЯ ИДЕОГРАФИЯ-497A
ФЭ 87 U+E84B U+497D CJK ЕДИНАЯ ИДЕОГРАФИЯ-497D
ФЭ 88 U+E84C U+4982 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4982
ФЭ 89 U+E84D U+4983 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4983
ФЭ 8А U+E84E U+4985 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4985
ИП 8Б U+E84F U+4986 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4986
ФЭ 8С U+E850 U+499F CJK ЕДИНАЯ ИДЕОГРАФИЯ-499F
ФЭ 8Д U+E851 U+499B CJK ЕДИНАЯ ИДЕОГРАФИЯ-499B
ФЭ 8Е U+E852 U + 49B7 CJK ЕДИНАЯ ИДЕОГРАФИЯ-49B7
ФЭ 8Ф U+E853 U + 49B6 CJK ЕДИНАЯ ИДЕОГРАФИЯ-49B6
ФЭ 90 U+E854 U+9FBA CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FBA
ФЭ 91 U+E855 U+241FE 𤇾 ЕДИНАЯ ИДЕОГРАФИЯ CJK-241FE [г] U+E855
ФЭ 92 U+E856 U+4CA3 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA3
ФЭ 93 U+E857 U+4C9F CJK ЕДИНАЯ ИДЕОГРАФИЯ-4C9F
ФЭ 94 U+E858 U+4CA0 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA0
ФЭ 95 U+E859 U+4CA1 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA1
ФЭ 96 U+E85A U+4C77 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4C77
ФЭ 97 U+E85B U+4CA2 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA2
ФЭ 98 U+E85C U+4D13 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D13
ФЭ 99 U+E85D U+4D14 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D14
ИП 9А U+E85E U+4D15 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D15
ИП 9Б U+E85F U+4D16 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D16
ФЭ 9С U+E860 U+4D17 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D17
ФЭ 9Д U+E861 U+4D18 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D18
ФЭ 9Е U+E862 U+4D19 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D19
ФЭ 9Ф U+E863 U+4DAE CJK ЕДИНАЯ ИДЕОГРАФИЯ-4DAE
ФЭ А0 U+E864 U+9FBB CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FBB
Примечания
а. ^ Синий цвет указывает на частную зону использования.
б. ^ U+20087 𠂇 ЕДИНАЯ ИДЕОГРАФИЯ CJK-20087, сопоставленная с 0x95329031 в Великобритании 18030-2022 гг.
в. ^ U + 20089 𠂉 ЕДИНАЯ ИДЕОГРАФИЯ CJK-20089, сопоставленная с 0x95329033 в Великобритании 18030-2022 гг.
д. ^ U+200CC 𠃌 ЕДИНАЯ ИДЕОГРАФИЯ CJK-200CC сопоставлена ​​с 0x95329730 в Великобритании 18030-2022 гг.
и. ^ U + 215D7 ЕДИНАЯ ИДЕОГРАФИЯ CJK-215D7 сопоставлена ​​с 0x9536B937 в Великобритании 18030-2022 гг.
ф. ^ U + 2298F 𢦏 ЕДИНАЯ ИДЕОГРАФИЯ CJK-2298F сопоставлена ​​с 0x9630BA35 в Великобритании 18030-2022 гг.
г. ^ U + 241FE 𤇾 ЕДИНАЯ ИДЕОГРАФИЯ CJK-241FE сопоставлена ​​с 0x9635B630 в Великобритании 18030-2022 гг.

В качестве национального стандарта

[ редактировать ]

Первая версия GB 18030, получившая обозначение GB 18030-2000 Information Technology — китайский кодированный набор символов для обмена информацией — расширение базового набора , состоит из 1-байтовой и 2-байтовой кодировок, а также 4-байтовой кодировки для унифицированных иероглифов CJK. Расширение A соответствует расширениям Unicode 3.0. Соответствующие кодовые элементы Unicode этого подмножества, включая предварительные частные назначения, полностью лежат в BMP . Эти детали полностью обязательны в GB 18030-2000. [6] : 2  Большинство крупных компьютерных компаний уже стандартизировали ту или иную версию Unicode в качестве основного формата для использования в своих двоичных форматах и ​​вызовах ОС. Однако в основном они поддерживали только кодовые точки в BMP, первоначально определенном в Unicode 1.0, который поддерживал только 65 536 кодовых точек и часто кодировался в 16 битах как UCS-2 . Этот стандарт по сути представляет собой расширение, основанное на GBK с дополнительными символами в расширении A CJK Unified Ideographs Extension.

Вторая версия получила обозначение GB 18030-2005 «Информационные технологии». Китайский кодированный набор символов имеет тот же обязательный поднабор, что и GB 18030-2000, из 1-, 2- и 4-байтовых кодировок. [7] : 3  Эта версия также включает полное расширение CJK Unified Ideographs Extension B в разделе 4-байтовой кодировки, который находится за пределами BMP. [10] в качестве требования поддержки предложения. [14] Однако, поскольку включение CJK Unified Ideographs Extension B в 4-байтовую область необходимо поддерживать во время обработки информации, программное обеспечение больше не может обрабатывать символы как 16-битные объекты фиксированной ширины ( UCS-2 ). Следовательно, они должны либо обрабатывать данные в формате переменной ширины (как в случае с UTF-8 или UTF-16 ), что является наиболее распространенным выбором, либо перейти к более крупному формату с фиксированной шириной (т. е. UTF-32 ). Microsoft внесла изменение с UCS-2 на UTF-16 в Windows 2000. Эта версия соответствует Unicode 3.1, а также обеспечивает поддержку хангыля ( корейского ), монгольского (включая маньчжурский , ясный сценарий , сибе херген , галик ), тай-нуэа , Тибетский , уйгурский / казахский / киргизский и йи .

Третья и последняя версия, GB 18030-2022 Information Technology — набор символов с китайской кодировкой , требует поддержки предложений в части CJK Unified Ideographs Extension B в GB 18030-2005, а также обновлений до Unicode 11.0, включая Kangxi Radicals и CJK Unified Ideographs Extension. C, D, E и F. Дополнительные языки также распознаются GB 18030-2022, такие как часть арабского языка , Тай Ле , Нью Тай Лю , Тай Там , Лису и Мяо . GB 18030-2022 также вводит три уровня реализации с требованием «все продукты, использующие этот стандарт, должны реализовывать уровень реализации 1», который включает 66 новых символов BMP в 4-байтовой области кодирования, которые были добавлены между Unicode 3.1 и Unicode 11.0. Уровень реализации 2 требует поддержки Таблицы общих стандартных китайских символов , а уровень реализации 3 требует всех других указанных регионов в стандарте. [11]

Картирование

[ редактировать ]

GB 18030 определяет однобайтовую (ASCII), двухбайтовую (расширенный GBK) или четырехбайтовую (UTF) кодировку. Двухбайтовые коды определяются в справочной таблице, а четырехбайтовые коды определяются последовательно (следовательно, алгоритмически) для заполнения некодированных частей в UCS . GB 18030 унаследовал плохие аспекты GBK , в первую очередь необходимость в специальном коде для безопасного поиска символов ASCII в последовательности GB18030.

Кодировка ГБ 18030 [7] : 3  [9] : 252  [15]
ГБ 18030 кодовые точки [с] Юникод
байт 1 (старший бит) байт 2 байт 3 байт 4
007F 128 0000007F
80 неверный [д]
81FE 40FE кроме 7F[и] 23 940 0080FFFF кроме D800DFFF[ф]
8184 3039 81FE 3039 39 420
85 — ( 12 600 ) зарезервировано для будущего расширения символов
868F — ( 126 000 ) зарезервировано для будущего идеографического расширения
неназначенный D800DFFF[г]
90E3 3039 81FE 3039 1 048 576 1000010FFFF
E4FC — ( 315 000 ) зарезервировано для будущего расширения стандарта
FDFE — ( 25 200 ) определяемый пользователем
FF неверный
Общий 1 112 064

Одно- и двухбайтовые кодовые точки по существу представляют собой GBK со знаком евро, сопоставлениями PUA для неназначенных/определяемых пользователем точек и вертикальными знаками пунктуации. Четырехбайтовую схему можно рассматривать как состоящую из двух блоков, каждый из которых состоит из двух байтов. Каждая единица имеет формат, аналогичный двухбайтовому символу GBK, но с диапазоном значений второго байта 0x30–0x39 ( коды ASCII для десятичных цифр). Первый байт, как и раньше, имеет диапазон от 0x81 до 0xFE. Это означает, что процедура поиска строк, безопасная для GBK, также должна быть разумно продумана. [ нужны разъяснения ] безопасно для GB18030 (во многом так же, как базовая процедура байт-ориентированного поиска достаточно безопасна для EUC ).

Это дает в общей сложности 1 587 600 (126 × 10 × 126 × 10) возможных 4-байтовых последовательностей, чего вполне достаточно для покрытия Unicode 1 112 064 (17 × 65536 — 2048 суррогатов) назначенных, зарезервированных и несимвольных кодовых точек .

К сожалению, ситуация еще больше усложняется отсутствием простых правил перевода между 4-байтовой последовательностью и соответствующей ей кодовой точкой . Вместо этого коды распределяются последовательно (первый байт содержит наиболее значимую часть, а последний - наименее значащую часть) только для кодовых точек Юникода, которые не отображаются каким-либо другим способом. [час] Например:

U+00DE (Þ) → 81 30 89 37
U+00DF (ß) → 81 30 89 38
U+00E0 (à) → A8 A4
U+00E1 (á) → A8 A2
U+00E2 (â) → 81 30 89 39
U+00E3 (ã) → 81 30 8A 30

Таблица смещений используется в WHATWG и W3C для эффективного преобразования кодовых точек. версии GB 18030 [16] отделение интенсивной терапии [15] и glibc используют схожие определения диапазонов, чтобы не тратить место на большие последовательные блоки.

Поддерживать

[ редактировать ]

Кодирование

[ редактировать ]

GB   18030 поддерживается в Windows с момента выпуска Windows 95 как кодовая страница 54936. [17] Windows 2000 и XP предлагают пакет поддержки GB18030. [18] База данных PostgreSQL с открытым исходным кодом поддерживает GB18030 благодаря полной поддержке UTF-8, то есть путем преобразования его в UTF-8 и обратно. Аналогичным образом Microsoft SQL Server поддерживает GB18030 путем преобразования в UTF-16 и обратно.

Более конкретно, поддержка кодировки GB18030 в Windows означает, что кодовая страница 54936 поддерживается MultiByteToWideChar и WideCharToMultiByte. Благодаря обратной совместимости сопоставления многие файлы в GB18030 могут быть успешно открыты как устаревшая кодовая страница 936, то есть GBK, даже если кодовая страница 54936 не поддерживается. Однако это верно только в том случае, если рассматриваемый файл содержит только символы GBK. Загрузка завершится неудачей или приведет к повреждению результата, если файл содержит символы, которых нет в GBK ( § Технические подробности примеры см. в ).

GNU glibc , библиотека кодеков символов, используемая в большинстве дистрибутивов Linux, поддерживает GB 18030-2000, начиная с версии 2.2. [19] и ГБ 18030-2005 с версии 2.14; [20] glibc, в частности, включает в себя сопоставления без PUA для GB 18030-2005, чтобы обеспечить двустороннее преобразование. [21] GNU libiconv , альтернативная реализация iconv , часто используемая в UNIX-подобных средах, не относящихся к glibc, таких как Cygwin , поддерживает GB 18030, начиная с версии 1.4. [22]

С 2022 года «поддержка некитайских скриптов по-прежнему будет необязательной». [23] (предположительно только для поддержки отображения/шрифтов; и в Китае, поскольку кодировка является полной UTF). Известно, что стандарт поддерживает английский/ASCII, а GB 18030-2022 распознает следующие некитайские алфавиты: арабский, тибетский, монгольский, тай ле, новый тай лю, тай там, и, лису, хангыль (корейский), и Мяо». [23]

Пакет поддержки GB18030 для Windows содержит SimSun18030.ttc, файл коллекции шрифтов TrueType, который объединяет два китайских шрифта: SimSun-18030 и NSimSun-18030. Шрифт SimSun 18030 включает в себя все символы. [ нужны разъяснения ] в Unicode 2.1 плюс новые символы, найденные в блоке Unicode CJK Unified Ideographs Extension A, хотя, несмотря на свое название, он не содержит глифов для всех символов, закодированных GB 18030, так как все (около миллиона) кодовые точки Unicode до U + 10FFFF может быть закодирован как GB 18030. Сертификация соответствия GB 18030 требует только правильной обработки и распознавания глифов в обязательной (двухбайтовой и CJK Ext. A) китайской части. [6] : 4  Тем не менее, требование символов PUA в стандарте препятствовало этой реализации. [24]

Microsoft YaHei и DengXian , предоставленные Microsoft, обновлены в 2023 году для соответствия уровню реализации 2 GB 18030-2022, а SimSun обновлен для соответствия уровню реализации 3. [25]

Источник Han Sans (и его аналог Noto Sans CJK) уже соответствуют уровню реализации 2 GB 18030-2022, когда в ноябре 2022 года будет объявлено о стандартном обновлении для GB 18030. . Однако исходный шрифт Han Serif (и его аналог Noto Serif CJK) на данный момент не соответствует требованиям, и предоставляется обновление, обеспечивающее совместимость шрифта с уровнем реализации 2. Аналогичным образом Microsoft YaHei и PingFang (Apple) требуют небольшого количества дополнений URO. которые связаны с уровнем реализации 1, чтобы соответствовать уровню реализации 2 GB 18030-2022. [23]

Другие семейства шрифтов CJK, такие как HAN NOM [26] и Ханазоно Минчо [27] обеспечивают более широкий охват блоков расширения Unicode CJK, чем SimSun-18030 или даже SimSun (Founder Extended), но они не поддерживают все кодовые точки, определенные в GB 18030.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Обратите внимание, что в GB18030 не используются суррогаты; см . #Картирование .
  2. ^ Знак евро является исключением: ему присвоен однобайтовый код 0x80 в более поздних версиях Microsoft CP936/GBK и двухбайтовый код A2 E3 в GB18030.
  3. ^ Кодовые точки включают 66 несимволов Юникода.
  4. ^ ICU, похоже, ошибочно считает этот код действительным, чего нет ни в одной из версий опубликованных стандартов. WHATWG присваивает этот байт U+20AC ( знак евро GBK ) в своем универсальном декодере gb2312-gbk-gb18030.
  5. ^ Более точное разделение этого диапазона см. в GBK (кодировка символов) § Кодировка .
  6. ^ Некоторые кодовые точки кодируются двумя байтами (верхний ряд), другие — четырьмя байтами (нижний ряд). U+FFFF кодируется как 84 31 A4 39 на странице 239 стандарта 2005 года, хотя в стандарте указывается, насколько 84 39 FE 39 для отображения BMP.
  7. ^ Это суррогатные кодовые точки ; они не имеют никакого значения за пределами кодировки UTF-16 .
  8. ^ Кроме того, из-за того, что кодировки U+E7C7 и U+1E3F были заменены местами, U+E7C7 кодируется в редакции стандарта 2005 года как 81 35 F4 37, между U+1E3E (81 35 F4 36) и U+ 1Э40 (81 35 Ф4 38). Следовательно, только версия 2000 года полностью последовательно распределяет четырехбайтовые коды по неотображенным кодовым точкам.
  1. ^ Энтони Фок (15 марта 2002 г.). «Применение регистрации кодировки IANA для GB18030» . Регистрация набора символов IANA . Проверено 5 декабря 2016 г.
  2. ^ «Разрушительные изменения в Великобритании 18030-2022» (PDF) . www.unicode.org . Проверено 12 февраля 2024 г.
  3. ^ «[JDK-8301119] Поддержка GB18030-2022 — система ошибок Java» . bugs.openjdk.org . Проверено 14 августа 2023 г.
  4. ^ «Примечания к выпуску JDK 21» . jdk.java.net . Проверено 14 августа 2023 г.
  5. ^ «[JDK-8307340] Примечание к выпуску: поддержка GB18030-2022 — система ошибок Java» . bugs.openjdk.org . Проверено 30 августа 2023 г.
  6. ^ Jump up to: а б с д CESI (08.07.2009). «Часто задаваемые вопросы о соответствии GB18030» Архивировано . из оригинала 28 сентября 2016 г. Получено 12 октября 2016 г. Страница 4. Соответствуют следующим продуктам. являются продуктами, которые соответствуют обязательной части GB 18030-2005: ① Продукт может правильно вводить, выводить и обрабатывать все китайские символы, указанные в обязательной части GB 18030-2005. ② Продукт может правильно идентифицировать обязательную часть GB; 18030-2005 Кодировка, соответствующая всем указанным китайским символам. [Продукт, соответствующий обязательной части GB 18030, должен уметь правильно: а) вводить, выводить и обрабатывать все китайские символы, определенные в обязательном наборе; б) распознавать кодировки символов в обязательном наборе.] Альтернативный URL-адрес;
  7. ^ Jump up to: а б с д и Управление стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии — набор китайских кодированных символов .
  8. ^ «Часто задаваемые вопросы по Unicode для GB 18030» . Проект ОИТ . Проверено 10 сентября 2016 г.
  9. ^ Jump up to: а б GB 18030-2000: Информационные технологии. Набор символов, закодированных китайскими иероглифами для обмена информацией. Расширение базового набора . 17 марта 2000 г. {{cite book}}: |work= игнорируется ( помогите )
  10. ^ Jump up to: а б с Лунде, Кен (2006). «L2/06-394 Обновление GB 18030:2005» . Реестр документов Технического комитета Unicode . Проверено 28 сентября 2016 г.
  11. ^ Jump up to: а б с Лунде, Кен (4 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 7 августа 2022 г.
  12. ^ "Группа: ГБК外字 " ГлифВики . Получено 11 сентября.
  13. ^ Jump up to: а б Лунде, Кен (декабрь 2008 г.). Обработка информации CJKV . О'Рейли Медиа, Инк. ISBN  978-0-596-51447-1 . Проверено 11 сентября 2016 г.
  14. ^ CESI (08.07.2009). «Часто задаваемые вопросы о соответствии GB18030» Архивировано . из оригинала 28 сентября 2016 г. Получено 12 октября 2016 г. Страница 4. Соответствуют следующим продуктам. являются продуктами, которые соответствуют обязательной части GB 18030-2005: ① Продукт может правильно вводить, выводить и обрабатывать все китайские символы, указанные в обязательной части GB 18030-2005. ② Продукт может правильно идентифицировать обязательную часть GB; 18030-2005 Кодировка, соответствующая всем указанным китайским символам. [Продукт, соответствующий обязательной части GB 18030, должен уметь правильно: а) вводить, выводить и обрабатывать все китайские символы, определенные в обязательном наборе; б) распознавать кодировки символов из обязательного набора.]
  15. ^ Jump up to: а б Авторитетная таблица сопоставления между GB18030-2000 и Unicode . ICU — международные компоненты для Unicode. 21 февраля 2001 г. По состоянию на 4 сентября 2016 г.
  16. ^ «Стандарт кодирования # gb18030-index» . ЧТОРГ . Проверено 24 сентября 2016 г.
  17. ^ Бридж, Карл (13 октября 2021 г.). «Функция MultiByteToWideChar (stringapiset.h) — приложения Win32» . Learn.microsoft.com . Проверено 1 ноября 2022 г.
  18. ^ Майкрософт. «Пакет поддержки GB18030» . Майкрософт . Архивировано из оригинала 5 июня 2012 г.
  19. ^ Дреппер, Ульрих. «Модуль GB18030 iconv для glibc» . glibc git . Проверено 29 ноября 2016 г.
  20. ^ Дреппер, Ульрих. «Обновить GB18030 до версии 2005» . glibc git . Проверено 29 ноября 2016 г.
  21. ^ Веймер, Флориан; О'Донелл, Чарльз. «Состояние таблиц GB18030 (#19575) » Исходное ПО Bugzilla . Получено 29 ноября.
  22. ^ «НОВОСТИ — libiconv.git — libiconv» . git.savannah.gnu.org . Проверено 13 октября 2016 г.
  23. ^ Jump up to: а б с Лунде, Кен (16 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 1 ноября 2022 г.
  24. ^ Лунде, Кен. «Если gb18030 будет пересмотрен, рассмотрите возможность согласования стандарта кодирования · Проблема № 27 · Whatwg/encoding» . Гитхаб . Кроме того, поддержка кодовых точек PUA в контексте шрифтов Noto CJK и Source Han совершенно бесполезна, главным образом потому, что это шрифты Pan-CJK, а использование PUA в таких контекстах чрезвычайно опасно.[...] Один из них мои друзья из CESI несколько дней назад поделились со мной текстом окончательного проекта. Это подтвердило, что требование PUA для 24 символов снимается.
  25. ^ «11 июля 2023 г. — KB5028171 (сборка ОС 20348.1850) — служба поддержки Microsoft» . support.microsoft.com . Майкрософт . Проверено 25 марта 2024 г.
  26. ^ ВьетнамЮникод. "/ханном" . sourceforge.net . Проверено 13 октября 2016 г.
  27. ^ «Шрифты Ханазоно» . шрифты.jp . Архивировано из оригинала 12 апреля 2010 г. Проверено 13 октября 2016 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2abf81d68913dc7433d3eaaa44766249__1715831880
URL1:https://arc.ask3.ru/arc/aa/2a/49/2abf81d68913dc7433d3eaaa44766249.html
Заголовок, (Title) документа по адресу, URL1:
GB 18030 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)