ГБ 18030
Эта статья нуждается в дополнительных цитатах для проверки . ( сентябрь 2016 г. ) |
МИМ / IANA | ГБ18030 |
---|---|
Псевдоним(а) | Кодовая страница 54936 |
Язык(и) | Международный, но в первую очередь предназначен для китайцев |
Стандартный | ГБ 18030-2022, ГБ 18030-2005, ГБ 18030-2000, ГБ 18030-2022 |
Классификация | Формат преобразования Unicode , расширенный ASCII , [а] кодировка переменной ширины , кодировка CJK |
Расширяет | EUC-CN , ГБК |
Преобразует/кодирует | ISO 10646 ( Юникод ) |
Предшественник | ГБК , ГБ2312 |
| |
GB 18030 — это правительственный стандарт Китая , называемый « Информационные технологии — набор китайских кодированных символов» , который определяет язык и поддержку символов, необходимые для программного обеспечения в Китае . GB18030 — зарегистрированное интернет-имя для официального набора символов ( Китайской Народной Республики КНР), заменяющее GB2312 . [1] Как формат преобразования Unicode [а] (т.е. кодирование всех кодовых точек Unicode ), GB18030 поддерживает как упрощенные , так и традиционные китайские символы . Он также совместим с устаревшими кодировками, включая GB/T 2312 , CP936 , [б] и ГБК 1.0.
Консорциум Unicode предупредил разработчиков, что последняя версия этого китайского стандарта, GB 18030-2022 , вводит то, что они называют «подрывными изменениями» по сравнению с предыдущей версией GB 18030-2005, «включающей 33 различных символа и 55 кодовых позиций». [2] GB 18030-2022 вступил в силу 1 августа 2023 года. [3] Это было реализовано в ICU 73.2; и в Java 21, [4] и перенесен на более старые версии Java 8, 11, 17 (выпуски LTS) и 20.0.2. [5]
Помимо метода кодирования, этот стандарт содержит требования о том, какие дополнительные алфавиты и языки должны быть представлены и к кому применим этот стандарт. [6] Однако этот стандарт не определяет официальные формы китайских иероглифов; это стандартизировано в Таблице общих стандартных китайских иероглифов .
История
[ редактировать ]Набор символов GB18030 официально называется «Китайский национальный стандарт GB 18030-2005: Информационные технологии — набор китайских кодированных символов». GB сокращает Guójiā Biāozhhoun (国家标准), что означает национальный стандарт на китайском языке . Стандарт был опубликован China Standard Press, Пекин, 8 ноября 2005 г. Только часть стандарта является обязательной. [6] С 1 мая 2006 года поддержка обязательного подмножества официально требуется для всех программных продуктов, продаваемых в КНР.
Обмен ГБ последовательность |
Кодовая точка Юникода | |
---|---|---|
ГБ 18030-2000 | ГБ 18030-2005 | |
А8 БК (ḿ) | U+E7C7 |
U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ |
81 35 Ф4 37 | U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ | U+E7C7
|
Более старая версия стандарта, известная как «Китайский национальный стандарт GB 18030-2000: Информационные технологии — набор символов, закодированный китайскими иероглифами для обмена информацией — расширение для базового набора», была опубликована 17 марта 2000 года. Схема кодирования остается прежней. то же самое в новой версии, и единственная разница в сопоставлении GB с Unicode заключается в том, что GB 18030-2000 отображал символ A8 BC
(ḿ) в кодовую точку частного использования U+E7C7 и символ 81 35 F4 37
(без указания какого-либо глифа) на U+1E3F (ḿ), тогда как GB 18030-2005 меняет местами эти два назначения отображения. [7] : 534 Больше кодовых точек теперь связано с символами благодаря обновлению Unicode , особенно появлению расширения CJK Unified Ideographs Extension B. Некоторые символы, используемые этническими меньшинствами в Китае , такие как монгольские и тибетские иероглифы ( GB 16959-1997 и GB/T 20542). -2006), что также привело к переименованию стандарта.
По сравнению с его предками, отображение GB 18030 в Unicode было изменено для 81 символа, которым предварительно был присвоен кодовый знак области частного использования Unicode (U + E000 – F8FF) в GBK 1.0 и которые позже были закодированы в Unicode. [8] Это указано в Приложении E стандарта GB 18030. [7] : 534 [9] : 499 В GB 18030-2005 есть 24 символа, которые все еще сопоставлены с Unicode PUA. [10]
В обновлении GB 18030-2022 требования к символам, отображаемым в PUA, были полностью отменены, и все символы должны быть сопоставлены с их стандартными кодовыми точками Unicode. Из них 18 сопоставлений были обновлены путем замены позиций, аналогично тому, что произошло между GBK и GB 18030. Остальные шесть сохранили двухбайтовые сопоставления PUA, так что для следования не-PUA необходимо изменить 4-байтовую последовательность. предпочтение. [11]
Обмен ГБ последовательность |
Кодовая точка Юникода [а] | |||
---|---|---|---|---|
ГБК 1.0 [12] [7] : 534 | ГБ 18030-2005 [10] | Юникод 4.1 | ГБ 18030-2022 [11] | |
А6 Д9 [13] : 108 | U+E78D
|
U+FE10 ︐ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ЗАПЯТОЙ | ||
А6 ДА | U+E78E |
U+FE12 ︒ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ИДЕОГРАФИЧЕСКОЙ ТОЧКИ | ||
А6 БД | U+E78F |
U+FE11 ︑ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ИДЕОГРАФИЧЕСКОЙ ЗАПЯТОЙ | ||
А6 ДК | U+E790 |
U+FE13 ︓ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО Двоеточия | ||
А6 ДД | U+E791 |
U+FE14 ︔ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ТОЧКИ С ЗАПЯТОЙ | ||
А6 ДЕ | U+E792 |
U+FE15 ︕ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ВОСКЛИЦАТЕЛЬНОГО ЗНАКА | ||
A6DF | U+E793 |
U+FE16 ︖ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ВОПРОСИТЕЛЬНОГО ЗНАКА | ||
А6 ЕС | U+E794 |
U+FE17 ︗ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ЛЕВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА | ||
A6 ED | U+E795 |
U+FE18 ︘ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА | ||
A6 F3 | U+E796 |
U+FE19 ︙ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ГОРИЗОНТАЛЬНОГО ЭЛЛИПСИСА | ||
А8 до нашей эры | U+E7C7 |
U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ | ||
А8 БФ | U+E7C8 |
U + 01F9 ǹ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N С МОГИЛОЙ | ||
А9 89 | U+E7E7 |
U +303E 〾 ИНДИКАТОР ИДЕОГРАФИЧЕСКИХ ВАРИАЦИЙ | ||
А9 8А | U+E7E8 |
U+2FF0 ⿰ СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ СЛЕВА НАПРАВО | ||
А9 8Б | U+E7E9 |
U+2FF1 ⿱ СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ ВЫШЕ ДО НИЖЕ | ||
А9 8С | U+E7EA |
U+2FF2 ⿲ СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ СЛЕВА СРЕДНЕГО И СПРАВА | ||
А9 8Д | U+E7EB |
U+2FF3 ⿳ СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ ВЕРХУ ДО СРЕДНЕГО И НИЖЕ | ||
А9 8Е | U+E7EC |
U + 2FF4 ⿴ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ПОЛНОЕ ОБЪЕМЫ | ||
А9 8F | U+E7ED |
U + 2FF5 ⿵ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ ПЕРСОНАЖА, ОБЪЕДИНЕННОЕ СВЕРХУ | ||
А9 90 | U+E7EE |
U + 2FF6 ⿶ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ОКРУЖЕНИЕ СНИЖЕ | ||
А9 91 | U+E7EF |
U + 2FF7 ⿷ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ОБЪЕМ СЛЕВА СЛЕВА | ||
А9 92 | U+E7F0 |
U + 2FF8 ⿸ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ОБЪЕДИНЕНИЕ СЛЕВА ВЕРХНЕГО | ||
А9 93 | U+E7F1 |
U + 2FF9 ⿹ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛ ОКРУЖЕНИЕ СПРАВА ВЕРХНЕГО | ||
А9 94 [13] : 173 | U+E7F2 |
U + 2FFA ⿺ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛОВ ОБЪЕМ СЛЕВА НИЖНЕГО | ||
А9 95 | U+E7F3 |
U + 2FFB ⿻ НАЛОЖЕННЫЙ СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ | ||
ФЭ 50 | U+E815 |
U + 2E81 ⺁ CJK РАДИКАЛЬНЫЙ КЛИФФ | ||
ФЭ 51 | U+E816 |
U+20087 𠂇 ЕДИНАЯ ИДЕОГРАФИЯ ЦЖК-20087 [б] | U+E816
| |
ФЭ 52 | U+E817 |
U+20089 𠂉 ЕДИНАЯ ИДЕОГРАФИЯ ЦЖК-20089 [с] | U+E817
| |
ФЭ 53 | U+E818 |
U+200CC 𠃌 CJK ЕДИНАЯ ИДЕОГРАФИЯ-200CC [д] | U+E818
| |
ФЭ 54 | U+E819 |
U + 2E84 ⺄ CJK РАДИКАЛ ВТОРАЯ ТРЕТЬЯ | ||
ФЭ 55 | U+E81A |
U + 3473 㑳 ЕДИНАЯ ИДЕОГРАФИЯ CJK-3473 | ||
ФЭ 56 | U+E81B |
U + 3447 㑇 ЕДИНАЯ ИДЕОГРАФИЯ CJK-3447 | ||
ФЭ 57 | U+E81C |
U+2E88 ⺈ CJK РАДИКАЛЬНЫЙ НОЖ ОДИН | ||
ФЭ 58 | U+E81D |
U+2E8B ⺋ РАДИКАЛЬНОЕ УПЛОТНЕНИЕ CJK | ||
ФЭ 59 | U+E81E |
U+9FB4 龴 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB4 | ||
ФЭ 5А | U+E81F |
U + 359E 㖞 CJK ЕДИНАЯ ИДЕОГРАФИЯ-359E | ||
ФЭ 5Б | U+E820 |
U + 361A 㘚 CJK ЕДИНАЯ ИДЕОГРАФИЯ-361A | ||
ФЭ 5С | U+E821 |
U+360E 㘎 CJK ЕДИНАЯ ИДЕОГРАФИЯ-360E | ||
ФЭ 5Д | U+E822 |
U+2E8C ⺌ CJK РАДИКАЛ МАЛЫЙ ОДИН | ||
ФЭ 5Е | U+E823 |
U+2E97 ⺗ CJK РАДИКАЛ СЕРДЦЕ ДВА | ||
ФЭ 5Ф | U+E824 |
U+396E 㥮 CJK ЕДИНАЯ ИДЕОГРАФИЯ-396E | ||
ФЭ 60 | U+E825 |
U + 3918 㤘 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3918 | ||
ФЭ 61 | U+E826 |
U + 9FB5 龵 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB5 | ||
ФЭ 62 | U+E827 |
U + 39CF 㧏 CJK ЕДИНАЯ ИДЕОГРАФИЯ-39CF | ||
ФЭ 63 | U+E828 |
U+39DF 㧟 CJK ЕДИНАЯ ИДЕОГРАФИЯ-39DF | ||
ФЭ 64 | U+E829 |
U + 3A73 㩳 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3A73 | ||
ФЭ 65 | U+E82A |
U + 39D0 㧐 CJK ЕДИНАЯ ИДЕОГРАФИЯ-39D0 | ||
ФЭ 66 | U+E82B |
U+9FB6 龶 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB6 | ||
ФЭ 67 | U+E82C |
U + 9FB7 龷 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB7 | ||
ФЭ 68 | U+E82D |
U+3B4E 㭎 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3B4E | ||
ФЭ 69 | U+E82E |
U+3C6E 㱮 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3C6E | ||
ФЭ 6А | U+E82F |
U + 3CE0 㳠 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3CE0 | ||
ФЭ 6Б | U+E830 |
U+2EA7 ⺧ CJK РАДИКАЛЬНАЯ КОРОВА | ||
ФЭ 6С | U+E831 |
U+215D7 𡗗 ЕДИНАЯ ИДЕОГРАФИЯ CJK-215D7 [и] | U+E831
| |
ФЭ 6Д | U+E832 |
U+9FB8 龸 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB8 | ||
ФЭ 6Е | U+E833 |
U+2EAA ⺪ CJK РАДИКАЛЬНЫЙ БОЛТ ТКАНИ | ||
ФЭ 6Ф | U+E834 |
U+4056 䁖 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4056 | ||
ФЭ 70 | U+E835 |
U+415F 䅟 CJK ЕДИНАЯ ИДЕОГРАФИЯ-415F | ||
ФЭ 71 | U+E836 |
U+2EAE ⺮ CJK РАДИКАЛЬНЫЙ БАМБУК | ||
ФЭ 72 | U+E837 |
U+4337 䌷 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4337 | ||
ФЭ 73 | U+E838 |
U + 2EB3 ⺳ CJK РАДИКАЛ СЕТЬ ТРИ | ||
ФЭ 74 | U+E839 |
U+2EB6 ⺶ CJK РАДИКАЛЬНАЯ ОВЦА | ||
ФЭ 75 | U+E83A |
U + 2EB7 ⺷ CJK РАДИКАЛЬНАЯ ОЗУ | ||
ФЭ 76 | U+E83B |
U+2298F 𢦏 ЕДИНАЯ ИДЕОГРАФИЯ CJK-2298F [ф] | U+E83B
| |
ФЭ 77 | U+E83C |
U+43B1 䎱 CJK ЕДИНАЯ ИДЕОГРАФИЯ-43B1 | ||
ФЭ 78 | U+E83D |
U + 43AC 䎬 CJK ЕДИНАЯ ИДЕОГРАФИЯ-43AC | ||
ФЭ 79 | U+E83E |
U+2EBB ⺻ CJK РАДИКАЛЬНАЯ ЩЕТКА ДВА | ||
ФЭ 7А | U+E83F |
U + 43DD 䏝 CJK ЕДИНАЯ ИДЕОГРАФИЯ-43DD | ||
ИП 7Б | U+E840 |
U+44D6 䓖 CJK ЕДИНАЯ ИДЕОГРАФИЯ-44D6 | ||
ФЭ 7С | U+E841 |
U+4661 䙡 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4661 | ||
ФЭ 7Д | U+E842 |
U+464C 䙌 CJK ЕДИНАЯ ИДЕОГРАФИЯ-464C | ||
ФЭ 7Е | U+E843 |
U+9FB9 龹 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB9 | ||
ФЭ 80 | U+E844 |
U+4723 䜣 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4723 | ||
ФЭ 81 | U+E845 |
U+4729 䜩 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4729 | ||
ФЭ 82 | U+E846 |
U+477C 䝼 CJK ЕДИНАЯ ИДЕОГРАФИЯ-477C | ||
ФЭ 83 | U+E847 |
U+478D 䞍 CJK ЕДИНАЯ ИДЕОГРАФИЯ-478D | ||
ФЭ 84 | U+E848 |
U+2ECA ⻊ CJK РАДИКАЛЬНАЯ НОГА | ||
ФЭ 85 | U+E849 |
U+4947 䥇 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4947 | ||
ФЭ 86 | U+E84A |
U+497A 䥺 CJK ЕДИНАЯ ИДЕОГРАФИЯ-497A | ||
ФЭ 87 | U+E84B |
U+497D 䥽 CJK ЕДИНАЯ ИДЕОГРАФИЯ-497D | ||
ФЭ 88 | U+E84C |
U+4982 䦂 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4982 | ||
ФЭ 89 | U+E84D |
U+4983 䦃 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4983 | ||
ФЭ 8А | U+E84E |
U+4985 䦅 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4985 | ||
ИП 8Б | U+E84F |
U+4986 䦆 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4986 | ||
ФЭ 8С | U+E850 |
U+499F 䦟 CJK ЕДИНАЯ ИДЕОГРАФИЯ-499F | ||
ФЭ 8Д | U+E851 |
U+499B 䦛 CJK ЕДИНАЯ ИДЕОГРАФИЯ-499B | ||
ФЭ 8Е | U+E852 |
U + 49B7 䦷 CJK ЕДИНАЯ ИДЕОГРАФИЯ-49B7 | ||
ФЭ 8Ф | U+E853 |
U + 49B6 䦶 CJK ЕДИНАЯ ИДЕОГРАФИЯ-49B6 | ||
ФЭ 90 | U+E854 |
U+9FBA 龺 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FBA | ||
ФЭ 91 | U+E855 |
U+241FE 𤇾 ЕДИНАЯ ИДЕОГРАФИЯ CJK-241FE [г] | U+E855
| |
ФЭ 92 | U+E856 |
U+4CA3 䲣 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA3 | ||
ФЭ 93 | U+E857 |
U+4C9F 䲟 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4C9F | ||
ФЭ 94 | U+E858 |
U+4CA0 䲠 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA0 | ||
ФЭ 95 | U+E859 |
U+4CA1 䲡 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA1 | ||
ФЭ 96 | U+E85A |
U+4C77 䱷 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4C77 | ||
ФЭ 97 | U+E85B |
U+4CA2 䲢 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA2 | ||
ФЭ 98 | U+E85C |
U+4D13 䴓 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D13 | ||
ФЭ 99 | U+E85D |
U+4D14 䴔 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D14 | ||
ИП 9А | U+E85E |
U+4D15 䴕 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D15 | ||
ИП 9Б | U+E85F |
U+4D16 䴖 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D16 | ||
ФЭ 9С | U+E860 |
U+4D17 䴗 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D17 | ||
ФЭ 9Д | U+E861 |
U+4D18 䴘 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D18 | ||
ФЭ 9Е | U+E862 |
U+4D19 䴙 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D19 | ||
ФЭ 9Ф | U+E863 |
U+4DAE 䶮 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4DAE | ||
ФЭ А0 | U+E864 |
U+9FBB 龻 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FBB | ||
Примечания
|
В качестве национального стандарта
[ редактировать ]Первая версия GB 18030, получившая обозначение GB 18030-2000 Information Technology — китайский кодированный набор символов для обмена информацией — расширение базового набора , состоит из 1-байтовой и 2-байтовой кодировок, а также 4-байтовой кодировки для унифицированных иероглифов CJK. Расширение A соответствует расширениям Unicode 3.0. Соответствующие кодовые элементы Unicode этого подмножества, включая предварительные частные назначения, полностью лежат в BMP . Эти детали полностью обязательны в GB 18030-2000. [6] : 2 Большинство крупных компьютерных компаний уже стандартизировали ту или иную версию Unicode в качестве основного формата для использования в своих двоичных форматах и вызовах ОС. Однако в основном они поддерживали только кодовые точки в BMP, первоначально определенном в Unicode 1.0, который поддерживал только 65 536 кодовых точек и часто кодировался в 16 битах как UCS-2 . Этот стандарт по сути представляет собой расширение, основанное на GBK с дополнительными символами в расширении A CJK Unified Ideographs Extension.
Вторая версия получила обозначение GB 18030-2005 «Информационные технологии». Китайский кодированный набор символов имеет тот же обязательный поднабор, что и GB 18030-2000, из 1-, 2- и 4-байтовых кодировок. [7] : 3 Эта версия также включает полное расширение CJK Unified Ideographs Extension B в разделе 4-байтовой кодировки, который находится за пределами BMP. [10] в качестве требования поддержки предложения. [14] Однако, поскольку включение CJK Unified Ideographs Extension B в 4-байтовую область необходимо поддерживать во время обработки информации, программное обеспечение больше не может обрабатывать символы как 16-битные объекты фиксированной ширины ( UCS-2 ). Следовательно, они должны либо обрабатывать данные в формате переменной ширины (как в случае с UTF-8 или UTF-16 ), что является наиболее распространенным выбором, либо перейти к более крупному формату с фиксированной шириной (т. е. UTF-32 ). Microsoft внесла изменение с UCS-2 на UTF-16 в Windows 2000. Эта версия соответствует Unicode 3.1, а также обеспечивает поддержку хангыля ( корейского ), монгольского (включая маньчжурский , ясный сценарий , сибе херген , галик ), тай-нуэа , Тибетский , уйгурский / казахский / киргизский и йи .
Третья и последняя версия, GB 18030-2022 Information Technology — набор символов с китайской кодировкой , требует поддержки предложений в части CJK Unified Ideographs Extension B в GB 18030-2005, а также обновлений до Unicode 11.0, включая Kangxi Radicals и CJK Unified Ideographs Extension. C, D, E и F. Дополнительные языки также распознаются GB 18030-2022, такие как часть арабского языка , Тай Ле , Нью Тай Лю , Тай Там , Лису и Мяо . GB 18030-2022 также вводит три уровня реализации с требованием «все продукты, использующие этот стандарт, должны реализовывать уровень реализации 1», который включает 66 новых символов BMP в 4-байтовой области кодирования, которые были добавлены между Unicode 3.1 и Unicode 11.0. Уровень реализации 2 требует поддержки Таблицы общих стандартных китайских символов , а уровень реализации 3 требует всех других указанных регионов в стандарте. [11]
Картирование
[ редактировать ]GB 18030 определяет однобайтовую (ASCII), двухбайтовую (расширенный GBK) или четырехбайтовую (UTF) кодировку. Двухбайтовые коды определяются в справочной таблице, а четырехбайтовые коды определяются последовательно (следовательно, алгоритмически) для заполнения некодированных частей в UCS . GB 18030 унаследовал плохие аспекты GBK , в первую очередь необходимость в специальном коде для безопасного поиска символов ASCII в последовательности GB18030.
ГБ 18030 | кодовые точки [с] | Юникод | |||
---|---|---|---|---|---|
байт 1 (старший бит) | байт 2 | байт 3 | байт 4 | ||
00 – 7F
|
128 | 0000 – 007F
| |||
80
|
— | неверный [д] | |||
81 – FE |
40 – FE кроме 7F [и]
|
23 940 | 0080 – FFFF кроме D800 – DFFF [ф]
| ||
81 – 84
|
30 – 39
|
81 – FE
|
30 – 39
|
39 420 | |
85
|
— ( 12 600 ) | зарезервировано для будущего расширения символов | |||
86 – 8F
|
— ( 126 000 ) | зарезервировано для будущего идеографического расширения | |||
неназначенный | — | D800 – DFFF [г]
| |||
90 – E3
|
30 – 39
|
81 – FE
|
30 – 39
|
1 048 576 | 10000 – 10FFFF
|
E4 – FC
|
— ( 315 000 ) | зарезервировано для будущего расширения стандарта | |||
FD – FE
|
— ( 25 200 ) | определяемый пользователем | |||
FF
|
— | неверный | |||
Общий | 1 112 064 |
Одно- и двухбайтовые кодовые точки по существу представляют собой GBK со знаком евро, сопоставлениями PUA для неназначенных/определяемых пользователем точек и вертикальными знаками пунктуации. Четырехбайтовую схему можно рассматривать как состоящую из двух блоков, каждый из которых состоит из двух байтов. Каждая единица имеет формат, аналогичный двухбайтовому символу GBK, но с диапазоном значений второго байта 0x30–0x39 ( коды ASCII для десятичных цифр). Первый байт, как и раньше, имеет диапазон от 0x81 до 0xFE. Это означает, что процедура поиска строк, безопасная для GBK, также должна быть разумно продумана. [ нужны разъяснения ] безопасно для GB18030 (во многом так же, как базовая процедура байт-ориентированного поиска достаточно безопасна для EUC ).
Это дает в общей сложности 1 587 600 (126 × 10 × 126 × 10) возможных 4-байтовых последовательностей, чего вполне достаточно для покрытия Unicode 1 112 064 (17 × 65536 — 2048 суррогатов) назначенных, зарезервированных и несимвольных кодовых точек .
К сожалению, ситуация еще больше усложняется отсутствием простых правил перевода между 4-байтовой последовательностью и соответствующей ей кодовой точкой . Вместо этого коды распределяются последовательно (первый байт содержит наиболее значимую часть, а последний - наименее значащую часть) только для кодовых точек Юникода, которые не отображаются каким-либо другим способом. [час] Например:
U+00DE (Þ) → 81 30 89 37 U+00DF (ß) → 81 30 89 38 U+00E0 (à) → A8 A4 U+00E1 (á) → A8 A2 U+00E2 (â) → 81 30 89 39 U+00E3 (ã) → 81 30 8A 30
Таблица смещений используется в WHATWG и W3C для эффективного преобразования кодовых точек. версии GB 18030 [16] отделение интенсивной терапии [15] и glibc используют схожие определения диапазонов, чтобы не тратить место на большие последовательные блоки.
Поддерживать
[ редактировать ]
Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( октябрь 2016 г. ) |
Кодирование
[ редактировать ]GB 18030 поддерживается в Windows с момента выпуска Windows 95 как кодовая страница 54936. [17] Windows 2000 и XP предлагают пакет поддержки GB18030. [18] База данных PostgreSQL с открытым исходным кодом поддерживает GB18030 благодаря полной поддержке UTF-8, то есть путем преобразования его в UTF-8 и обратно. Аналогичным образом Microsoft SQL Server поддерживает GB18030 путем преобразования в UTF-16 и обратно.
Более конкретно, поддержка кодировки GB18030 в Windows означает, что кодовая страница 54936 поддерживается MultiByteToWideChar
и WideCharToMultiByte
. Благодаря обратной совместимости сопоставления многие файлы в GB18030 могут быть успешно открыты как устаревшая кодовая страница 936, то есть GBK, даже если кодовая страница 54936 не поддерживается. Однако это верно только в том случае, если рассматриваемый файл содержит только символы GBK. Загрузка завершится неудачей или приведет к повреждению результата, если файл содержит символы, которых нет в GBK ( § Технические подробности примеры см. в ).
GNU glibc , библиотека кодеков символов, используемая в большинстве дистрибутивов Linux, поддерживает GB 18030-2000, начиная с версии 2.2. [19] и ГБ 18030-2005 с версии 2.14; [20] glibc, в частности, включает в себя сопоставления без PUA для GB 18030-2005, чтобы обеспечить двустороннее преобразование. [21] GNU libiconv , альтернативная реализация iconv , часто используемая в UNIX-подобных средах, не относящихся к glibc, таких как Cygwin , поддерживает GB 18030, начиная с версии 1.4. [22]
С 2022 года «поддержка некитайских скриптов по-прежнему будет необязательной». [23] (предположительно только для поддержки отображения/шрифтов; и в Китае, поскольку кодировка является полной UTF). Известно, что стандарт поддерживает английский/ASCII, а GB 18030-2022 распознает следующие некитайские алфавиты: арабский, тибетский, монгольский, тай ле, новый тай лю, тай там, и, лису, хангыль (корейский), и Мяо». [23]
Шрифты
[ редактировать ]Пакет поддержки GB18030 для Windows содержит SimSun18030.ttc, файл коллекции шрифтов TrueType, который объединяет два китайских шрифта: SimSun-18030 и NSimSun-18030. Шрифт SimSun 18030 включает в себя все символы. [ нужны разъяснения ] в Unicode 2.1 плюс новые символы, найденные в блоке Unicode CJK Unified Ideographs Extension A, хотя, несмотря на свое название, он не содержит глифов для всех символов, закодированных GB 18030, так как все (около миллиона) кодовые точки Unicode до U + 10FFFF может быть закодирован как GB 18030. Сертификация соответствия GB 18030 требует только правильной обработки и распознавания глифов в обязательной (двухбайтовой и CJK Ext. A) китайской части. [6] : 4 Тем не менее, требование символов PUA в стандарте препятствовало этой реализации. [24]
Microsoft YaHei и DengXian , предоставленные Microsoft, обновлены в 2023 году для соответствия уровню реализации 2 GB 18030-2022, а SimSun обновлен для соответствия уровню реализации 3. [25]
Источник Han Sans (и его аналог Noto Sans CJK) уже соответствуют уровню реализации 2 GB 18030-2022, когда в ноябре 2022 года будет объявлено о стандартном обновлении для GB 18030. [update]. Однако исходный шрифт Han Serif (и его аналог Noto Serif CJK) на данный момент не соответствует требованиям, и предоставляется обновление, обеспечивающее совместимость шрифта с уровнем реализации 2. Аналогичным образом Microsoft YaHei и PingFang (Apple) требуют небольшого количества дополнений URO. которые связаны с уровнем реализации 1, чтобы соответствовать уровню реализации 2 GB 18030-2022. [23]
Другие семейства шрифтов CJK, такие как HAN NOM [26] и Ханазоно Минчо [27] обеспечивают более широкий охват блоков расширения Unicode CJK, чем SimSun-18030 или даже SimSun (Founder Extended), но они не поддерживают все кодовые точки, определенные в GB 18030.
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Обратите внимание, что в GB18030 не используются суррогаты; см . #Картирование .
- ^ Знак евро является исключением: ему присвоен однобайтовый код 0x80 в более поздних версиях Microsoft CP936/GBK и двухбайтовый код A2 E3 в GB18030.
- ^ Кодовые точки включают 66 несимволов Юникода.
- ^ ICU, похоже, ошибочно считает этот код действительным, чего нет ни в одной из версий опубликованных стандартов. WHATWG присваивает этот байт U+20AC ( знак евро GBK ) в своем универсальном декодере gb2312-gbk-gb18030.
- ^ Более точное разделение этого диапазона см. в GBK (кодировка символов) § Кодировка .
- ^ Некоторые кодовые точки кодируются двумя байтами (верхний ряд), другие — четырьмя байтами (нижний ряд). U+FFFF кодируется как
84 31 A4 39
на странице 239 стандарта 2005 года, хотя в стандарте указывается, насколько84 39 FE 39
для отображения BMP. - ^ Это суррогатные кодовые точки ; они не имеют никакого значения за пределами кодировки UTF-16 .
- ^ Кроме того, из-за того, что кодировки U+E7C7 и U+1E3F были заменены местами, U+E7C7 кодируется в редакции стандарта 2005 года как 81 35 F4 37, между U+1E3E (81 35 F4 36) и U+ 1Э40 (81 35 Ф4 38). Следовательно, только версия 2000 года полностью последовательно распределяет четырехбайтовые коды по неотображенным кодовым точкам.
Ссылки
[ редактировать ]- ^ Энтони Фок (15 марта 2002 г.). «Применение регистрации кодировки IANA для GB18030» . Регистрация набора символов IANA . Проверено 5 декабря 2016 г.
- ^ «Разрушительные изменения в Великобритании 18030-2022» (PDF) . www.unicode.org . Проверено 12 февраля 2024 г.
- ^ «[JDK-8301119] Поддержка GB18030-2022 — система ошибок Java» . bugs.openjdk.org . Проверено 14 августа 2023 г.
- ^ «Примечания к выпуску JDK 21» . jdk.java.net . Проверено 14 августа 2023 г.
- ^ «[JDK-8307340] Примечание к выпуску: поддержка GB18030-2022 — система ошибок Java» . bugs.openjdk.org . Проверено 30 августа 2023 г.
- ^ Jump up to: а б с д CESI (08.07.2009). «Часто задаваемые вопросы о соответствии GB18030» Архивировано . из оригинала 28 сентября 2016 г. Получено 12 октября 2016 г. Страница
4. Соответствуют следующим продуктам. являются продуктами, которые соответствуют обязательной части GB 18030-2005: ① Продукт может правильно вводить, выводить и обрабатывать все китайские символы, указанные в обязательной части GB 18030-2005. ② Продукт может правильно идентифицировать обязательную часть GB; 18030-2005 Кодировка, соответствующая всем указанным китайским символам. [Продукт, соответствующий обязательной части GB 18030, должен уметь правильно: а) вводить, выводить и обрабатывать все китайские символы, определенные в обязательном наборе; б) распознавать кодировки символов в обязательном наборе.]
Альтернативный URL-адрес; - ^ Jump up to: а б с д и Управление стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии — набор китайских кодированных символов .
- ^ «Часто задаваемые вопросы по Unicode для GB 18030» . Проект ОИТ . Проверено 10 сентября 2016 г.
- ^ Jump up to: а б GB 18030-2000: Информационные технологии. Набор символов, закодированных китайскими иероглифами для обмена информацией. Расширение базового набора . 17 марта 2000 г.
{{cite book}}
:|work=
игнорируется ( помогите ) - ^ Jump up to: а б с Лунде, Кен (2006). «L2/06-394 Обновление GB 18030:2005» . Реестр документов Технического комитета Unicode . Проверено 28 сентября 2016 г.
- ^ Jump up to: а б с Лунде, Кен (4 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 7 августа 2022 г.
- ^ "Группа: ГБК外字 " ГлифВики . Получено 11 сентября.
- ^ Jump up to: а б Лунде, Кен (декабрь 2008 г.). Обработка информации CJKV . О'Рейли Медиа, Инк. ISBN 978-0-596-51447-1 . Проверено 11 сентября 2016 г.
- ^ CESI (08.07.2009). «Часто задаваемые вопросы о соответствии GB18030» Архивировано . из оригинала 28 сентября 2016 г. Получено 12 октября 2016 г. Страница
4. Соответствуют следующим продуктам. являются продуктами, которые соответствуют обязательной части GB 18030-2005: ① Продукт может правильно вводить, выводить и обрабатывать все китайские символы, указанные в обязательной части GB 18030-2005. ② Продукт может правильно идентифицировать обязательную часть GB; 18030-2005 Кодировка, соответствующая всем указанным китайским символам. [Продукт, соответствующий обязательной части GB 18030, должен уметь правильно: а) вводить, выводить и обрабатывать все китайские символы, определенные в обязательном наборе; б) распознавать кодировки символов из обязательного набора.]
- ^ Jump up to: а б Авторитетная таблица сопоставления между GB18030-2000 и Unicode . ICU — международные компоненты для Unicode. 21 февраля 2001 г. По состоянию на 4 сентября 2016 г.
- ^ «Стандарт кодирования # gb18030-index» . ЧТОРГ . Проверено 24 сентября 2016 г.
- ^ Бридж, Карл (13 октября 2021 г.). «Функция MultiByteToWideChar (stringapiset.h) — приложения Win32» . Learn.microsoft.com . Проверено 1 ноября 2022 г.
- ^ Майкрософт. «Пакет поддержки GB18030» . Майкрософт . Архивировано из оригинала 5 июня 2012 г.
- ^ Дреппер, Ульрих. «Модуль GB18030 iconv для glibc» . glibc git . Проверено 29 ноября 2016 г.
- ^ Дреппер, Ульрих. «Обновить GB18030 до версии 2005» . glibc git . Проверено 29 ноября 2016 г.
- ^ Веймер, Флориан; О'Донелл, Чарльз. «Состояние таблиц GB18030 (#19575) » Исходное ПО Bugzilla . Получено 29 ноября.
- ^ «НОВОСТИ — libiconv.git — libiconv» . git.savannah.gnu.org . Проверено 13 октября 2016 г.
- ^ Jump up to: а б с Лунде, Кен (16 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 1 ноября 2022 г.
- ^ Лунде, Кен. «Если gb18030 будет пересмотрен, рассмотрите возможность согласования стандарта кодирования · Проблема № 27 · Whatwg/encoding» . Гитхаб .
Кроме того, поддержка кодовых точек PUA в контексте шрифтов Noto CJK и Source Han совершенно бесполезна, главным образом потому, что это шрифты Pan-CJK, а использование PUA в таких контекстах чрезвычайно опасно.[...] Один из них мои друзья из CESI несколько дней назад поделились со мной текстом окончательного проекта. Это подтвердило, что требование PUA для 24 символов снимается.
- ^ «11 июля 2023 г. — KB5028171 (сборка ОС 20348.1850) — служба поддержки Microsoft» . support.microsoft.com . Майкрософт . Проверено 25 марта 2024 г.
- ^ ВьетнамЮникод. "/ханном" . sourceforge.net . Проверено 13 октября 2016 г.
- ^ «Шрифты Ханазоно» . шрифты.jp . Архивировано из оригинала 12 апреля 2010 г. Проверено 13 октября 2016 г.
Внешние ссылки
[ редактировать ]- Регистрация кодировки IANA для GB18030
- «Англоязычное резюме – 2000» (PDF) . 16 февраля 2001 г. Архивировано из оригинала (PDF) 02 февраля 2017 г.
- Введение в GB18030, включая развитие GB2312 и GBK (Sun/Internet Archive)
- Дата отделения интенсивной терапии
- Диаграммы Юникода
- Расширение унифицированных иероглифов Unicode CJK A (PDF, 1,5 МБ)
- Расширение унифицированных иероглифов Unicode CJK B (PDF, 13 МБ)
- Пакет поддержки GB18030 для Windows 2000/XP, включая китайский, тибетский, йи, монгольский и тайский шрифты Microsoft (Интернет-архив)
- Бесплатные шрифты, редакторы и документация SIL.