~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 8851D808E2F3740E796722F9971AA2AD__1715831880 ✰
Заголовок документа оригинал.:
✰ GB 18030 - Wikipedia ✰
Заголовок документа перевод.:
✰ ГБ 18030 — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/GB_18030 ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/88/ad/8851d808e2f3740e796722f9971aa2ad.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/88/ad/8851d808e2f3740e796722f9971aa2ad__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 18:14:19 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 16 May 2024, at 06:58 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

ГБ 18030 — Википедия Jump to content

ГБ 18030

Из Википедии, бесплатной энциклопедии
ГБ 18030
Схема кодировки GB 18030. «Полукоды» обозначают коды, используемые парами в виде четырехбайтовых кодов.
МИМ / IANA ГБ18030
Псевдоним(а) Кодовая страница 54936
Язык(и) Международный, но в первую очередь предназначен для китайцев
Стандартный ГБ 18030-2022, ГБ 18030-2005, ГБ 18030-2000, ГБ 18030-2022
Классификация Формат преобразования Unicode , расширенный ASCII , [а] кодировка переменной ширины , кодировка CJK
Расширяет EUC-CN , ГБК
Преобразует/кодирует ISO 10646 ( Юникод )
Предшествует ГБК , ГБ2312
  1. ^ Не в самом строгом смысле этого слова, поскольку байты ASCII могут отображаться как байты следа.

GB 18030 — это государственный стандарт Китая , называемый « Информационные технологии — набор китайских кодированных символов» , который определяет язык и поддержку символов, необходимые для программного обеспечения в Китае . GB18030  — зарегистрированное интернет-имя для официального набора символов Китайской Народной Республики (КНР), заменяющее GB2312 . [1] Как формат преобразования Unicode [а] (т.е. кодирование всех кодовых точек Unicode ), GB18030 поддерживает как упрощенные , так и традиционные китайские символы . Он также совместим с устаревшими кодировками, включая GB/T 2312 , CP936 , [б] и ГБК 1.0.

Консорциум Unicode предупредил разработчиков, что последняя версия этого китайского стандарта, GB 18030-2022 , вводит то, что они называют «подрывными изменениями» по сравнению с предыдущей версией GB 18030-2005, «включающей 33 различных символа и 55 кодовых позиций». [2] GB 18030-2022 вступил в силу 1 августа 2023 года. [3] Это было реализовано в ICU 73.2; и в Java 21, [4] и перенесен на более старые версии Java 8, 11, 17 (выпуски LTS) и 20.0.2. [5]

Помимо метода кодирования, этот стандарт содержит требования о том, какие дополнительные алфавиты и языки должны быть представлены и к кому применим этот стандарт. [6] Однако этот стандарт не определяет официальные формы китайских иероглифов; это стандартизировано в Таблице общих стандартных китайских иероглифов .

История [ править ]

Набор символов GB18030 официально называется «Китайский национальный стандарт GB 18030-2005: Информационные технологии — набор китайских кодированных символов». GB сокращает Guójiā Biāozhhoun (国家标准), что на китайском языке означает национальный стандарт . Стандарт был опубликован China Standard Press, Пекин, 8 ноября 2005 г. Только часть стандарта является обязательной. [6] С 1 мая 2006 года поддержка обязательного подмножества официально требуется для всех программных продуктов, продаваемых в КНР.

Различные сопоставления Юникода между версиями GB 18030
Обмен ГБ
последовательность
Кодовая точка Юникода
ГБ 18030-2000 ГБ 18030-2005
А8 БК (ḿ) U+E7C7 U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ
81 35 Ф4 37 U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ U+E7C7

Более старая версия стандарта, известная как «Китайский национальный стандарт GB 18030-2000: Информационные технологии — набор символов, кодированный китайскими иероглифами для обмена информацией — расширение для базового набора», была опубликована 17 марта 2000 года. Схема кодирования остается прежней. то же самое в новой версии, и единственная разница в сопоставлении GB с Unicode заключается в том, что GB 18030-2000 отображал символ A8 BC (ḿ) в кодовую точку частного использования U+E7C7 и символ 81 35 F4 37 (без указания какого-либо глифа) на U+1E3F (ḿ), тогда как GB 18030-2005 меняет местами эти два назначения отображения. [7] : 534  Больше кодовых точек теперь связано с символами благодаря обновлению Unicode , особенно появлению расширения B унифицированных иероглифов CJK . Некоторые символы, используемые этническими меньшинствами в Китае , такие как монгольские иероглифы и тибетские иероглифы ( GB 16959-1997 и GB/T 20542). -2006), что также привело к переименованию стандарта.

По сравнению с его предшественниками, отображение GB 18030 в Unicode было изменено для 81 символа, которым предварительно был присвоен кодовый знак области частного использования Unicode (U + E000 – F8FF) в GBK 1.0 и которые позже были закодированы в Unicode. [8] Это указано в Приложении E стандарта GB 18030. [7] : 534  [9] : 499  В GB 18030-2005 есть 24 символа, которые все еще сопоставлены с Unicode PUA. [10]

В обновлении GB 18030-2022 требования к символам, отображаемым в PUA, были полностью отменены, и все символы должны быть сопоставлены с их стандартными кодовыми точками Unicode. Из них 18 сопоставлений были обновлены путем замены позиций, аналогично тому, что произошло между GBK и GB 18030. Остальные шесть сохранили двухбайтовые сопоставления PUA, так что для следования не-PUA необходимо изменить 4-байтовую последовательность. предпочтение. [11]

Символы частного использования в сопоставлениях GB-Unicode
Обмен ГБ
последовательность
Кодовая точка Юникода [а]
ГБК 1.0 [12] [7] : 534  ГБ 18030-2005 [10] Юникод 4.1 ГБ 18030-2022 [11]
А6 Д9 [13] : 108  U+E78D U+FE10 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ЗАПЯТОЙ
А6 ДА U+E78E U+FE12 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ИДЕОГРАФИЧЕСКОЙ ТОЧКИ
А6 БД U+E78F U+FE11 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ИДЕОГРАФИЧЕСКОЙ ЗАПЯТОЙ
А6 ДК U+E790 U+FE13 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО Двоеточия
А6 ДД U+E791 U+FE14 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ТОЧКИ С ЗАПЯТОЙ
А6 ДЕ U+E792 U+FE15 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ВОСКЛИЦАТЕЛЬНОГО ЗНАКА
А6 ДФ U+E793 U+FE16 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ВОПРОСИТЕЛЬНОГО ЗНАКА
А6 ЕС U+E794 U+FE17 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ЛЕВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА
А6 ЭД U+E795 U+FE18 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА
А6 Ф3 U+E796 U+FE19 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОГО ГОРИЗОНТАЛЬНОГО ЭЛЛИПСИСА
А8 до нашей эры U+E7C7 U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ
А8 БФ U+E7C8 U + 01F9 ǹ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N С МОГИЛОЙ
А9 89 U+E7E7 U+303E ИНДИКАТОР ИДЕОГРАФИЧЕСКИХ ВАРИАЦИЙ
А9 8А U+E7E8 U+2FF0 СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ СЛЕВА НАПРАВО
А9 8Б U+E7E9 U+2FF1 ⿱ СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ ВЫШЕ ДО НИЖЕ
А9 8С U+E7EA U+2FF2 СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ СЛЕВА СРЕДНЕГО И СПРАВА
А9 8Д U+E7EB U+2FF3 СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ ВЕРХУ ДО СРЕДНЕГО И НИЖЕ
А9 8Е U+E7EC U + 2FF4 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ПОЛНОЕ ОБЪЕМЫ
А9 8F U+E7ED U + 2FF5 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ ПЕРСОНАЖА, ОБЪЕДИНЕННОЕ СВЕРХУ
А9 90 U+E7EE U + 2FF6 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ОКРУЖЕНИЕ СНИЖЕ
А9 91 U+E7EF U + 2FF7 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ОБЪЕМ СЛЕВА СЛЕВА
А9 92 U+E7F0 U + 2FF8 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ОБЪЕДИНЕНИЕ СЛЕВА ВЕРХНЕГО
А9 93 U+E7F1 U + 2FF9 ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛ ОКРУЖЕНИЕ СПРАВА ВЕРХНЕГО
А9 94 [13] : 173  U+E7F2 U + 2FFA ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛОВ ОБЪЕМ СЛЕВА НИЖНЕГО
А9 95 U+E7F3 U + 2FFB НАЛОЖЕННЫЙ СИМВОЛ ИДЕОГРАФИЧЕСКОГО ОПИСАНИЯ
ФЭ 50 U+E815 U + 2E81 CJK РАДИКАЛЬНЫЙ КЛИФФ
ФЭ 51 U+E816 U+20087 𠂇 ЕДИНАЯ ИДЕОГРАФИЯ ЦЖК-20087 [б] U+E816
ФЭ 52 U+E817 U+20089 𠂉 ЕДИНАЯ ИДЕОГРАФИЯ ЦЖК-20089 [с] U+E817
ФЭ 53 U+E818 U+200CC 𠃌 CJK ЕДИНАЯ ИДЕОГРАФИЯ-200CC [д] U+E818
ФЭ 54 U+E819 U + 2E84 CJK РАДИКАЛ ВТОРАЯ ТРЕТЬЯ
ФЭ 55 U+E81A U + 3473 ЕДИНАЯ ИДЕОГРАФИЯ CJK-3473
ФЭ 56 U+E81B U + 3447 ЕДИНАЯ ИДЕОГРАФИЯ CJK-3447
ФЭ 57 U+E81C U+2E88 CJK РАДИКАЛЬНЫЙ НОЖ ОДИН
ФЭ 58 U+E81D U+2E8B РАДИКАЛЬНОЕ УПЛОТНЕНИЕ CJK
ФЭ 59 U+E81E U+9FB4 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB4
ФЭ 5А U+E81F U + 359E CJK ЕДИНАЯ ИДЕОГРАФИЯ-359E
ФЭ 5Б U+E820 U + 361A CJK ЕДИНАЯ ИДЕОГРАФИЯ-361A
ФЭ 5С U+E821 U+360E CJK ЕДИНАЯ ИДЕОГРАФИЯ-360E
ФЭ 5Д U+E822 U+2E8C CJK РАДИКАЛ МАЛЫЙ ОДИН
ФЭ 5Е U+E823 U+2E97 CJK РАДИКАЛ СЕРДЦЕ ДВА
ФЭ 5Ф U+E824 U+396E CJK ЕДИНАЯ ИДЕОГРАФИЯ-396E
ФЭ 60 U+E825 U + 3918 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3918
ФЭ 61 U+E826 U + 9FB5 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB5
ФЭ 62 U+E827 U + 39CF CJK ЕДИНАЯ ИДЕОГРАФИЯ-39CF
ФЭ 63 U+E828 U+39DF CJK ЕДИНАЯ ИДЕОГРАФИЯ-39DF
ФЭ 64 U+E829 U + 3A73 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3A73
ФЭ 65 U+E82A U + 39D0 CJK ЕДИНАЯ ИДЕОГРАФИЯ-39D0
ФЭ 66 U+E82B U+9FB6 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB6
ФЭ 67 U+E82C U + 9FB7 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB7
ФЭ 68 U+E82D U+3B4E CJK ЕДИНАЯ ИДЕОГРАФИЯ-3B4E
ФЭ 69 U+E82E U+3C6E CJK ЕДИНАЯ ИДЕОГРАФИЯ-3C6E
ФЭ 6А U+E82F U + 3CE0 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3CE0
ФЭ 6Б U+E830 U+2EA7 CJK РАДИКАЛЬНАЯ КОРОВА
ФЭ 6С U+E831 U+215D7 𡗗 ЕДИНАЯ ИДЕОГРАФИЯ CJK-215D7 [Это] U+E831
ВЕРА 6D U+E832 U+9FB8 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB8
ФЭ 6Е U+E833 U+2EAA CJK РАДИКАЛЬНЫЙ БОЛТ ТКАНИ
ФЭ 6Ф U+E834 U+4056 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4056
ФЭ 70 U+E835 U+415F CJK ЕДИНАЯ ИДЕОГРАФИЯ-415F
ФЭ 71 U+E836 U+2EAE CJK РАДИКАЛЬНЫЙ БАМБУК
ФЭ 72 U+E837 U+4337 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4337
ФЭ 73 U+E838 U + 2EB3 CJK РАДИКАЛ СЕТЬ ТРИ
ФЭ 74 U+E839 U+2EB6 CJK РАДИКАЛЬНАЯ ОВЦА
ФЭ 75 U+E83A U + 2EB7 CJK РАДИКАЛЬНАЯ ОЗУ
ФЭ 76 U+E83B U+2298F 𢦏 ЕДИНАЯ ИДЕОГРАФИЯ CJK-2298F [ф] U+E83B
ФЭ 77 U+E83C U+43B1 CJK ЕДИНАЯ ИДЕОГРАФИЯ-43B1
ФЭ 78 U+E83D U + 43AC CJK ЕДИНАЯ ИДЕОГРАФИЯ-43AC
ФЭ 79 U+E83E U+2EBB CJK РАДИКАЛЬНАЯ ЩЕТКА ДВА
ФЭ 7А U+E83F U+43DD CJK ЕДИНАЯ ИДЕОГРАФИЯ-43DD
ИП 7Б U+E840 U+44D6 CJK ЕДИНАЯ ИДЕОГРАФИЯ-44D6
ФЭ 7С U+E841 U+4661 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4661
ФЭ 7Д U+E842 U+464C CJK ЕДИНАЯ ИДЕОГРАФИЯ-464C
ФЭ 7Е U+E843 U+9FB9 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB9
ФЭ 80 U+E844 U+4723 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4723
ФЭ 81 U+E845 U+4729 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4729
ФЭ 82 U+E846 U+477C CJK ЕДИНАЯ ИДЕОГРАФИЯ-477C
ФЭ 83 U+E847 U+478D CJK ЕДИНАЯ ИДЕОГРАФИЯ-478D
ФЭ 84 U+E848 U+2ECA CJK РАДИКАЛЬНАЯ НОГА
ФЭ 85 U+E849 U+4947 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4947
ФЭ 86 U+E84A U+497A CJK ЕДИНАЯ ИДЕОГРАФИЯ-497A
ФЭ 87 U+E84B U+497D CJK ЕДИНАЯ ИДЕОГРАФИЯ-497D
ФЭ 88 U+E84C U+4982 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4982
ФЭ 89 U+E84D U+4983 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4983
ФЭ 8А U+E84E U+4985 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4985
ИП 8Б U+E84F U + 4986 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4986
ФЭ 8С U+E850 U+499F CJK ЕДИНАЯ ИДЕОГРАФИЯ-499F
ФЭ 8Д U+E851 U+499B CJK ЕДИНАЯ ИДЕОГРАФИЯ-499B
ФЭ 8Е U+E852 U + 49B7 CJK ЕДИНАЯ ИДЕОГРАФИЯ-49B7
ФЭ 8Ф U+E853 U + 49B6 CJK ЕДИНАЯ ИДЕОГРАФИЯ-49B6
ФЭ 90 U+E854 U+9FBA CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FBA
ФЭ 91 U+E855 U+241FE 𤇾 ЕДИНАЯ ИДЕОГРАФИЯ CJK-241FE [г] U+E855
ФЭ 92 U+E856 U+4CA3 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA3
ФЭ 93 U+E857 U+4C9F CJK ЕДИНАЯ ИДЕОГРАФИЯ-4C9F
ФЭ 94 U+E858 U+4CA0 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA0
ФЭ 95 U+E859 U+4CA1 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA1
ФЭ 96 U+E85A U+4C77 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4C77
ФЭ 97 U+E85B U+4CA2 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA2
ФЭ 98 U+E85C U+4D13 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D13
ФЭ 99 U+E85D U+4D14 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D14
ИП 9А U+E85E U+4D15 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D15
ИП 9Б U+E85F U+4D16 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D16
ФЭ 9С U+E860 U+4D17 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D17
ФЭ 9Д U+E861 U+4D18 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D18
ФЭ 9Е U+E862 U+4D19 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D19
ФЭ 9Ф U+E863 U+4DAE CJK ЕДИНАЯ ИДЕОГРАФИЯ-4DAE
ФЭ А0 U+E864 U+9FBB CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FBB
Примечания
а. ^ Синий обозначает зону частного использования.
б. ^ U+20087 𠂇 ЕДИНАЯ ИДЕОГРАФИЯ CJK-20087, сопоставленная с 0x95329031 в Великобритании 18030-2022 гг.
в. ^ U + 20089 𠂉 ЕДИНАЯ ИДЕОГРАФИЯ CJK-20089, сопоставленная с 0x95329033 в Великобритании 18030-2022 гг.
д. ^ U+200CC 𠃌 ЕДИНАЯ ИДЕОГРАФИЯ CJK-200CC сопоставлена ​​с 0x95329730 в Великобритании 18030-2022 гг.
Это. ^ U + 215D7 ЕДИНАЯ ИДЕОГРАФИЯ CJK-215D7 сопоставлена ​​с 0x9536B937 в Великобритании 18030-2022 гг.
ф. ^ U + 2298F 𢦏 ЕДИНАЯ ИДЕОГРАФИЯ CJK-2298F сопоставлена ​​с 0x9630BA35 в Великобритании 18030-2022 гг.
г. ^ U + 241FE 𤇾 ЕДИНАЯ ИДЕОГРАФИЯ CJK-241FE сопоставлена ​​с 0x9635B630 в Великобритании 18030-2022 гг.

Как национальный стандарт [ править ]

Первая версия GB 18030, получившая обозначение GB 18030-2000 Information Technology — китайский кодированный набор символов для обмена информацией — расширение базового набора , состоит из 1-байтовой и 2-байтовой кодировок, а также 4-байтовой кодировки для унифицированных иероглифов CJK. Расширение A соответствует расширениям Unicode 3.0. Соответствующие кодовые элементы Unicode этого подмножества, включая предварительные частные назначения, полностью лежат в BMP . Эти детали полностью обязательны в GB 18030-2000. [6] : 2  Большинство крупных компьютерных компаний уже стандартизировали ту или иную версию Unicode в качестве основного формата для использования в своих двоичных форматах и ​​вызовах ОС. Однако в основном они поддерживали только кодовые точки в BMP, первоначально определенном в Unicode 1.0, который поддерживал только 65 536 кодовых точек и часто кодировался в 16 битах как UCS-2 . Этот стандарт по сути представляет собой расширение, основанное на GBK с дополнительными символами в расширении A CJK Unified Ideographs Extension.

Вторая версия получила обозначение GB 18030-2005 «Информационные технологии». Китайский кодированный набор символов имеет тот же обязательный поднабор, что и GB 18030-2000, из 1-, 2- и 4-байтовых кодировок. [7] : 3  Эта версия также включает полное расширение CJK Unified Ideographs Extension B в разделе 4-байтовой кодировки, который находится за пределами BMP. [10] в качестве требования поддержки предложения. [14] Однако, поскольку включение CJK Unified Ideographs Extension B в 4-байтовую область необходимо поддерживать во время обработки информации, программное обеспечение больше не может обходиться без обработки символов как 16-битных объектов фиксированной ширины ( UCS-2 ). Следовательно, они должны либо обрабатывать данные в формате переменной ширины (как в случае с UTF-8 или UTF-16 ), что является наиболее распространенным выбором, либо перейти к более крупному формату с фиксированной шириной (т. е. UTF-32 ). Microsoft внесла изменение с UCS-2 на UTF-16 в Windows 2000. Эта версия соответствует Unicode 3.1, а также обеспечивает поддержку хангыля ( корейского ), монгольского (включая маньчжурский , ясный сценарий , сибе херген , галик ), тай нуэа , Тибетский , уйгурский / казахский / киргизский и йи .

Третья и последняя версия, GB 18030-2022 Information Technology — китайский кодированный набор символов , требует поддержки предложений в части CJK Unified Ideographs Extension B в GB 18030-2005, а также обновлений до Unicode 11.0, включая Kangxi Radicals и CJK Unified Ideographs Extension. C, D, E и F. Дополнительные языки также распознаются GB 18030-2022, такие как часть арабского языка , Тай Ле , Нью Тай Лю , Тай Там , Лису и Мяо . GB 18030-2022 также вводит три уровня реализации с требованием «все продукты, использующие этот стандарт, должны реализовывать уровень реализации 1», который включает 66 новых символов BMP в 4-байтовой области кодирования, которые были добавлены между Unicode 3.1 и Unicode 11.0. Уровень реализации 2 требует поддержки Таблицы общих стандартных китайских символов , а уровень реализации 3 требует всех других указанных регионов в стандарте. [11]

Картирование [ править ]

GB 18030 определяет однобайтовую (ASCII), двухбайтовую (расширенный GBK) или четырехбайтовую (UTF) кодировку. Двухбайтовые коды определяются в справочной таблице, а четырехбайтовые коды определяются последовательно (следовательно, алгоритмически) для заполнения некодированных частей в UCS . GB 18030 унаследовал плохие стороны GBK , в первую очередь необходимость в специальном коде для безопасного поиска символов ASCII в последовательности GB18030.

Кодировка ГБ 18030 [7] : 3  [9] : 252  [15]
ГБ 18030 кодовые точки [с] Юникод
байт 1 (старший бит) байт 2 байт 3 байт 4
007F 128 0000007F
80 неверный [д]
81FE 40FE кроме 7F[Это] 23 940 0080FFFF кроме D800DFFF[ф]
8184 3039 81FE 3039 39 420
85 — ( 12 600 ) зарезервировано для будущего расширения символов
868F — ( 126 000 ) зарезервировано для будущего идеографического расширения
неназначенный D800DFFF[г]
90E3 3039 81FE 3039 1 048 576 1000010FFFF
E4FC — ( 315 000 ) зарезервировано для будущего расширения стандарта
FDFE — ( 25 200 ) определяемые пользователем
FF неверный
Общий 1 112 064

Одно- и двухбайтовые кодовые точки по существу представляют собой GBK со знаком евро, сопоставлениями PUA для неназначенных/определяемых пользователем точек и вертикальными знаками пунктуации. Четырехбайтовую схему можно рассматривать как состоящую из двух блоков, каждый из которых состоит из двух байтов. Каждая единица имеет формат, аналогичный двухбайтовому символу GBK, но с диапазоном значений второго байта 0x30–0x39 ( коды ASCII для десятичных цифр). Первый байт, как и раньше, имеет диапазон от 0x81 до 0xFE. Это означает, что процедура поиска строк, безопасная для GBK, также должна быть разумно продумана. [ нужны разъяснения ] безопасно для GB18030 (во многом так же, как базовая процедура байт-ориентированного поиска достаточно безопасна для EUC ).

Это дает в общей сложности 1 587 600 (126 × 10 × 126 × 10) возможных 4-байтовых последовательностей, чего вполне достаточно для покрытия 1 112 064 (17 × 65536 — 2048 суррогатов) назначенных, зарезервированных и несимвольных кодовых точек Unicode .

К сожалению, ситуация еще больше усложняется отсутствием простых правил перевода между 4-байтовой последовательностью и соответствующей ей кодовой точкой . Вместо этого коды распределяются последовательно (первый байт содержит наиболее значимую часть, а последний — наименее значимую часть) только для кодовых точек Юникода, которые не отображаются каким-либо другим способом. [час] Например:

U+00DE (Þ) → 81 30 89 37
 U+00DF (ß) → 81 30 89 38
 U + 00E0 (в) → A8 A4
 U + 00E1 (á) → A8 A2
 U+00E2 (â) → 81 30 89 39
 U+00E3 (ã) → 81 30 8A 30
 

Таблица смещений используется в WHATWG и W3C для эффективного преобразования кодовых точек. версии GB 18030 [16] отделение интенсивной терапии [15] и glibc используют схожие определения диапазонов, чтобы не тратить место на большие последовательные блоки.

Поддержка [ править ]

Кодировка [ править ]

GB   18030 поддерживается в Windows с момента выпуска Windows 95 как кодовая страница 54936. [17] Windows 2000 и XP предлагают пакет поддержки GB18030. [18] База данных PostgreSQL с открытым исходным кодом поддерживает GB18030 благодаря полной поддержке UTF-8, то есть путем преобразования его в UTF-8 и обратно. Аналогичным образом Microsoft SQL Server поддерживает GB18030 путем преобразования в UTF-16 и обратно.

Более конкретно, поддержка кодировки GB18030 в Windows означает, что кодовая страница 54936 поддерживается MultiByteToWideChar и WideCharToMultiByte. Благодаря обратной совместимости сопоставления многие файлы в GB18030 могут быть успешно открыты как устаревшая кодовая страница 936, то есть GBK, даже если кодовая страница 54936 не поддерживается. Однако это верно только в том случае, если рассматриваемый файл содержит только символы GBK. Загрузка завершится неудачей или приведет к повреждению результата, если файл содержит символы, которых нет в GBK ( см. в § Технические подробности примеры ).

GNU glibc , библиотека кодеков символов, используемая в большинстве дистрибутивов Linux, поддерживает GB 18030-2000, начиная с версии 2.2. [19] и ГБ 18030-2005 с версии 2.14; [20] glibc, в частности, включает в себя сопоставления без PUA для GB 18030-2005, чтобы обеспечить двустороннее преобразование. [21] GNU libiconv , альтернативная реализация iconv, часто используемая в UNIX-подобных средах, не относящихся к glibc, таких как Cygwin , поддерживает GB 18030, начиная с версии 1.4. [22]

С 2022 года «поддержка некитайских скриптов по-прежнему будет необязательной». [23] (предположительно только для поддержки отображения/шрифтов; и в Китае, поскольку кодировка является полной UTF). Известно, что стандарт поддерживает английский/ASCII, а «следующие некитайские алфавиты распознаются GB 18030-2022: арабский, тибетский, монгольский, тай ле, новый тай лю, тай тхам, и, лису, хангыль (корейский), и Мяо». [23]

Шрифты [ править ]

Пакет поддержки GB18030 для Windows содержит SimSun18030.ttc, файл коллекции шрифтов TrueType, который объединяет два китайских шрифта: SimSun-18030 и NSimSun-18030. Шрифт SimSun 18030 включает в себя все символы. [ нужны разъяснения ] в Unicode 2.1 плюс новые символы, найденные в блоке Unicode CJK Unified Ideographs Extension A, хотя, несмотря на свое название, он не содержит глифов для всех символов, закодированных GB 18030, так как все (около миллиона) кодовые точки Unicode до U + 10FFFF может быть закодирован как GB 18030. Сертификация соответствия GB 18030 требует только правильной обработки и распознавания глифов в обязательной (двухбайтовой и CJK Ext. A) китайской части. [6] : 4  Тем не менее, требование символов PUA в стандарте препятствовало этой реализации. [24]

Microsoft YaHei и DengXian , предоставленные Microsoft, обновлены в 2023 году для соответствия уровню реализации 2 GB 18030-2022, а SimSun обновлен для соответствия уровню реализации 3. [25]

Источник Han Sans (и его аналог Noto Sans CJK) уже соответствуют уровню реализации 2 GB 18030-2022, когда в ноябре 2022 года будет объявлено о стандартном обновлении для GB 18030. . Однако исходный шрифт Han Serif (и его аналог Noto Serif CJK) на данный момент не соответствует требованиям, и предоставляется обновление, обеспечивающее совместимость шрифта с уровнем реализации 2. Аналогичным образом Microsoft YaHei и PingFang (Apple) требуют небольшого количества дополнений URO. которые связаны с уровнем реализации 1, чтобы соответствовать уровню реализации 2 GB 18030-2022. [23]

Другие семейства шрифтов CJK, такие как HAN NOM [26] и Ханазоно Минчо [27] обеспечивают более широкий охват блоков расширения Unicode CJK, чем SimSun-18030 или даже SimSun (Founder Extended), но они не поддерживают все кодовые точки, определенные в GB 18030.

См. также [ править ]

Примечания [ править ]

  1. ^ Обратите внимание, что в GB18030 не используются суррогаты; Картирование см. # .
  2. ^ Знак евро является исключением: ему присвоен однобайтовый код 0x80 в более поздних версиях Microsoft CP936/GBK и двухбайтовый код A2 E3 в GB18030.
  3. ^ Кодовые точки включают 66 несимволов Юникода.
  4. ^ ICU, похоже, ошибочно считает этот код действительным, чего нет ни в одной из версий опубликованных стандартов. WHATWG присваивает этот байт U+20AC ( знак евро GBK ) в своем универсальном декодере gb2312-gbk-gb18030.
  5. ^ Более точное разделение этого диапазона см. в GBK (кодировка символов) § Кодировка .
  6. ^ Некоторые кодовые точки кодируются двумя байтами (верхний ряд), другие — четырьмя байтами (нижний ряд). U+FFFF кодируется как 84 31 A4 39 на странице 239 стандарта 2005 года, хотя в стандарте указывается, насколько 84 39 FE 39 для отображения BMP.
  7. ^ Это суррогатные кодовые точки ; они не имеют никакого значения за пределами кодировки UTF-16 .
  8. ^ Кроме того, из-за того, что кодировки U+E7C7 и U+1E3F были заменены местами, U+E7C7 кодируется в редакции стандарта 2005 года как 81 35 F4 37, между U+1E3E (81 35 F4 36) и U+ 1Э40 (81 35 Ф4 38). Следовательно, только версия 2000 года полностью последовательно распределяет четырехбайтовые коды по неотображенным кодовым точкам.

Ссылки [ править ]

  1. ^ Энтони Фок (15 марта 2002 г.). «Применение регистрации кодировки IANA для GB18030» . Регистрация набора символов IANA . Проверено 5 декабря 2016 г.
  2. ^ «Разрушительные изменения в Великобритании 18030-2022» (PDF) . www.unicode.org . Проверено 12 февраля 2024 г.
  3. ^ «[JDK-8301119] Поддержка GB18030-2022 — система ошибок Java» . bugs.openjdk.org . Проверено 14 августа 2023 г.
  4. ^ «Примечания к выпуску JDK 21» . jdk.java.net . Проверено 14 августа 2023 г.
  5. ^ «[JDK-8307340] Примечание к выпуску: поддержка GB18030-2022 — система ошибок Java» . bugs.openjdk.org . Проверено 30 августа 2023 г.
  6. ^ Перейти обратно: а б с д CESI (08.07.2009). «Часто задаваемые вопросы о соответствии GB18030» . . Архивировано из оригинала 28 сентября 2016 г. Получено 12 октября 2016 г. Страница 4. Соответствуют следующим продуктам являются продуктами, которые соответствуют обязательной части GB 18030-2005: ① Продукт может правильно вводить, выводить и обрабатывать все китайские символы, указанные в обязательной части GB 18030-2005. ② Продукт может правильно идентифицировать обязательную часть GB; 18030-2005 Кодировка, соответствующая всем указанным китайским символам. [Продукт, соответствующий обязательной части GB 18030, должен уметь правильно: а) вводить, выводить и обрабатывать все китайские символы, определенные в обязательном наборе; б) распознавать кодировки символов из обязательного набора.] Альтернативный URL-адрес ;
  7. ^ Перейти обратно: а б с д Это Управление стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии — набор китайских кодированных символов .
  8. ^ «Часто задаваемые вопросы по Unicode для GB 18030» . Проект ОИТ . Проверено 10 сентября 2016 г.
  9. ^ Перейти обратно: а б GB 18030-2000: Информационные технологии. Набор символов, закодированных китайскими иероглифами для обмена информацией. Расширение базового набора . 17 марта 2000 г. {{cite book}}: |work= игнорируется ( помогите )
  10. ^ Перейти обратно: а б с Лунде, Кен (2006). «L2/06-394 Обновление GB 18030:2005» . Реестр документов Технического комитета Unicode . Проверено 28 сентября 2016 г.
  11. ^ Перейти обратно: а б с Лунде, Кен (4 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 7 августа 2022 г.
  12. ^ «Группа: ГБК外字» . ГлифВики . Проверено 11 сентября 2016 г.
  13. ^ Перейти обратно: а б Лунде, Кен (декабрь 2008 г.). Обработка информации CJKV . O'Reilly Media, Inc. ISBN  978-0-596-51447-1 . Проверено 11 сентября 2016 г.
  14. ^ CESI (08.07.2009). «Часто задаваемые вопросы о соответствии GB18030» . . Архивировано из оригинала 28 сентября 2016 г. Получено 12 октября 2016 г. Страница 4. Соответствуют следующим продуктам являются продуктами, которые соответствуют обязательной части GB 18030-2005: ① Продукт может правильно вводить, выводить и обрабатывать все китайские символы, указанные в обязательной части GB 18030-2005. ② Продукт может правильно идентифицировать обязательную часть GB; 18030-2005 Кодировка, соответствующая всем указанным китайским символам. [Продукт, соответствующий обязательной части GB 18030, должен уметь правильно: а) вводить, выводить и обрабатывать все китайские символы, определенные в обязательном наборе; б) распознавать кодировки символов из обязательного набора.]
  15. ^ Перейти обратно: а б Авторитетная таблица сопоставления между GB18030-2000 и Unicode . ICU — международные компоненты для Unicode. 21 февраля 2001 г. По состоянию на 4 сентября 2016 г.
  16. ^ «Стандарт кодирования # gb18030-index» . ЧТОРГ . Проверено 24 сентября 2016 г.
  17. ^ Бридж, Карл (13 октября 2021 г.). «Функция MultiByteToWideChar (stringapiset.h) — приложения Win32» . Learn.microsoft.com . Проверено 1 ноября 2022 г.
  18. ^ Майкрософт. «Пакет поддержки GB18030» . Майкрософт . Архивировано из оригинала 5 июня 2012 г.
  19. ^ Дреппер, Ульрих. «Модуль GB18030 iconv для glibc» . glibc git . Проверено 29 ноября 2016 г.
  20. ^ Дреппер, Ульрих. «Обновить GB18030 до версии 2005» . glibc git . Проверено 29 ноября 2016 г.
  21. ^ Веймер, Флориан; О'Донелл, Карлос. «Состояние таблиц GB18030 (#19575)» . Исходное ПО Bugzilla . Проверено 29 ноября 2016 г.
  22. ^ «НОВОСТИ — libiconv.git — libiconv» . git.savannah.gnu.org . Проверено 13 октября 2016 г.
  23. ^ Перейти обратно: а б с Лунде, Кен (16 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 1 ноября 2022 г.
  24. ^ Лунде, Кен. «Если gb18030 будет пересмотрен, рассмотрите возможность согласования стандарта кодирования · Проблема № 27 · Whatwg/encoding» . Гитхаб . Кроме того, поддержка кодовых точек PUA в контексте шрифтов Noto CJK и Source Han совершенно бесполезна, главным образом потому, что это шрифты Pan-CJK, а использование PUA в таких контекстах крайне опасно.[...] Один из них мои друзья из CESI несколько дней назад поделились со мной текстом окончательного проекта. Это подтвердило, что требование PUA для 24 символов снимается.
  25. ^ «11 июля 2023 г. — KB5028171 (сборка ОС 20348.1850) — служба поддержки Microsoft» . support.microsoft.com . Майкрософт . Проверено 25 марта 2024 г.
  26. ^ ВьетнамЮникод. "/ханном" . sourceforge.net . Проверено 13 октября 2016 г.
  27. ^ «Шрифты Ханазоно» . шрифты.jp . Архивировано из оригинала 12 апреля 2010 г. Проверено 13 октября 2016 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 8851D808E2F3740E796722F9971AA2AD__1715831880
URL1:https://en.wikipedia.org/wiki/GB_18030
Заголовок, (Title) документа по адресу, URL1:
GB 18030 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)