ИСО-ИР-165
МИМ / IANA | изо-ир-165 |
---|---|
Псевдоним(а) | CN-GB-ISOIR165 ( форма EUC ) [1] |
Язык(и) | Упрощенный китайский , английский , русский Частичная поддержка: греческий , японский |
Стандартный | МСЭ T.101 , приложение C |
Определения | ИСО-ИК 165 |
Расширяет | ГБ 2312 |
Форматы кодирования | ISO-2022-CN-EXT , Синтаксис данных Videotex 2 |
Преемник | ГБ 18030 |
CCITT Китайский первичный набор [2] — это многобайтовый графический набор символов для китайской связи, созданный для Консультативного комитета по международной телефонии и телеграфу (CCITT) в 1992 году. [3] Он определен в ITU T.101 , приложение C, которое кодифицирует синтаксис данных 2 Videotex . [2] Он зарегистрирован в реестре ISO-IR для использования с ISO/IEC 2022 как ISO-IR-165 . [4] и кодируется в версии кода ISO-2022-CN-EXT . [1]
Это расширенная модификация GB/T 2312-80 , которая соответствует объединению стандартов GB материкового Китая GB 6345.1-86 и GB 8565.2-88 с некоторыми дальнейшими модификациями и расширениями. Подмножество расширений GB 6345.1 включено в GB 18030 , а GB 8565.2 служит ссылкой на источник в материковом Китае для некоторых унифицированных иероглифов CJK .
ГБ 6345.1
[ редактировать ]GB 6345.1-86 ( Набор точечно-матричных шрифтов размером 32 × 32 китайских иероглифов для обмена информацией ) включает как исправление , так и расширение для GB 2312. [3] Исправление изменяет следующие два символа:
Рядовая ячейка | EUC | GB 2312 (без изменений) [5] | ГБ 6345.1 | Примечания |
---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | [а] | |
79-81 | 0xEFF1 | колокол | колокол | [б] |
- ^ Соответствует U + FF47 g ПОЛНАЯ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА G в Юникоде; однако измененный ссылочный глиф также может соответствовать U+0261 ɡ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА G . Посмотрите ниже, как U+0261 обычно сопоставляется с/из GB/T 6341.1, а не с тем, как он сопоставляется с/из ISO-IR-165. GB 18030 заменяет этот обратно на оригинал. [5] зацикленный глиф. [6]
- ^ Неизмененный ссылочный глиф представляет собой традиционный китайский иероглиф, соответствующий U+937E . Соответствующий символ обычно заменяется на 钟 ( U+949F , а также упрощение 鐘 ) на упрощенном китайском языке, за исключением имен людей; измененный глиф представляет собой альтернативную упрощенную форму, соответствующую U+953А .
Развернутые реализации, включающие GB 2312, такие как кодовая страница Windows 936 , обычно следуют этим исправлениям при сопоставлении 79-81 с U+953A. [7]
Расширение добавляет символы ISO 646-CN половинной ширины в строке 10 (в дополнение к существующим символам полной ширины в строке 3) и расширяет набор из 26 символов пиньинь , не входящих в ASCII, в строке 8 шестью дополнительными такими символами. Эти расширения GB 6345.1 также включены в GB/T 12345 , традиционный китайский аналог GB 2312, в дополнение к 29 формам вертикального представления в строке 6. [3] [8]
Более поздний GB/T 6345.1-2010, опубликованный в 2011 году, официально добавляет формы половинной ширины из 32 символов пиньинь (включая шесть новых дополнений) в строке 8 к строке 11. [9] Это дополнение не представлено в GB 18030. [6]
Шесть дополнительных символов пиньинь из GB 6345.1 и формы вертикального представления из GB 12345 — но не формы половинной ширины — включены в классическую кодировку Mac OS для упрощенного китайского языка (модификация EUC-CN ), [10] а также в виде двухбайтовых кодов в GB 18030 . [6] Дополнительные символы пиньинь следующие: [10]
Рядовая ячейка | EUC | Характер [10] [6] | Примечания |
---|---|---|---|
08-27 | 0xA8BB | U + 0251 ɑ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА АЛЬФА | |
08-28 | 0xA8BC | U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С ОСТРЫМ | [а] |
08-29 | 0xA8BD | U+0144 ń ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N С ОСТРЫМ | |
08-30 | 0xA8BE | U + 0148 ň ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N С КАРОНОМ | |
08-31 | 0xA8BF | U + 01F9 ǹ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N С МОГИЛОЙ | [б] |
08-32 | 0xA8C0 | U + 0261 ЛАТИНСКАЯ СТРОЧНАЯ БУКВА G | [с] |
- ^ Сопоставлено с зоной частного использования. U+E7C7 по кодовой странице Windows 936 [11] и первое (2000 г.) издание GB 18030 ; в это были внесены поправки в издании 2005 года. [6]
- ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот символ был сопоставлен с его композиционной последовательностью (т. е. U+006E U+0300 ) от Apple. [10] Это изменение предшествовало стабилизации форм нормализации Unicode , которая была введена в Unicode 3.1. [12] Он сопоставлен с U+E7C8 по кодовой странице Windows 936 . [11]
- ^ Соответствует неизмененному ссылочному глифу 03-71 (см. выше), являясь зацикленной буквой g, несмотря на то, что обычно он отображается в U + 0261. Сопоставления, используемые для ISO-IR-165, различаются (см. ниже). GB 18030 заменяет 03-71 обратно на зацикленную g и делает эту g открытой. [6]
Эти расширения и модификации GB 2312 были впервые представлены в GB 5007.1-85 в 1985 году.
ГБ 8565.2
[ редактировать ]GB 8565.2-88 ( Обработка информации. Наборы кодированных символов для текстовой связи. Часть 2: Графические символы ) определяет расширение для GB 2312, добавляя 705 символов между строками 13–15 и 90–94, из которых 69 (все в строке 15). не являются ханзи. Он включает исправления GB 2312 из GB 6345.1, но не его расширения. [3]
База данных Unihan ссылается на GB 8565.2 как на материковый китайский источник нескольких ханьцзы, включенных в Unicode . Его исходное сокращение Unihan: G8
. [2]
Изменения МККТТ
[ редактировать ]ISO-IR-165 включает расширения GB 2312 из GB 6345.1-86 и GB 8565.2-88. [3] Кроме того, он добавляет еще 161 иероглиф (включая 139 ханьцзы, определенных как «общекитайские иероглифы и их варианты»). [3] [4] Эти расширения CCITT hanzi иногда ошибочно принимались за стандартные символы GB 8565.2, в том числе в предыдущих версиях базы данных Unihan . [2] Всего в наборе 8446 символов.
Ряд узорчатых полуграфических символов включен в ряд 6. [4] Это противоречит формам вертикального представления, включенным в другие расширения, такие как Mac OS Simplified Chinese. [10] и ГБ 18030. [6]
Исправления GB 6345.1 к GB 2312 применяются, но два сопоставления Unicode меняются местами по сравнению с другими кодировками, которые включают GB 2312 с расширениями GB 6345.1. В таблице ниже показаны сопоставления и соответствующие им глифы, включая GB 18030 :
Рядовая ячейка | EUC | GB 2312 (без изменений) [5] | ГБ 6345.1 [9] | Сопоставление ГБ 6345.1 [10] | ИСО-ИР-165 [4] | Отображение ISO-IR-165 [13] | ГБ 18030 [6] | Сопоставление ГБ 18030 [6] |
---|---|---|---|---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | U + FF47 | ɡ | U + 0261 | U + FF47 | ||
08-32 | 0xA8C0 | (отсутствующий) | U + 0261 | U + FF47 | ɡ | U + 0261 | ||
79-81 | 0xEFF1 | колокол | колокол | U + 953A | колокол | U + 953A | колокол | U + 953A |
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Чжу, ХФ.; Ху, Д.Ю.; Ван, ЗГ .; Као, ТК; Чанг, ЧМ.; Криспин, М. (1996). «Китайская кодировка символов для интернет-сообщений» . Запросы на комментарии . IETF . дои : 10.17487/rfc1922 . РФК 1922.
- ^ Перейти обратно: а б с д Чунг, Джемин (24 января 2018 г.). «Псевдо-персонажи G8» (PDF) . ISO/IEC JTC 1/SC 2 /WG 2/ IRG N2276.
- ^ Перейти обратно: а б с д и ж Лунде, Кен (2009). Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . стр. 94–111. ISBN 978-0-596-51447-1 .
- ^ Перейти обратно: а б с д МКИТТ (13 июля 1992 г.). Коды китайского графического набора символов для связи (PDF) . ITSCJ/ IPSJ . ИСО-ИК -165.
- ^ Перейти обратно: а б с Китайская ассоциация по стандартизации. Кодированный набор китайских графических символов для обмена информацией (PDF) . ITSCJ/ IPSJ . ИСО-ИК -58.
- ^ Перейти обратно: а б с д и ж г час я Управление стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии — набор китайских кодированных символов .
- ^ Стил, Шон (2000). «cp936 в таблицу Юникода» . Microsoft , Консорциум Unicode .
- ^ Лунде, Кен (1998). Приложение F: GB/T 12345 (PDF) . О'Рейли Медиа . ISBN 9781565922242 .
{{cite book}}
:|work=
игнорируется ( помогите ) - ^ Перейти обратно: а б Управление стандартизации Китая (SAC) (10 января 2011 г.) GB/T 6345.1-2010 Информационные технологии Набор символов кодировки китайских символов (базовый набор) 32-точечный матричный шрифт, часть 1 династии Сун (на китайском языке (Китай)). .
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - ^ Перейти обратно: а б с д и ж «Сопоставление (внешняя версия) упрощенной китайской кодировки Mac OS с Unicode 3.0 и более поздних версий» . Apple, Inc.
- ^ Перейти обратно: а б Майкрософт . «КОДОВАЯ СТРАНИЦА 936: КНР ГБК (XGB) — ANSI, OEM» . Консорциум Юникод .
- ^ «Политика стабильности кодировки символов Юникода» . Консорциум Юникод. 23.06.2017.
- ^ Вишванадха, Рагурам (30 августа 2000 г.). «Таблица Unicode в ISO-IR-165» . Международные компоненты для Unicode . ИБМ . (Примечание: коды указаны в исходнике в 7-битном виде: для формы EUC к каждому байту прибавляйте 0x80, для формы kuten отнимайте 0x20)
Внешние ссылки
[ редактировать ]- ISO-IR-165: Код набора китайских графических символов для связи (зарегистрирован в 1992 г., исправлен в 1994 г.).
- Сопоставления Юникода для ISO-IR-165