ЦНС 11643
Псевдоним(а) | CSIC (Китайский стандартный код обмена) |
---|---|
Язык(и) | Традиционный китайский |
Стандартный | ЦНС 11643 |
Классификация | ISO 2022 , DBCS , кодировка CJK |
Форматы кодирования |
|
Другая связанная кодировка(и) | Биг5 , CCCII |
Набор символов CNS 11643 (Китайский национальный стандарт 11643), также официально известный как китайский стандартный код обмена или CSIC. [1] ( Китайский : 中文標準交換碼 ) официально является стандартным набором символов Тайваня (Китайская Республика). На практике варианты соответствующего набора символов Big5 являются стандартом де-факто .
CNS 11643 разработан в соответствии с ISO 2022 . Он содержит 16 плоскостей, поэтому максимально возможное количество кодируемых символов составляет 16×94×94 = 141376. Плоскости с 1 по 7 определены стандартом; с 2007 года стандартом также определены плоскости с 10 по 15. [2] : 115–122 До этого плоскости с 12 по 15 (35344 кодовых точки) были специально предназначены для определяемых пользователем символов. [ нужна ссылка ] В отличие от CCCII , кодировка вариантов символов в CNS 11643 не связана.
EUC-TW — это закодированное представление CNS 11643 и ASCII в форме расширенного кода Unix (EUC). Другие кодировки, способные представлять определенные плоскости CSIC, включают ISO-2022-CN (плоскости 1 и 2) и ISO-2022-CN-EXT (плоскости с 1 по 7).
История
[ редактировать ]Первое издание стандарта было опубликовано в 1986 году и включало плоскости 1 и 2, происходящие от уровней 1 и 2 Big5 , с некоторым изменением порядка из-за исправленного количества штрихов, исключения двух повторяющихся символов и добавления 213 классических символов. радикалы в плоскости 1 (из 214 радикалов Канси , из которых 210 фактически являются дубликатами существующих символов Big5, а остальные три — HKSCS ; символов [3] см. также «Радикалы Канси» (блок Unicode) ). Расширения стандарта были впоследствии опубликованы в 1988 г. (6319 символов, занимающих 14-й уровень) и 1990 г. (7169 символов, занимающих 15-й уровень). [2] : 115–122
Unicode 1.0.0, хотя он еще не включал hanzi , включал символы для совместимости с CNS 11643: блок CJK Compatibility Forms в Unicode 1.0.0 назывался «CNS 11643 Compatibility». [4] Unicode Когда набор унифицированных иероглифов CJK компилировался для Unicode 1.0.1, национальные органы представили наборы символов в Объединенную исследовательскую группу CJK для включения. Представленная версия CNS 11643 включала расширение плоскости 14 в дополнение к дополнительным желаемым символам, добавленным к плоскости 14 (после 68–21, последней использованной кодовой точки в стандартной версии расширения). [2] : 179–180
Во втором издании стандарта, опубликованном в 1992 году, гораздо больший набор ханзи был определен в семи плоскостях. Подмножество расширения плоскости 14 1988 года, включающее 6148 кодовых точек с 01-01 по 66–38, стало плоскостью 3 (а оставшиеся 171 символ, кодовые точки с 66-39 по 68–21, вместо этого были распределены по плоскости 4). Расширение плоскости 15 не было включено, хотя 338 его символов были включены в планы с 4 по 7. [2] : 115–122
В третьем издании стандарта, опубликованном в 2007 году, к плоскости 1 были добавлены знак евро , идеографический ноль, кана и расширения к существующей поддержке бопомофо и латинского алфавита. В нем были представлены плоскости с 10 по 14, содержащие дополнительные ханзи, и включена существующая плоскость. 15 в сам стандарт (с оставленными пробелами там, где символы уже существовали в планах с 4 по 7). Он также добавил еще 128 ханзи к плоскости 3, начиная с кодовой точки 68–40. [2] : 115–122
По состоянию на 2017 год [update], существует несколько тысяч символов CNS 11643 без соответствующего символа Юникода, в основном в плоскостях с 10 по 14; они сопоставлены с дополнительной областью частного использования Unicode . [5]
Отношения с Big5
[ редактировать ]Уровни 1 и 2 кодировки Big5 в основном соответствуют плоскостям 1 и 2 CNS 11643 соответственно, со случайными различиями в порядке и с двумя дубликатами ханзи, существующими в Big5, но не в CNS 11643. Их можно сопоставить с помощью списка диапазонов. [6] [7] Однако 213 классических радикалов в плоскости 1 CNS 11643 являются дополнительными к символам, доступным в Big5 (хотя их можно с потерями сопоставить с соответствующими символами ханзи в Big5 или HKSCS). [3] а в 2007 году к самолету 1 CNS 11643 были добавлены дополнительные символы. [2] : 115–122 Вариант Big5-2003 Big5 определяется как частичная кодировка CNS 11643.
В репертуаре ханзи Big5 только один символ плоскости 1 традиционно сопоставляется с Юникодом иначе, чем соответствующий символ из первых двух плоскостей CNS 11643: в U+5F5D ( 彝 ), тогда как его аналог из плоскости 1 CNS сопоставляется с соответствующим вариантом в U + 5F5E ( 彞 ); [8] U + 5F5D отдельно включен в плоскость 3 CNS 11643. [3] Однако некоторые варианты сопоставлений для Big5, например определенные IBM , включают U+5F5E, а не U+5F5D. [9] Точно так же один персонаж из Big5 уровня 2 (включая его вариант IBM). [10] сопоставляется с другой кодовой точкой Unicode, чем его аналог на плоскости 2 CNS 11643: с U+5284 ( 劄 ), тогда как база данных Unihan в настоящее время сопоставляет символ CNS 11643 с U+7B9A ( 箚 ); U + 5284 появляется в плоскости 14 CNS 11643. [3]
Ссылки
[ редактировать ]- Эта страница основана на информации с официального сайта CNS .
- ^ ЭКМА (21 января 1993 г.). Китайский стандартный код обмена (CSIC) — набор 1 (PDF) . ITSCJ/ IPSJ . ИСО-ИК -171.
- ^ Jump up to: а б с д и ж Лунде, Кен (2008). «3. Стандарты набора символов». Обработка информации CJKV (2-е изд.). О'Рейли Медиа . ISBN 9780596514471 .
- ^ Jump up to: а б с д Лунде, Кен (30 ноября 2022 г.). «Предложение по расширению временной собственности kBigFive» (PDF) . UTC L2/22-288.
- ^ «3.8: Поблочные диаграммы» (PDF) . Стандарт Юникод . версия 1.0. Консорциум Юникод .
- ^ «CNS 11643 в дополнительной области частного использования Unicode» . [китайский Mac] . Совет по восточноазиатским исследованиям Йельского университета.
- ^ Лунде, Кен (18 декабря 1995 г.). «4.3: Проблемы совместимости набора символов CJK — китайский (Тайвань)». CJK.INF Версия 1.9 .
- ^ Чжу, ХФ.; Ху, Д.Ю.; Ван, ЗГ .; Као, ТК; Чанг, ЧМ.; Криспин, М. (1996). «RFC 1922: Кодировка китайских символов для интернет-сообщений» . Запросы на комментарии . IETF .
- ^ Лунде, Кен (15 февраля 2018 г.). «Изучение IICore — Часть 4» . Типовой блог CJK . Adobe Inc.
- ^ «ibm-950_P110-1999 (ведущий байт 0xC2)» . Международные компоненты для Unicode Converter Explorer . Консорциум Юникод . Архивировано из оригинала 12 июля 2021 г.
- ^ "ibm-950_P110-1999.ucm" . отделения интенсивной терапии Хранилище данных . IBM / Консорциум Unicode . 2007.
<U5284> \xE3\x5A |0
Внешние ссылки
[ редактировать ]- Официальный сайт CNS 11643
- Текущие открытые данные CNS 11643 , включая картографические данные.
- Сопоставления Консорциума Unicode для CNS 11643-1986 : плоскости 1 и 2, а также плоскость 14 1988 года (а не плоскость 14 2007 года) с расширениями. Для обозначения плоскости используется одна шестнадцатеричная цифра с префиксом.
- Сопоставления CNS 11643 из International Components for Unicode (ICU):
- «CNS-11643-1992»: исходная версия , текущая версия . Исходная версия сопоставления включает стандартные плоскости 1–7, но включает компоновку плоскости 15 как плоскость 9; текущая версия включает только плоскости 1 и 2. Для обозначения плоскости используются префиксы от 0x81 до 0x89.
- «EUC-TW-2014» : стандартные назначения для плоскостей с 1 по 7 и 15, а также корпоративные назначения IBM в плоскостях 12 и 13. Коды CNS в формате EUC с двухбайтовой плоскостью 1.
- ISO-IR Кодовые таблицы CNS-11643, зарегистрированные в соответствии с : плоскость 1 , плоскость 2 , плоскость 3 , плоскость 4 , плоскость 5 , плоскость 6 , плоскость 7.