ГБ 12345
Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом . ( январь 2023 г. ) |
ГБ 12345 , [1] под названием «Код набора китайских иероглифов для дополнительного набора для обмена информацией» ( китайский : 信息交換用漢字編碼字符集 輔助集 ), представляет собой традиционного китайского языка, стандарт набора символов установленный Китаем , и его можно рассматривать как традиционный аналог GB 2312 . Он используется в качестве кодировки традиционных китайских иероглифов, хотя и не так часто используется, как Big5 . Он имеет 6866 символов и не имеет никакого отношения и совместимости с Big5 и CNS 11643 .
Персонажи [ править ]
Символы в GB 12345 расположены в сетке 94×94 (как в ISO/IEC 2022 ), а двухбайтовая кодовая точка каждого символа выражается в форме qu - wei , которая определяет строку ( qu 区) и положение символа внутри строки (ячейка, wei 位).
Строки (с номерами от 1 до 94) содержат следующие символы: [2]
- 01–09: идентично GB 2312 , за исключением того, что в строке 06 позиции 57–85 добавлены 29 вертикальных знаков пунктуации, а в строке 08 позиции 27–32 добавлены 6 символов пиньинь из GB 5007.1–85, исправление GB 2312.
- 16–87: упорядочены традиционные формы символов, которые заменили их упрощенные формы из GB 2312.
- 88–89: 103 китайских иероглифа , которые объединены из-за упрощения китайских иероглифов.
Строки 10–15 и 90–94 не назначены.
Кодировки [ править ]
В спецификации кодировки ISO-2022-CN-EXT указано, что последовательность ESC $ )
за которым следует еще неопределенный байт (показанный заполнителем <X12345>
) может использоваться для обозначения символов GB 12345 , аналогично последовательности ESC $ ) A
(также с ESC $ )
префикс), указывающий GB 2312 , но только после того, как он получит регистрацию в реестре ISO-IR, указывающую, что такое последний байт последовательности. [3] По состоянию на 2023 год [update], такой регистрации не существует. [4] Однако в том же запросе на комментарии также определяется метка кодировки. CN-GB-12345
для GB 12345 используется с ASCII аналогично EUC-CN . [3]
нестандартных символов традиционного языка Включение китайского
GB/T 12345 включает несколько традиционных иероглифов, которые отличаются от таблицы соответствий между иероглифами упрощенного и традиционного китайского языка в стандартной Таблице общих стандартных китайских иероглифов .
- 鳧 (57–76): традиционным аналогом 凫 является 鳬 (2013:3620, стр. 76), 鳧 также не находится в вариантной форме.
- 隷 (33–05): традиционный аналог 隶 — 隸 (2013:1305, стр. 60), однако 隷 находится в вариантной форме.
- 𨻶 (47–22): 隙 не имеет традиционного соответствия в стандарте.
GB 12345 и Юникод [ править ]
Символы из GB 12345 были взяты в качестве одного из источников для унификации Хань , которая привела к созданию унифицированного набора символов CJK в исходном стандарте ISO 10646 / Unicode . Были включены все 6866 китайских иероглифов.
См. также [ править ]
Ссылки [ править ]
- ^ «GB/T 12345-1990: Код набора китайских иероглифов для обмена информацией — Дополнительный набор» . Управление стандартизации Китайской Народной Республики . Проверено 1 октября 2022 г.
- ^ Лунде, Кен (2009). Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . стр. 150–151. ISBN 978-0-596-51447-1 .
- ^ Jump up to: Перейти обратно: а б Чжу, ХФ.; Ху, Д.Ю.; Ван, ЗГ .; Као, ТК; Чанг, ЧМ.; Криспин, М. (1996). Кодировка китайских символов для интернет-сообщений . IETF . дои : 10.17487/RFC1922 . РФК 1922 .
Примечание. В настоящее время существует несколько наборов ГБ, которые не зарегистрированы в ISO. Здесь <X7589>, <X7590>, <X12345>, <X13131> и <X13132> представляют собой последний символ, который будет назначен ISO для этих наборов. Эти наборы GB должны использоваться только после назначения этих последних символов.
- ^ ISO-IR: Международный реестр наборов кодированных символов ISO/IEC для использования с escape-последовательностями (PDF) (указатель реестра). ITSCJ/ IPSJ .