Кодовая страница 936 (IBM)
Псевдоним(а) | SHIFTGB [1] |
---|---|
Язык(и) | Упрощенный китайский |
Создано | ИБМ |
Текущий статус | Устарело |
Преобразует/кодирует | ГБ 2312 |
Преемник | ИБМ-1381 |
Другая связанная кодировка(и) | Сдвиг HE |
Кодовая страница IBM 936 — это кодировка символов упрощенного китайского языка, включающая 1880 определяемых пользователем символов (UDC), которая была заменена в 1993 году. Это комбинация однобайтовой кодовой страницы 903 и двухбайтовой кодовой страницы 928 . [2] [3] Кодовая страница 946 использует тот же двухбайтовый компонент, но расширенный однобайтовый компонент ( Кодовая страница 1042 ). [2] [4]
Кодовую страницу IBM 936 не следует путать с кодовой страницей Windows с таким же номером , которая является вариантом кодировки GBK ; [2] называет GBK кодовой страницей 1386 IBM . В то время как GBK является расширенным набором EUC-CN кодировки GB 2312 , IBM-936 использует другую кодированную форму GB 2312, более близко напоминающую отношение Shift JIS к JIS X 0208 .
История
[ редактировать ]Кодировка использовалась в основном в 1980-х и начале 1990-х годов. В то время как исходный IBM PC ( IBM 5150 ) не обладал функциональностью для обработки данных на языках CJK , IBM 5550 обладал такой функциональностью и был доступен в моделях, поддерживающих японский , корейский , традиционный китайский или упрощенный китайский . Кодовая страница 936 для упрощенного китайского языка, сопровождаемая кодовой страницей 932 ( Shift JIS ) для японского языка, кодовая страница 934 для корейского языка и кодовая страница 938 для традиционного китайского языка.
Последняя версия IBM-928/936/946 была задокументирована в 1992 году, а в 1993 году она была заменена EUC-CN кодовыми страницами на основе с 1380 по 1383 ; Кодовая страница 1380 кодирует те же символы, что и кодовая страница 928, но в другой раскладке. [5] По состоянию на 1998 год «некоторые старые китайские пакеты» все еще включали алгоритм преобразования между IBM-936 и другими кодировками GB 2312. [1]
Статус
[ редактировать ]Хотя определения диаграмм для кодовой страницы 1380 (документ CH 3-3220-130, 1993-11) предоставляются IBM в Интернете, IBM аналогичным образом не предоставляет определения диаграмм для более старой кодовой страницы 928 (документ CH 3-3220-130, 1992 г.). -11, т.е. более ранняя версия той же спецификации). [5] [6] Международные компоненты для Unicode (ICU) не включают кодек IBM-936 или IBM-946 и используют кодовую страницу Windows для метки «cp936». [7] Проект ICU действительно располагает картографическими данными для IBM-946, которые он делает общедоступными. [8] но не отправляет его вместе с отделением интенсивной терапии.
Структура
[ редактировать ]Кодовая страница 928, двухбайтовый компонент, включает 9355 символов в виде двухбайтовых последовательностей, начиная с 0x81 до 0xAC и от 0xF0 до 0xFA. [9]
Диапазон ведущих байтов 0x81–AC используется для символов GB 2312: ведущие байты 0x81–87 использовались для не-ханзи, 0x88–9C использовались для ханзи уровня 1 и 0x9C–AC использовались для ханзи уровня 2. [1] [5] [8] Как и Shift JIS , следовые (вторые) байты находятся в диапазоне 0x40–FC, исключая 0x7F, что позволяет кодировать две строки GB 2312 на один ведущий байт; [8] в отличие от Shift JIS, байты 0xA0–AC не исключаются из диапазона ведущих байтов, [5] [8] поскольку совместимость с JIS X 0201 не требовалась. Диапазон ведущих байтов 0xF0–FA используется для расширений IBM: от 0xF0 до 0xF9 используются для определяемых пользователем символов, а 0xFA используется для дополнительных символов, не являющихся hanzi. [5]
Ссылки
[ редактировать ]- ^ Jump up to: а б с Лейшер, Марк (2008) [1998-03-06]. «SHIFTGB.TXT: изменено GB2312.1980. Создано на основе алгоритма, поставляемого с некоторыми старыми китайскими пакетами» . Департамент математических наук Университета штата Нью-Мексико . Архивировано из оригинала 20 января 2023 г.
- ^ Jump up to: а б с Лунде, Кен (2009). «Глава 4: Методы кодирования (§ Кодовые страницы)». Обработка информации CJKV (2-е изд.). Севастополь, Калифорния : O'Reilly Media . стр. 278–282. ISBN 978-0-596-51447-1 .
- ^ «CCSID 936» . ИБМ . Архивировано из оригинала 27 марта 2016 г.
- ^ «CCSID 946» . ИБМ . Архивировано из оригинала 26 марта 2016 г.
- ^ Jump up to: а б с д и «Таблица 1: Регистрация GCSGID и CPGID для набора графических символов IBM CH-S». CH 3-3220-130 1993-11: Набор упрощенных китайских графических символов IBM (PDF) . 1993. с. 6.
- ^ «Информационный документ с кодовой страницей 928» . Архивировано из оригинала 17 марта 2016 г.
- ^ «windows-936-2000 (псевдоним cp936)» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode.
- ^ Jump up to: а б с д "ibm-946_P100-1995" . Международные компоненты для репозитория данных Unicode . Консорциум Unicode , IBM .
- ^ «Информационный документ CCSID 928» . Архивировано из оригинала 26 марта 2016 г.