Кодовая страница 950
Язык(и) | Традиционный китайский |
---|---|
Создано | Майкрософт |
Расширяет | Большой5 |
На основе | Big5 ест |
Кодовая страница 950 — это кодовая страница , используемая в Microsoft Windows для традиционного китайского языка . Это реализация Microsoft де-факто стандартной кодировки символов Big5 . Кодовая страница не зарегистрирована в IANA . [1] и, следовательно, передача информации через Интернет не является стандартом, хотя обычно это обозначается просто как big5
, в том числе с помощью функций библиотеки Microsoft. [2]
Терминология и варианты
[ редактировать ]Основное различие между кодовой страницей Windows 950 и «общим» (не зависящим от поставщика) Big5 заключается во включении подмножества расширений ETEN в Big5 по адресам от 0x F9D6 до 0xF9FE (содержащих семь китайских иероглифов 碁, 銹, 裏, 墻). , 恒, 粧 и 嫺, за которыми следуют 34 символа изображения прямоугольника и блочные элементы ). Вместо этого диапазоны, используемые некоторыми другими расширенными символами ETEN, определяются как символы, определяемые конечным пользователем (частное использование) . [3]
от IBM CCSID 950 состоит из однобайтовой кодовой страницы 1114 (CCSID 1114) и двухбайтовой кодовой страницы 947 (CCSID 947). [4] [5] [6] и, хотя это также вариант Big5, он несколько отличается от кодовой страницы Microsoft 950, включая некоторые расширения ETEN для ведущих байтов 0xA3, [7] 0xC6, [3] [8] 0xC7 [9] и 0xC8, [3] [10] опуская те, у которых есть ведущий байт 0xF9 (которые включает Microsoft), вместо этого сопоставляя их с областью частного использования как определяемые пользователем символы. [3] [11] Он также включает в себя две области расширения, не относящиеся к ETEN, со следящими байтами 0x81–A0, т. е. за пределами обычного диапазона следовых байтов Big5, но аналогично диапазону следовых байтов Big5+: область 5 имеет ведущие байты 0xF2–F9 и содержит символы, выбранные IBM, а область 9 имеет ведущие байты 0x81–8C и является определяемой пользователем областью. [12]
Microsoft обновила свою версию кодовой страницы 950 в 2000 году, добавив знак евро (€) к двухбайтовому коду 0xA3E1. IBM называет обновление знака евро своего варианта Big-5 CCSID 1370 (который включает как однобайтовые (0x80), так и двухбайтовые знаки евро). [13] Он состоит из однобайтовой кодовой страницы 1114 (CCSID 5210) и двухбайтовой кодовой страницы 947 (CCSID 21427). [13] [14] [15]
Для лучшей совместимости с вариантом Microsoft в IBM Db2 IBM также определяет чистую двухбайтовую кодовую страницу 1372. [16] переменной ширины и связанный CCSID 1373 , который включает только двухбайтовый знак евро. [17] и соответствует поведению Microsoft, в которое включены регионы расширения. [18] [19] [20] [21] [22]
Однобайтовые коды
[ редактировать ]Ниже приведены однобайтовые графические символы, включенные IBM. Коды от 0x00 до 0x1F и 0x7F могут использоваться вместо кодов управления C0 , в зависимости от контекста (сравните кодовую страницу 437 , кодовую страницу 897 ). Как отмечалось выше, однобайтовый знак евро по адресу 0x80 не включен в IBM CCSID 950 или 1373, а также в Microsoft.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | ☺ | ☻ | ♥ | ♦ | ♣ | ♠ | • | ◘ | ○ | ◙ | ♂ | ♀ | ♪ | ♫ | ☼ | |
1x | ► | ◄ | ↕ | ‼ | ¶ | § | ▬ | ↨ | ↑ | ↓ | → | ← | ∟ | ↔ | ▲ | ▼ |
2x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | \ | ] | ^ | _ |
6x | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | ⌂ |
8x | € |
Остальные являются частями двухбайтовой последовательности.
Использование зоны частного использования
[ редактировать ]Диапазон Big5 | Диапазон Юникода | Формула [26] |
---|---|---|
81 40–8Д ФЭ | U + EEB8 – U + F6B0 | 0xeeb8 + (157 * (H-0x81)) + (L<0x80)?(L-0x40):(L-0x62) |
8Э 40–А0 ФЭ | U + E311 – U + EEB7 | 0xe311 + (157 * (H-0x8e)) + (L<0x80)?(L-0x40):(L-0x62) |
C6 A1–C8 FE | U + F6B1 – U + F848 | 0xf672 + (157 * (H-0xc6)) + (L<0x80)?(L-0x40):(L-0x62) |
ФА 40–ФЭ ФЭ | U + E000 – U + E310 | 0xe000 + (157 * (H-0xfa)) + (L<0x80)?(L-0x40):(L-0x62) |
Это сопоставление также используется в HKSCS , где данный глиф еще не найден в указанной версии Unicode. [27]
См. также
[ редактировать ]- ЛМБКС-18
- Кодовая страница 951 — хак Microsoft для замены cp950 на версию с поддержкой HKSCS в Windows XP.
Ссылки
[ редактировать ]- ^ «Наборы символов» . IANA — Реестры протоколов .
- ^ «Свойство Encoding.WindowsCodePage — .NET Framework (текущая версия)» . MSDN . Майкрософт.
- ^ Перейти обратно: а б с д Чжу, ХФ.; Ху, Д.Ю.; Ван, ЗГ .; Као, ТК; Чанг, ЧМ.; Криспин, М. (1996). «Китайская кодировка символов для интернет-сообщений» . Запросы на комментарии . IETF . дои : 10.17487/rfc1922 . РФК 1922.
- ^ «Информационный документ CCSID 950» . Архивировано из оригинала 2 декабря 2014 г.
- ^ «Информационный документ CCSID 1114» . Архивировано из оригинала 27 марта 2016 г.
- ^ «Информационный документ CCSID 947» . Архивировано из оригинала 1 декабря 2014 г.
- ^ «Свинцовый байт A3: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Свинцовый байт C6: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Свинцовый байт C7: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Свинцовый байт C8: ibm-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Свинцовый байт F9: IBM-950_P110-1999» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Набор традиционных китайских графических символов IBM для кода IBM BIG-5» (PDF) . ИБМ . 1999. CH 3-3220-131 1999-04.
- ^ Перейти обратно: а б «Информационный документ CCSID 1370» . Архивировано из оригинала 27 марта 2016 г.
- ^ «Информационный документ CCSID 5210» . Архивировано из оригинала 29 ноября 2014 г.
- ^ «Информационный документ CCSID 21427» . Архивировано из оригинала 27 марта 2016 г.
- ^ «CPGID 01372: MS T-Chinese Big-5 (специально для DB2)» . IBM Globalization — Идентификаторы кодовых страниц . Архивировано из оригинала 17 марта 2016 г.
- ^ "ibm-1373_P100-2002" . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Свинцовый байт A3: IBM-1373_P100-2002» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Свинцовый байт C6: ibm-1373_P100-2002» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Свинцовый байт C7: ibm-1373_P100-2002» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Свинцовый байт C8: ibm-1373_P100-2002» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ «Свинцовый байт F9: IBM-1373_P100-2002» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ Кодовая страница CPGID 01114 (pdf) (PDF) , IBM
- ^ Кодовая страница CPGID 01114 (txt) , IBM
- ^ «Таблица наилучшего соответствия Windows: CP950» . unicode.org . Проверено 13 сентября 2016 г.
- ^ «Большая пятёрка» . База данных кандзи . Проверено 13 сентября 2016 г.
- ^ «Большой5-HKSCS:2008» . Архивировано из оригинала 13 сентября 2016 г.
Внешние ссылки
[ редактировать ]- Справочник Microsoft по кодовой странице 950
- Сопоставление кодовой страницы 950 с Unicode
- Файлы сопоставления международных компонентов для Unicode (ICU): windows-950-2000.ucm , ibm-950_P110-1999.ucm , ibm-1373_P100-2002.ucm.