Единый кодекс хангыль
Псевдоним(а) |
|
---|---|
Язык(и) | корейский |
Стандартный | Стандарт кодирования WHATWG (как «EUC-KR») [1] |
Классификация | |
Расширяет | EUC-КР |
Другая связанная кодировка(и) |
|
| |
Единый кодекс хангыль ( UHC ), [2] [а] или Расширенный Вансунг , [4] [б] также известная в Microsoft Windows как кодовая страница 949 ( Windows-949 , MS949 или неоднозначно CP949 Microsoft Windows ), это кодовая страница для корейского языка . Это расширение Кодекса Вансунг ( KS C 5601 :1987, закодировано как EUC-KR ), включающее все 11172 нечастных слога хангыля, присутствующих в Иохабе (KS C 5601:1992, приложение 3). [4] [2] Это соответствует предварительно составленным слогам, доступным в Unicode 2.0 и более поздних версиях.
Кодекс Вансунг имеет тот недостаток, что он присваивает коды только 2350 заранее составленным слогам хангыля, которые имеют свои собственные кодовые точки KS X 1001 (KS C 5601) (всего из 11 172, не считая тех, которые используют устаревший джамо), и требует от других использовать восемь -байтовые последовательности композиции, которые не поддерживаются некоторыми частичными реализациями стандарта. [5] UHC решает эту проблему, назначая отдельные коды для всех возможных слогов, построенных с использованием современного джамо, выполняя назначения за пределами пространства кодирования, используемого для KS X 1001.
Диапазон ведущих байтов расширен до 0x81 –FE, а диапазон следовых байтов расширен до 0x41–5A, 0x61–7A и 0x81–FE (в EUC-KR оба диапазона — 0xA1–FE). Коды вне диапазонов EUC-KR используются для дополнительного хангыля. [6] Если рассматривать по отдельности, то и блок хангыль EUC-KR, и расширенный раздел хангыль UHC находятся в порядке Юникода. [1]
Терминология
[ редактировать ]Единый код хангыля не зарегистрирован в IANA в качестве стандарта передачи информации через Интернет. [7] Альтернативы включают UTF-8 . Однако стандарт кодирования W3C / WHATWG , используемый HTML5, включает расширения Unified Hangul Code в свое определение «EUC-KR». [1]
Microsoft присваивает Windows-949 метку «ks_c_5601-1987», [8] [9] что справедливо относится и к самому KS X 1001 ( KS C 5601 — оригинальное название KS X 1001). [10] WHATWG рассматривает ярлык «ks_c_5601-1987» как взаимозаменяемый с «EUC-KR» с целью обеспечения «совместимости с развернутым контентом». [11] Коллекция изъятых сопоставлений «OBSOLETE/EASTASIA» Консорциума Unicode включала сопоставления для Единого кода хангыля как «KSC5601.TXT», а автоматически полученные сопоставления для 7-битного KS X 1001 были включены как «KSX1001.TXT». [12]
Кодовая страница IBM 949 — это еще одно, не связанное с ним расширение EUC-KR. Компания International Components for Unicode (ICU) использует «cp949», «949» или «ibm-949» для обозначения этой кодовой страницы IBM. [13] и «ms949» или «windows-949» (или несколько вариантов «ks_c_5601-1987») для обозначения сопоставления UHC в Windows. [14] Python , напротив, распознает «cp949», «949», «ms949» и «uhc» как метки для UHC и не включает кодек IBM-949. [15] Из меток, содержащих номер кодовой страницы, WHATWG распознает только «windows-949». [11]
Кодовая страница IBM для Unified Hangul Code называется кодовой страницей 1363 ( IBM-1363 ) или «корейской MS-Win». Это комбинация SBCS кодовой страницы 1126 и кодовой страницы DBCS 1362. [16] [17] [18] [19] [20] Он отличается тем, что имеет однобайтовое сопоставление 0x5C со знаком «Выиграл» (U + 20A9); [21] [22] [23] Windows сопоставляет 0x5C с U+005C (кодовая точка Unicode для обратной косой черты ), как в ASCII, [14] хотя шрифты часто по-прежнему отображают его как знак «Выиграл». [24] Отображение волнового тире (0xA1AD) в Юникоде также отличается: отображение IBM отдает предпочтение U + 301C, [25] в то время как отображение Microsoft предпочитает U + 223C (оператор тильда). [26] Сопоставление IBM для UHC доступно как «ibm-1363» в отделении интенсивной терапии. [21] тогда как кодек ICU «windows-949» упоминается как IBM-1261 в некоторых комментариях к исходному коду ICU. [27]
Однобайтовые коды
[ редактировать ]Ниже приведена однобайтовая часть кодовой страницы, определенная IBM. Подобно кодовой странице 437 , байты кода управления могут использоваться как коды управления или графические коды в зависимости от контекста — графические коды показаны ниже. Microsoft использует сопоставления ASCII для всех байтов ASCII, хотя обратная косая черта все равно может отображаться как знак победы .
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | НУЛЕВОЙ | ┌ | ┐ | └ | ┘ | │ | ─ | • | ◘ | ○ | ◙ | ♂ | ♀ | ♪ | ♫ | ☼ |
1x | ┼ | ◄ | ↕ | ‼ | ¶ | ┴ | ┬ | ┤ | ↑ | ├ | → | ← | ∟ | ↔ | ▲ | ▼ |
2x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | ₩ | ] | ^ | _ |
6x | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | ⌂ |
Сноски
[ редактировать ]- ^ Корейский : Интегрированный код хангыля [3] , латинизировано : Тонхабхён Хангыль Кодеу
- ^ Корейский : расширенный перфект , латинизированный : Hwagjang Wanseonghyeong
Ссылки
[ редактировать ]- ^ Jump up to: а б с ван Кестерен, Энн , «5. Индексы (§ индекс EUC-KR)» , Стандарт кодирования , WHATWG
- ^ Jump up to: а б «ИНФОРМАЦИЯ: наборы символов хангыль (корейский)» , Служба поддержки Microsoft , Microsoft
- ^ «О кодексе хангыль» (на корейском языке). W3C.
- ^ Jump up to: а б Жигри, Дьюла (18 июня 2002 г.). «КСЦ и УХК» .
- ^ Шин, Юнгшик. «Что такое KS X 1001 (KS C 5601) и другие коды хангыля?» . Хангыль и Интернет в Корее Часто задаваемые вопросы .
- ^ Лунде, Кен (13 января 2009 г.). «Приложение F: Методы кодирования поставщиков» (PDF) . Обработка информации CJKV (2-е изд.). О'Рейли Медиа . ISBN 978-0-596-51447-1 .
- ^ «Наборы символов» . Яна.орг . Проверено 11 января 2017 г.
- ^ «Свойство Encoding.WindowsCodePage — .NET Framework (текущая версия)» . MSDN . Майкрософт.
- ^ «Идентификаторы кодовых страниц» , Центр разработки Windows , Microsoft
- ^ ИБМ ; Консорциум Юникод . "convrtrs.txt" . Международные компоненты для Unicode . в. 59180.0.1.
<quote from="Jungshik Shin"> [...] использование KS C 5601 или родственных названий для обозначения EUC-KR или windows-949 вводит в заблуждение [...] Это всего лишь название корейской кодировки размером 94 x 94. стандарт набора символов, который может быть вызван либо в GL (со сбросом старшего бита), либо в GR (со сбросом старшего бита).
- ^ Jump up to: а б ван Кестерен, Энн . «4.2. Названия и метки» . Стандарт кодирования . ЧТОРГ.
- ^ Юнгшик Шин. «KSX1001.TXT: KS X 1001 в таблицу Юникода» . Юникод, Инк.
- ^ "ibm-949_P110-1999 (псевдоним cp949)" , Converter Explorer , Международные компоненты для Unicode
- ^ Jump up to: а б "windows-949-2000" , Converter Explorer , Международные компоненты для Unicode
- ^ «кодеки — реестр кодеков и базовые классы § Стандартные кодировки» . Документация Python 3.7.2 . Фонд программного обеспечения Python.
- ^ «Идентификаторы кодированных наборов символов — CCSID 1363» , IBM Globalization , IBM, заархивировано из оригинала 29 ноября 2014 г.
- ^ «Информационный документ с кодовой страницей 1126» . Архивировано из оригинала 16 января 2017 г.
- ^ «Информационный документ CCSID 1126» . Архивировано из оригинала 27 марта 2016 г.
- ^ «Информационный документ с кодовой страницей 1362» . Архивировано из оригинала 17 марта 2016 г.
- ^ «Информационный документ CCSID 1362» . Архивировано из оригинала 27 марта 2016 г.
- ^ Jump up to: а б "ibm-1363" , Converter Explorer , Международные компоненты для Unicode
- ^ Кодовая страница CPGID 01126 (pdf) (PDF) , IBM
- ^ Кодовая страница CPGID 01126 (txt) , IBM
- ^ Каплан, Майкл С. (17 сентября 2005 г.), «Когда обратная косая черта не является обратной косой чертой?» , Разбираемся во всем
- ^ «ibm-1363_P110-1997 (ведущий байт A1)» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode.
- ^ «windows-949-2000 (ведущий байт A1)» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode.
- ^ См. для справки ucnv_lmb.cpp (Брендан Мюррей, Джим Снайдер-Грант), где ведущий байт 0x11 прокомментирован как относящийся к «корейскому языку: ibm-1261» после определения
ULMBCS_GRP_KO
, но он отображается в"windows-949"
Кодек ICU вOptGroupByteToCPName
массив позже в файле. - ^ Кодовая страница CPGID 01126 (pdf) (PDF) , IBM
- ^ Кодовая страница CPGID 01126 (txt) , IBM
- ^ Демонстрация ICU, отображающая IBM-1363 в Unicode
- ^ Демонстрация ICU, отображающая IBM-1363C (вариант на основе ASCII) в Unicode
Внешние ссылки
[ редактировать ]- Справочник Microsoft для Windows-949
- Документация IBM для IBM-1363
- Сопоставление Windows-949 с Unicode
- Файлы сопоставления международных компонентов для Unicode (ICU): ibm-1363_P110-1997.ucm , ibm-1363_P11B-1998.ucm и windows-949-2000.ucm.
- Демонстрация ICU для Windows-949 (с отображением ASCII)
- Демонстрация ICU для IBM-1363 (со знаком 0x5C как знак победы)
- Диаграмма визуализации для Windows-949 в стандарте кодирования WHATWG