Jump to content

Единый кодекс хангыль

(Перенаправлено с Windows-949 )
Единый кодекс хангыль
Структура единого кодекса хангыль
Псевдоним(а)
  • Кодовая страница Windows 949
  • Кодовая страница IBM 1363
Язык(и) корейский
Стандартный Стандарт кодирования WHATWG (как «EUC-KR») [1]
Классификация
Расширяет EUC-КР
Другая связанная кодировка(и)
  1. ^ Не в самом строгом смысле этого слова, поскольку байты ASCII могут отображаться как байты следа, хотя это ограничивается буквенными байтами.

Единый кодекс хангыль ( UHC ), [2] [а] или Расширенный Вансунг , [4] [б] также известная в Microsoft Windows как кодовая страница 949 ( Windows-949 , MS949 или неоднозначно CP949 Microsoft Windows ), это кодовая страница для корейского языка . Это расширение Кодекса Вансунг ( KS C 5601 :1987, закодировано как EUC-KR ), включающее все 11172 нечастных слога хангыля, присутствующих в Иохабе (KS C 5601:1992, приложение 3). [4] [2] Это соответствует предварительно составленным слогам, доступным в Unicode 2.0 и более поздних версиях.

Кодекс Вансунг имеет тот недостаток, что он присваивает коды только 2350 заранее составленным слогам хангыля, которые имеют свои собственные кодовые точки KS X 1001 (KS C 5601) (всего из 11 172, не считая тех, которые используют устаревший джамо), и требует от других использовать восемь -байтовые последовательности композиции, которые не поддерживаются некоторыми частичными реализациями стандарта. [5] UHC решает эту проблему, назначая отдельные коды для всех возможных слогов, построенных с использованием современного джамо, выполняя назначения за пределами пространства кодирования, используемого для KS X 1001.

Диапазон ведущих байтов расширен до 0x81 –FE, а диапазон следовых байтов расширен до 0x41–5A, 0x61–7A и 0x81–FE (в EUC-KR оба диапазона — 0xA1–FE). Коды вне диапазонов EUC-KR используются для дополнительного хангыля. [6] Если рассматривать по отдельности, то и блок хангыль EUC-KR, и расширенный раздел хангыль UHC находятся в порядке Юникода. [1]

Терминология

[ редактировать ]

Единый код хангыля не зарегистрирован в IANA в качестве стандарта передачи информации через Интернет. [7] Альтернативы включают UTF-8 . Однако стандарт кодирования W3C / WHATWG , используемый HTML5, включает расширения Unified Hangul Code в свое определение «EUC-KR». [1]

Microsoft присваивает Windows-949 метку «ks_c_5601-1987», [8] [9] что справедливо относится и к самому KS X 1001 ( KS C 5601 — оригинальное название KS X 1001). [10] WHATWG рассматривает ярлык «ks_c_5601-1987» как взаимозаменяемый с «EUC-KR» с целью обеспечения «совместимости с развернутым контентом». [11] Коллекция изъятых сопоставлений «OBSOLETE/EASTASIA» Консорциума Unicode включала сопоставления для Единого кода хангыля как «KSC5601.TXT», а автоматически полученные сопоставления для 7-битного KS X 1001 были включены как «KSX1001.TXT». [12]

Кодовая страница IBM 949 — это еще одно, не связанное с ним расширение EUC-KR. Компания International Components for Unicode (ICU) использует «cp949», «949» или «ibm-949» для обозначения этой кодовой страницы IBM. [13] и «ms949» или «windows-949» (или несколько вариантов «ks_c_5601-1987») для обозначения сопоставления UHC в Windows. [14] Python , напротив, распознает «cp949», «949», «ms949» и «uhc» как метки для UHC и не включает кодек IBM-949. [15] Из меток, содержащих номер кодовой страницы, WHATWG распознает только «windows-949». [11]

Кодовая страница IBM для Unified Hangul Code называется кодовой страницей 1363 ( IBM-1363 ) или «корейской MS-Win». Это комбинация SBCS кодовой страницы 1126 и кодовой страницы DBCS 1362. [16] [17] [18] [19] [20] Он отличается тем, что имеет однобайтовое сопоставление 0x5C со знаком «Выиграл» (U + 20A9); [21] [22] [23] Windows сопоставляет 0x5C с U+005C (кодовая точка Unicode для обратной косой черты ), как в ASCII, [14] хотя шрифты часто по-прежнему отображают его как знак «Выиграл». [24] Отображение волнового тире (0xA1AD) в Юникоде также отличается: отображение IBM отдает предпочтение U + 301C, [25] в то время как отображение Microsoft предпочитает U + 223C (оператор тильда). [26] Сопоставление IBM для UHC доступно как «ibm-1363» в отделении интенсивной терапии. [21] тогда как кодек ICU «windows-949» упоминается как IBM-1261 в некоторых комментариях к исходному коду ICU. [27]

Однобайтовые коды

[ редактировать ]

Ниже приведена однобайтовая часть кодовой страницы, определенная IBM. Подобно кодовой странице 437 , байты кода управления могут использоваться как коды управления или графические коды в зависимости от контекста — графические коды показаны ниже. Microsoft использует сопоставления ASCII для всех байтов ASCII, хотя обратная косая черта все равно может отображаться как знак победы .

Кодовая страница 1126 [28] [29] [30] [31]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x НУЛЕВОЙ
1x
2x  СП  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ А Б С Д И Ф Г ЧАС я Дж К л М Н ТО
5x П вопрос Р С Т В V В Х И С [ ] ^ _
6x ` а б с д и ж г час я дж к л м н тот
7x п д р с т в v В х и С { | } ~
  1. ^ Корейский : Интегрированный код хангыля [3] , латинизировано : Тонхабхён Хангыль Кодеу
  2. ^ Корейский : расширенный перфект , латинизированный : Hwagjang Wanseonghyeong
  1. ^ Перейти обратно: а б с ван Кестерен, Энн , «5. Индексы (§ индекс EUC-KR)» , Стандарт кодирования , WHATWG
  2. ^ Перейти обратно: а б «ИНФОРМАЦИЯ: наборы символов хангыль (корейский)» , Служба поддержки Microsoft , Microsoft
  3. ^ «О кодексе хангыль» (на корейском языке). W3C.
  4. ^ Перейти обратно: а б Жигри, Дьюла (18 июня 2002 г.). «КСЦ и УХК» .
  5. ^ Шин, Юнгшик. «Что такое KS X 1001 (KS C 5601) и другие коды хангыля?» . Хангыль и Интернет в Корее Часто задаваемые вопросы .
  6. ^ Лунде, Кен (13 января 2009 г.). «Приложение F: Методы кодирования поставщиков» (PDF) . Обработка информации CJKV (2-е изд.). О'Рейли Медиа . ISBN  978-0-596-51447-1 .
  7. ^ «Наборы символов» . Яна.орг . Проверено 11 января 2017 г.
  8. ^ «Свойство Encoding.WindowsCodePage — .NET Framework (текущая версия)» . MSDN . Майкрософт.
  9. ^ «Идентификаторы кодовых страниц» , Центр разработки Windows , Microsoft
  10. ^ ИБМ ; Консорциум Юникод . "convrtrs.txt" . Международные компоненты для Unicode . в. 59180.0.1. <quote from="Jungshik Shin"> [...] использование KS C 5601 или родственных названий для обозначения EUC-KR или windows-949 вводит в заблуждение [...] Это всего лишь название корейской кодировки размером 94 x 94. стандарт набора символов, который может быть вызван либо в GL (со сбросом старшего бита), либо в GR (со сбросом старшего бита).
  11. ^ Перейти обратно: а б ван Кестерен, Энн . «4.2. Названия и метки» . Стандарт кодирования . ЧТОРГ.
  12. ^ Юнгшик Шин. «KSX1001.TXT: KS X 1001 в таблицу Юникода» . Юникод, Инк.
  13. ^ "ibm-949_P110-1999 (псевдоним cp949)" , Converter Explorer , Международные компоненты для Unicode
  14. ^ Перейти обратно: а б "windows-949-2000" , Converter Explorer , Международные компоненты для Unicode
  15. ^ «кодеки — реестр кодеков и базовые классы § Стандартные кодировки» . Документация Python 3.7.2 . Фонд программного обеспечения Python.
  16. ^ «Идентификаторы кодированных наборов символов — CCSID 1363» , IBM Globalization , IBM, заархивировано из оригинала 29 ноября 2014 г.
  17. ^ «Информационный документ с кодовой страницей 1126» . Архивировано из оригинала 16 января 2017 г.
  18. ^ «Информационный документ CCSID 1126» . Архивировано из оригинала 27 марта 2016 г.
  19. ^ «Информационный документ с кодовой страницей 1362» . Архивировано из оригинала 17 марта 2016 г.
  20. ^ «Информационный документ CCSID 1362» . Архивировано из оригинала 27 марта 2016 г.
  21. ^ Перейти обратно: а б "ibm-1363" , Converter Explorer , Международные компоненты для Unicode
  22. ^ Кодовая страница CPGID 01126 (pdf) (PDF) , IBM
  23. ^ Кодовая страница CPGID 01126 (txt) , IBM
  24. ^ Каплан, Майкл С. (17 сентября 2005 г.), «Когда обратная косая черта не является обратной косой чертой?» , Разбираемся во всем
  25. ^ «ibm-1363_P110-1997 (ведущий байт A1)» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode.
  26. ^ «windows-949-2000 (ведущий байт A1)» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode.
  27. ^ См. для справки ucnv_lmb.cpp (Брендан Мюррей, Джим Снайдер-Грант), где ведущий байт 0x11 прокомментирован как относящийся к «корейскому языку: ibm-1261» после определения ULMBCS_GRP_KO, но он отображается в "windows-949" Кодек ICU в OptGroupByteToCPName массив позже в файле.
  28. ^ Кодовая страница CPGID 01126 (pdf) (PDF) , IBM
  29. ^ Кодовая страница CPGID 01126 (txt) , IBM
  30. ^ Демонстрация ICU, отображающая IBM-1363 в Unicode
  31. ^ Демонстрация ICU, отображающая IBM-1363C (вариант на основе ASCII) в Unicode
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9540c1dc5dfd6c45af98182dc4a7a405__1713924840
URL1:https://arc.ask3.ru/arc/aa/95/05/9540c1dc5dfd6c45af98182dc4a7a405.html
Заголовок, (Title) документа по адресу, URL1:
Unified Hangul Code - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)