~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 3A28203D7B09AF702C8E4C708339E16E__1713924840 ✰
Заголовок документа оригинал.:
✰ Unified Hangul Code - Wikipedia ✰
Заголовок документа перевод.:
✰ Единый кодекс хангыль — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Unified_Hangul_Code ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/3a/6e/3a28203d7b09af702c8e4c708339e16e.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/3a/6e/3a28203d7b09af702c8e4c708339e16e__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 22:24:39 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 24 April 2024, at 05:14 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Единый кодекс хангыль — Википедия Jump to content

Единый кодекс хангыль

Из Википедии, бесплатной энциклопедии
Единый кодекс хангыль
Структура единого кодекса хангыль
Псевдоним(а)
  • Кодовая страница Windows 949
  • Кодовая страница IBM 1363
Язык(и) Корейский
Стандартный Стандарт кодирования WHATWG (как «EUC-KR») [1]
Классификация
Расширяет EUC-КР
Другая связанная кодировка(и)
  1. ^ Не в самом строгом смысле этого слова, поскольку байты ASCII могут отображаться как байты следа, хотя это ограничивается буквенными байтами.

Единый кодекс хангыль ( UHC ), [2] [а] или Расширенный Вансунг , [4] [б] также известная в Microsoft Windows как кодовая страница 949 ( Windows-949 , MS949 или неоднозначно CP949 ), это кодовая страница Microsoft Windows для корейского языка . Это расширение Кодекса Вансунг ( KS C 5601 :1987, закодировано как EUC-KR ), включающее все 11172 нечастных слога хангыля , присутствующих в Иохабе (KS C 5601:1992, приложение 3). [4] [2] Это соответствует предварительно составленным слогам, доступным в Unicode 2.0 и более поздних версиях.

Кодекс Вансунг имеет тот недостаток, что он присваивает коды только 2350 заранее составленным слогам хангыля, которые имеют свои собственные кодовые точки KS X 1001 (KS C 5601) (всего из 11 172, не считая тех, которые используют устаревший джамо), и требует от других использовать восемь -байтовые последовательности композиции, которые не поддерживаются некоторыми частичными реализациями стандарта. [5] UHC решает эту проблему, назначая отдельные коды для всех возможных слогов, построенных с использованием современного джамо, выполняя назначения за пределами пространства кодирования, используемого для KS X 1001.

Диапазон ведущих байтов расширен до 0x81 –FE, а диапазон следовых байтов расширен до 0x41–5A, 0x61–7A и 0x81–FE (в EUC-KR оба диапазона — 0xA1–FE). Коды вне диапазона EUC-KR используются для дополнительного хангыля. [6] Если рассматривать по отдельности, то и блок хангыль EUC-KR, и расширенный раздел хангыль UHC находятся в порядке Юникода. [1]

Терминология [ править ]

Единый код хангыля не зарегистрирован в IANA в качестве стандарта передачи информации через Интернет. [7] Альтернативы включают UTF-8 . Однако стандарт кодирования W3C / WHATWG , используемый HTML5, включает расширения Unified Hangul Code в свое определение «EUC-KR». [1]

Microsoft присваивает Windows-949 метку «ks_c_5601-1987», [8] [9] что справедливо относится и к самому KS X 1001 ( KS C 5601 — оригинальное название KS X 1001). [10] WHATWG рассматривает ярлык «ks_c_5601-1987» как взаимозаменяемый с «EUC-KR» с целью обеспечения «совместимости с развернутым контентом». [11] Коллекция изъятых сопоставлений «OBSOLETE/EASTASIA» Консорциума Unicode включала сопоставления для Единого кода хангыля как «KSC5601.TXT», а автоматически полученные сопоставления для 7-битного KS X 1001 были включены как «KSX1001.TXT». [12]

Кодовая страница IBM 949 — это еще одно, не связанное с ним расширение EUC-KR. Компания International Components for Unicode (ICU) использует «cp949», «949» или «ibm-949» для обозначения этой кодовой страницы IBM. [13] и «ms949» или «windows-949» (или несколько вариантов «ks_c_5601-1987») для обозначения сопоставления UHC в Windows. [14] Python , напротив, распознает «cp949», «949», «ms949» и «uhc» как метки для UHC и не включает кодек IBM-949. [15] Из меток, содержащих номер кодовой страницы, WHATWG распознает только «windows-949». [11]

Кодовая страница IBM для Unified Hangul Code называется кодовой страницей 1363 ( IBM-1363 ) или «корейской MS-Win». Это комбинация кодовой страницы SBCS 1126 и кодовой страницы DBCS 1362. [16] [17] [18] [19] [20] Он отличается тем, что имеет однобайтовое сопоставление 0x5C со знаком «Выиграл» (U + 20A9); [21] [22] [23] Windows сопоставляет 0x5C с U+005C (кодовая точка Unicode для обратной косой черты ), как в ASCII, [14] хотя шрифты часто по-прежнему отображают его как знак «Выиграл». [24] Отображение волнового тире (0xA1AD) в Юникоде также отличается: отображение IBM отдает предпочтение U + 301C, [25] в то время как отображение Microsoft предпочитает U + 223C (оператор тильда). [26] Сопоставление IBM для UHC доступно как «ibm-1363» в отделении интенсивной терапии. [21] тогда как кодек ICU «windows-949» упоминается как IBM-1261 в некоторых комментариях к исходному коду ICU. [27]

Однобайтовые коды [ править ]

Ниже приведена однобайтовая часть кодовой страницы, определенная IBM. Подобно кодовой странице 437 , байты кода управления могут использоваться как коды управления или графические коды в зависимости от контекста — графические коды показаны ниже. Microsoft использует сопоставления ASCII для всех байтов ASCII, хотя обратная косая черта все равно может отображаться как знак победы .

Кодовая страница 1126 [28] [29] [30] [31]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x НУЛЕВОЙ
1x
2x  СП   ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ А Б С Д И Ф г ЧАС я Дж К л М Н О
5x п вопрос р С Т В V В Икс И С [ ] ^ _
6x ` а б с д Это ж г час я дж к л м н О
7x п д р с т в v В Икс и С { | } ~

Сноски [ править ]

  1. ^ Корейский : Интегрированный код хангыля [3] , латинизировано : Тонхабхён Хангыль Кодеу
  2. ^ Корейский : расширенный совершенный , латинизированный : Hwagjang Wanseonghyeong

Ссылки [ править ]

  1. ^ Перейти обратно: а б с ван Кестерен, Энн , «5. Индексы (§ индекс EUC-KR)» , Стандарт кодирования , WHATWG
  2. ^ Перейти обратно: а б «ИНФОРМАЦИЯ: наборы символов хангыль (корейский)» , Служба поддержки Microsoft , Microsoft
  3. ^ «О кодексе хангыль» (на корейском языке). W3C.
  4. ^ Перейти обратно: а б Жигри, Дьюла (18 июня 2002 г.). «КСЦ и УХК» .
  5. ^ Шин, Юнгшик. «Что такое KS X 1001 (KS C 5601) и другие коды хангыля?» . Хангыль и Интернет в Корее Часто задаваемые вопросы .
  6. ^ Лунде, Кен (13 января 2009 г.). «Приложение F: Методы кодирования поставщиков» (PDF) . Обработка информации CJKV (2-е изд.). О'Рейли Медиа . ISBN  978-0-596-51447-1 .
  7. ^ «Наборы символов» . Яна.орг . Проверено 11 января 2017 г.
  8. ^ «Свойство Encoding.WindowsCodePage — .NET Framework (текущая версия)» . MSDN . Майкрософт.
  9. ^ «Идентификаторы кодовых страниц» , Центр разработки для Windows , Microsoft
  10. ^ ИБМ ; Консорциум Юникод . "convrtrs.txt" . Международные компоненты для Unicode . в. 59180.0.1. <quote from="Jungshik Shin"> [...] использование KS C 5601 или родственных названий для обозначения EUC-KR или windows-949 вводит в заблуждение [...] Это просто название корейского кода размером 94 x 94. стандарт набора символов, который можно вызвать либо в GL (со сбросом старшего бита), либо в GR (со сбросом старшего бита).
  11. ^ Перейти обратно: а б ван Кестерен, Энн . «4.2. Названия и метки» . Стандарт кодирования . ЧТОРГ.
  12. ^ Юнгшик Шин. «KSX1001.TXT: KS X 1001 в таблицу Юникода» . Юникод, Инк.
  13. ^ "ibm-949_P110-1999 (псевдоним cp949)" , Converter Explorer , Международные компоненты для Unicode
  14. ^ Перейти обратно: а б "windows-949-2000" , Converter Explorer , Международные компоненты для Unicode
  15. ^ «кодеки — реестр кодеков и базовые классы § Стандартные кодировки» . Документация Python 3.7.2 . Фонд программного обеспечения Python.
  16. ^ «Идентификаторы кодированных наборов символов — CCSID 1363» , IBM Globalization , IBM, заархивировано из оригинала 29 ноября 2014 г.
  17. ^ «Информационный документ с кодовой страницей 1126» . Архивировано из оригинала 16 января 2017 г.
  18. ^ «Информационный документ CCSID 1126» . Архивировано из оригинала 27 марта 2016 г.
  19. ^ «Информационный документ с кодовой страницей 1362» . Архивировано из оригинала 17 марта 2016 г.
  20. ^ «Информационный документ CCSID 1362» . Архивировано из оригинала 27 марта 2016 г.
  21. ^ Перейти обратно: а б "ibm-1363" , Converter Explorer , Международные компоненты для Unicode
  22. ^ Кодовая страница CPGID 01126 (pdf) (PDF) , IBM
  23. ^ Кодовая страница CPGID 01126 (txt) , IBM
  24. ^ Каплан, Майкл С. (17 сентября 2005 г.), «Когда обратная косая черта не является обратной косой чертой?» , Разбираемся во всем
  25. ^ «ibm-1363_P110-1997 (ведущий байт A1)» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode.
  26. ^ «windows-949-2000 (ведущий байт A1)» . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode.
  27. ^ См. для справки ucnv_lmb.cpp (Брендан Мюррей, Джим Снайдер-Грант), где ведущий байт 0x11 прокомментирован как относящийся к «корейскому языку: ibm-1261» после определения ULMBCS_GRP_KO, но он отображается в "windows-949" Кодек ICU в OptGroupByteToCPName массив позже в файле.
  28. ^ Кодовая страница CPGID 01126 (pdf) (PDF) , IBM
  29. ^ Кодовая страница CPGID 01126 (txt) , IBM
  30. ^ Демонстрация ICU, отображающая IBM-1363 в Unicode
  31. ^ Демонстрация ICU, отображающая IBM-1363C (вариант на основе ASCII) в Unicode

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 3A28203D7B09AF702C8E4C708339E16E__1713924840
URL1:https://en.wikipedia.org/wiki/Unified_Hangul_Code
Заголовок, (Title) документа по адресу, URL1:
Unified Hangul Code - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)