Jump to content

ДЖИС Х 0201

(Перенаправлено с кодовой страницы 1139 )
ДЖИС Х 0201
JIS X 0201 8-битная кодовая страница
МИМ / IANA 8-битный : JIS_X0201
7-битный римский : JIS_C6220-1969-ro
7-битный может : JIS_C6220-1969-jp
Псевдоним(а) ДЖИС С 6220
8-бит : csHalfWidthKatakana
Роман : ISO646-JP , iso-ir-14.
Кана : iso-ir-13, x0201-7
Язык(и) японский (базовая поддержка), английский
Стандартный ДЖИС Х 0201:1969
Классификация ISO 646 , расширенный ISO 646
Предшественник Код Вабун , JIS C 0803
Преемник Сдвиг HE
Другая связанная кодировка(и) N-байтовый код хангыля

JIS X 0201 , японский промышленный стандарт, разработанный в 1969 году, был первым японским набором электронных символов , получившим широкое распространение. набор символов первоначально был известен как JIS C 6220. До реформы категории JIS Его двумя формами были 7-битная кодировка или кодировка. 8-битная кодировка, хотя 8-битная форма доминировала до тех пор, пока ее не заменил Unicode (в частности, UTF-8 ) . Полное название этого стандарта — 7-битные и 8-битные кодированные наборы символов для обмена информацией ( кодированный набор символов для). обмен битовой информацией ).

Первые 96 кодов представляют собой вариант ISO 646 , в основном следующий ASCII с некоторыми отличиями, а вторые 96 кодов символов представляют собой фонетические японские знаки катаканы . Поскольку кодировка не обеспечивает никакого способа выражения хираганы или кандзи , она способна выражать только упрощенный письменный японский язык. Тем не менее, это упрощение может представить весь спектр звуков языка. В 1970-х годах это было приемлемо для таких носителей, как компьютерные терминалы с текстовым режимом, телеграммы, квитанции или другие данные, обрабатываемые в электронном виде.

JIS X 0201 был вытеснен последующими кодировками, такими как Shift JIS , которая сочетает в себе этот стандарт и JIS X 0208 , а позже и Unicode .

Международный консультативный комитет по телефонии и телеграфии (CCITT) представил код Международного телеграфного алфавита № 2 (ITA2) в качестве международного стандарта, который представлял собой 5-битную латинскую кодировку. Большинство стран имеют свои собственные национальные стандарты, основанные на этом. В Японии Агентство промышленной науки и технологий (AIST) стандартизировало его как 6-битные коды символов JIS C 0803-1961 ( Раскладка клавиатуры и коды для телетайпов ), которые сочетались с символами катаканы. Однако он не соответствовал отраслевым требованиям, поскольку карта символов была маленькой, а расположение кода — непрактичным. AIST рассмотрел практическую кодировку символов, которая заменит различные коды, используемые в Японии. [1]

В 1963 году ISO представила проект ISO R 646 ( 6- и 7-битные кодированные наборы символов для обмена информацией при обработке ). AIST поручила объединение ISO R 646 и картографирования катаканы Японскому обществу обработки информации (IPSJ). IPSJ сформировал комитет по стандартизации кодов. Комитет не принял 6-битную форму проекта ISO, потому что набор катаканы не вписывался в его карту символов. В раннем проекте JIS маленькие символы катаканы отображались рядом с каждым из их обычных символов катаканы. Было сочтено удобным сортировать по порядку Годзюон (JIS X 0208:1978 выбрал этот порядок). Некоторые члены комитета раскритиковали, что это усложнит механику клавиатур, которые обрабатывают только обычные символы катаканы. В более позднем проекте маленькие символы катаканы были сопоставлены с позициями 0xA7-0xAF.

В проекте ISO 1964 года позиции 0x24 и 0x5c были зарезервированы для первого и второго символов валюты, которые должны были назначаться каждой страной, но в международных коммуникациях считалось слишком опасным использовать символы валют, которые можно было локализовать. У комитета ISO было два варианта: использовать общий символ валюты (¤) или присвоить знакам доллара ($) и фунта (£) постоянные назначения. Было решено, что знак доллара будет присвоен позиции 0x24, а знак фунта — позиции 0x23. Последнее не требовалось в странах, которым не нужен знак фунта. [2] Комитет JIS решил поместить знак иены (¥) в 0x5c (одна из позиций национального использования).

JIS C 6220 ( Коды для обмена информацией ) был опубликован в 1969 году. Его номер был изменен на JIS X 0201 в связи с реформой категории JIS в 1987 году, а название было изменено на 7-битные и 8-битные кодированные наборы символов для обмена информацией. (7-битные и 8-битные наборы кодированных символов для обмена информацией) в издании 1990 года.

Набор символов JIS X 0201 широко использовался в Японии. Национальная система передачи банковских данных, крупнейшая система денежных переводов в Японии, была создана в 1973 году. В сообщениях о транзакциях между банками использовалось подмножество JIS X 0201. Система использовалась. до 2018 года, и она была заменена ZEDI (Национальная банковская система электронного обмена данными, система Zengin EDI), которая могла обрабатывать символы хираганы и кандзи. [3] В 1978 году был разработан 2-байтовый набор символов JIS C 6226 ( JIS X 0208 ) для выражения символов хираганы и кандзи. Он включает символы катаканы, но их коды и расположение отличаются от JIS X 0201. Производители компьютеров разработали свои собственные расширения JIS X 0208, чтобы сохранить совместимость с JIS X 0201. В 1982 году была разработана Microsoft схема кодирования Kanji ( кодовая страница 932 MS -DOS). ) и Digital Research SJC26 компании (для японского CP/M-86 ) были разработаны для объединения однобайтовой кодировки JIS X 0201 и двухбайтовой кодировки JIS X 0208 без сдвига и сдвига символов. [4] Они получили название Shift JIS и стали промышленным стандартом для персональных компьютеров.

Детали реализации

[ редактировать ]
7-битный римский набор ( сдвиг )
7-битный набор Кана (смещение)

Первая половина (римский набор) JIS X 0201 представляет собой японский вариант ISO 646 , представляющий собой ASCII с обратной косой чертой (\) и тильдой (~), замененной иеной (¥) и надчеркиванием (‾). [5] тогда как вторая половина (набор кана) состоит в основном из катаканы . Управляющие символы указаны в JIS X 0211 .

В 7-битном формате управляющий символ смещения (0x0E) переключается на набор кана, а вводимый символ (0x0F) переключается на набор римских символов. [6] [7] В 8-битном формате, приведенном в таблице ниже, байты с установленным старшим битом (т. е. 0x80–0xFF) используются для набора Kana, а байты с неустановленным битом (т. е. 0x00–0x7F) используются в противном случае.

Имена, используемые специально для 7-битного римского набора, включают «JISCII», [8] «ЖИС Роман», [9] «ИСО646-ДжП», [10] [11] «JIS C6220-1969-ро», [11] [10] «Японо-римский», [12] «Японская 7-битная латынь», [13] и «ИСО-ИР-14», [10] [11] [7] тогда как имена, используемые специально для 7-битного набора Kana, включают «ISO-IR-13», [6] [10] [11] "JIS C6220-1969-jp" [10] [11] и «x0201-7». [10] [11]

Замена символа иены на обратную косую черту может привести к странному отображению путей на компьютерах под управлением DOS и Windows с поддержкой японского языка, например, «C:¥Program Files¥». [14] Другая подобная проблема связана с языка программирования C управляющими символами строковых литералов , например: printf("Hello, world.¥n");.

Макет кодовой страницы

[ редактировать ]

В следующей таблице представлен исходный 8-битный набор символов JIS X 0201 (набор кана обозначен байтами с установленным старшим битом). [15] [16]

8-битная форма JIS X 0201-1997.
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x Коды С0 [а]
1x
2x  СП  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ А Б С Д И Ф Г ЧАС я Дж К л М Н ТО
5x П вопрос Р С Т В V В Х И С [ ¥ ] ^ _
6x ` а б с д и ж г час я дж к л м н тот
7x п д р с т в v В х и С { | } ПРИНАДЛЕЖАЩИЙ
8x Коды C1 или пустой блок [а]
9x
Топор
Бх с А Хороший Э Ой Ка ко Се
Сх Та Чи Те К На Н Нет Не Нет Ха Привет Фу Он Хо Ма
Дх Ми М Мне Мо Да Ра Ри Ле Лес Ро Н
Бывший
Форекс
  Отличия от ASCII

В составе Shift JIS

[ редактировать ]

Ниже приведено сопоставление, используемое для JIS X 0201 как часть Shift JIS . [17] [18] т.е. отображение 8-битной формы JIS X 0201 и сопоставление символов катаканы с блоком форм половинной и полной ширины (который, в свою очередь, получает макет кана половинной ширины из JIS X 0201).

Однобайтовый набор символов Shift JIS
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x
1x
2x  СП  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ А Б С Д И Ф Г ЧАС я Дж К л М Н ТО
5x П вопрос Р С Т В V В Х И С [ ¥ ] ^ _
6x ` а б с д и ж г час я дж к л м н тот
7x п д р с т в v В х и С { | }
8x
9x
Топор
Бх с А Хороший Э Ой Ка ко Се
Сх Та Чи Те К На Н Нет Не Нет Ха Привет Фу Он Хо Ма
Дх Ми М Мне Мо Да Ра Ри Ле Лес Ро Н
Бывший
Форекс
  Первые байты двухбайтовых символов Shift JIS. [4]

Альтернативное отображение катаканы

[ редактировать ]

Базовый профиль ISO-2022-JP не допускает использования набора Кана JIS X 0201, только римский набор и JIS X 0208 (хотя сам ISO 2022 / JIS X 0202 разрешает это). Соответственно, при преобразовании катаканы JIS X 0201 (или каны половинной ширины Unicode , которая использует ту же раскладку) в ISO-2022-JP, часто используется следующее сопоставление или преобразование. [20] Это позволяет конвертировать кану в JIS X 0208.

Теоретически это сопоставление одинаково правильно, поскольку сам JIS X 0201 не определяет ширину дисплея, хотя на практике (и особенно в двупространственных средах) JIS X 0201 используется для катаканы половинной ширины.

Для простоты сравнения с приведенной выше таблицей ниже показано сопоставление с кодировкой катаканы JIS X 0201 и с установленным старшим битом.

Сопоставления, совместимые с JIS X 0208, для катаканы JIS X 0201 [21]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
Топор горе А я ты Э Ой Ча ты йоу Ух ты
Бх а желудок баклан рабочий О комар дерево девять Ке Ко са С уксус Се Так
Сх Та кровь цу Те к На Д Ню Не из Ха Привет центр Ф Хо Ма
Дх Ми Му Почта Мо Да Ю Йо Ла Ли ле Ре Б Ва хм [б] [с]

Варианты и расширения

[ редактировать ]

Реализации IBM

[ редактировать ]

Кодовая страница 897 представляет собой IBM реализацию 8-битной формы JIS X 0201 от . Она включает в себя несколько дополнительных графических символов в области управляющих символов C0 , а рассматриваемые кодовые точки могут использоваться как управляющие символы или графические символы в зависимости от контекст, [23] По концепции аналогично OEM-US , но с другими графическими символами. Строки C0 показаны ниже. IBM также обозначает чистый 8-битный JIS X 0201 без этих замен управляющего кода как кодовую страницу 1139 . [24] Другой вариант, включающий меньшее подмножество заменяющей графики C0 (включая только символы рисования прямоугольников в 0x01–06, 0x10, 0x15–17 и 0x19 и символы линии/стрелки в 0x1B–1F), но с использованием другого стиля вверх. -стрелка ( U+21E7 БЕЛАЯ СТРЕЛКА ВВЕРХ ) в 0x1C обозначает кодовую страницу 1086 . [25]

Кодовая страница 897, только строки 0x00 и 0x10. [30]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x НУЛЕВОЙ БС НЧ ФФ ЧР
1x DC1 DC3 МОЖЕТ

IBM также реализует 7-битный римский набор JIS X 0201 в виде кодовой страницы 895. [31] и 7-битный код Kana, установленный как кодовая страница 896 для использования в качестве ISO 2022 или EUC-JP наборов кодов . Кодовая страница 896, помимо стандартных назначений JIS X 0201, определяет пять дополнительных назначений, показанных ниже. [32] Хотя использование этих расширенных символов не разрешено соответствующим CCSID 896, [33] они разрешены альтернативным CCSID 4992. [34]

Кодовая страница 896, только строка 0x60 [32]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
6x ¢ £ ¬ \ ~

Кодовая страница IBM 1041 — это расширенная версия кодовой страницы 897, кодирующая эти пять расширенных IBM [35] символы в альтернативных местах, совместимых с Shift JIS (соответственно 0x80, 0xA0, 0xFD, 0xFE и 0xFF). [36] Кодовая страница 911 , еще одна расширенная 8-битная реализация JIS X 0201 (которая использует ту же графику замены C0, что и кодовая страница 1086), кодирует знак фунта (стерлинга) ( £ ) в 0xE1, аналогично кодовой странице 896 с установленным восемью битами, но отличается кодированием знака цента ( ¢ ) в 0xE2 и знака отсутствия ( ¬ ) в 0xE3. [37]

IBM Кодовая страница 903 закодирована для использования в качестве однобайтового компонента некоторых упрощенных кодировок китайских символов. [38] сопровождающий ASCII на основе кодовую страницу 904 , используемую с традиционными китайскими кодировками. [39] [40] Несмотря на это, кодовая страница 903 соответствует ISO 646-JP / римской половине JIS X 0201, поскольку она заменяет обратную косую черту ASCII 0x5C (а не знак доллара ASCII 0x24, как в GB 1988 / ISO 646-CN ) на иену/. знак юаня . Он также использует ту же графику замены C0, что и кодовая страница 897. [41] Кодовая страница 1042 расширяет кодовую страницу 903 знаком фунта стерлингов (стерлингов) в 0x80, а также знаками отсутствия, обратной косой чертой и тильдой в местах кодовой страницы 1041. [42]

  1. ^ Jump up to: а б Управляющие символы указаны в JIS X 0211 .
  2. ^ Сопоставляется с символом JIS X 0208 (сопоставленным с U+309B), а не с нормализацией совместимости (которая будет U+3099, комбинированной версией). [22]
  3. ^ Сопоставляется с символом JIS X 0208 (сопоставленным с U+309C), а не с нормализацией совместимости (которая будет U+309A, комбинированной версией). [22]
  1. ^ Агентство административного управления (1968 г.). Отчет об исследовании совместного использования электронных компьютеров в государственном управлении ), стр. 108–113 (   на японском языке .
  2. ^ Фишер, Эрик Н. (20 июня 2000 г.). «Эволюция кодов символов, 1874–1968» . ковчег:/13960/t07x23w8s . Проверено 2 ноября 2023 г.
  3. ^ «Хорошие новости для компаний, страдающих от нехватки кадров в бухгалтерском отделе: Финансовый EDI «ZEDI» начнет работу в 2018 году . июля 2019 Проверено 24 г.
  4. ^ Jump up to: а б Нисида, Норимаса (19 декабря 1983 г.) «Функции и внутренняя структура японской MS-DOS 2.0 с Unix-подобными функциями». на японском языке) ( : 165–190 Nikkei   Electronics .
  5. ^ «3.1.1 Подробности проблем» . Проблемы и решения для символов Юникода и символов, определяемых пользователем/поставщиком . Открытая группа Японии. Архивировано из оригинала 3 февраля 1999 г. Проверено 15 апреля 2019 г.
  6. ^ Jump up to: а б Японский комитет промышленных стандартов . ISO-IR-13: Набор японских графических символов КАТАКАНА (PDF) . ITSCJ/ IPSJ .
  7. ^ Jump up to: а б Японский комитет промышленных стандартов . ISO-IR-14: Набор японских римских графических символов (PDF) . ITSCJ/ IPSJ .
  8. ^ «IBM-943 и IBM-932» , Центр знаний IBM , IBM
  9. ^ «kUnicodeForceASCIIRangeMask» , Документация разработчика Apple , Apple Inc.
  10. ^ Jump up to: а б с д и ж РФК   1345
  11. ^ Jump up to: а б с д и ж «Наборы символов» . ИАНА.
  12. ^ да Круз, Фрэнк (2 апреля 2010 г.), «Имена наборов символов Кермит и MIME» , Проект Кермит , Колумбийский университет
  13. ^ «CP 00895» , Глобализация IBM — Идентификаторы кодовых страниц , IBM , 9 ноября 2020 г.
  14. ^ Каплан, Майкл С. (17 сентября 2005 г.). «Когда обратная косая черта не является обратной косой чертой?» .
  15. ^ JIS X 0201-1997 (на японском языке). Японская ассоциация стандартов . 28 февраля 1997 г. п. 17.
  16. ^ Консорциум Юникод (2 декабря 2015 г.). «Таблица JIS X 0201 (1976) в Unicode 1.1» . unicode.org . Проверено 01 октября 2021 г.
  17. ^ "ibm-943_P130-1999" . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
  18. ^ Apple, Inc (05 апреля 2005 г.) [15 апреля 1995 г.]. «JAPANESE.TXT: сопоставление (внешняя версия) японской кодировки Mac OS с Unicode 2.1 и более поздних версий» . Консорциум Юникод .
  19. ^ ван Кестерен, Энн (11 февраля 2019 г.). «12.2.2. Кодер ISO-2022-JP» . Стандарт кодирования . ЧТОРГ .
  20. ^ JP . Например, стандарт кодирования WHATWG использует его в качестве преобразования при кодировании данных кана половинной ширины Unicode в ISO-2022- [19]
  21. ^ ван Кестерен, Энн (6 января 2018 г.). «Индекс ISO-2022-JP Катакана» . Стандарт кодирования . ЧТОРГ .
  22. ^ Jump up to: а б ван Кестерен, Энн (11 февраля 2019 г.). «5. Индексы» . Стандарт кодирования . ЧТОРГ .
  23. ^ «Идентификаторы кодовых страниц — CP 00897» . IBM Глобализация . ИБМ. Архивировано из оригинала 17 марта 2016 г.
  24. ^ «Кодовая страница 01139» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. Проверено 22 октября 2021 г.
  25. ^ «Кодовая страница 01086» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. Проверено 22 октября 2021 г.
  26. ^ "CP00897.pdf" (PDF) . ИБМ.
  27. ^ «CP00897.txt» . ИБМ.
  28. ^ «Проводник конвертеров — IBM-943_P130-1999» . Демонстрация отделения интенсивной терапии . Международные компоненты для Unicode.
  29. ^ «Идентификаторы кодированных наборов символов — CCSID 943» . IBM Глобализация . ИБМ. Архивировано из оригинала 15 марта 2016 г.
  30. ^ Графика указана в файлах CP00897.pdf и CP00897.txt, предоставленных IBM. [26] [27] Элементы управления перечислены, если они не имеют графической функции или отличаются от ASCII, в соответствии с кодеком ibm-943_P130-1999, предоставленным IBM компании International Components for Unicode. [28] (IBM-943 — это расширенная версия кодовой страницы 897). [29] SUB назначен на 0x7F.
  31. ^ «CP00895.pdf» (PDF) . ИБМ.
  32. ^ Jump up to: а б "CP00896.pdf" (PDF) . ИБМ.
  33. ^ «Идентификаторы кодированных наборов символов — CCSID 896» . IBM Глобализация . ИБМ. Архивировано из оригинала 26 марта 2016 г.
  34. ^ «Идентификаторы кодированных наборов символов — CCSID 4992» . IBM Глобализация . ИБМ. Архивировано из оригинала 27 марта 2016 г.
  35. ^ «11.2 - Расширенный набор IBM SBCS» (PDF) . Набор японских графических символов IBM для расширенного кода UNIX (EUC) . ИБМ. п. 315.
  36. ^ «CP01041.pdf» (PDF) . ИБМ.
  37. ^ «Кодовая страница 00911» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. Проверено 22 октября 2021 г.
  38. ^ «Идентификаторы кодовых страниц — CP 903» . IBM Глобализация . ИБМ. Архивировано из оригинала 17 марта 2016 г.
  39. ^ «Идентификаторы кодированных наборов символов — CCSID 904» . IBM Глобализация . ИБМ. Архивировано из оригинала 27 марта 2016 г.
  40. ^ «CP00904.pdf» (PDF) . ИБМ.
  41. ^ «CP00903.pdf» (PDF) . ИБМ.
  42. ^ «Кодовая страница 01042» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 23f7fb59e730ecd6d35a99ddde9dcf56__1716677700
URL1:https://arc.ask3.ru/arc/aa/23/56/23f7fb59e730ecd6d35a99ddde9dcf56.html
Заголовок, (Title) документа по адресу, URL1:
JIS X 0201 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)