ДЖИС Х 0201
МИМ / IANA | 8-битный : JIS_X0201 7-битный римский : JIS_C6220-1969-ro 7-битный может : JIS_C6220-1969-jp |
---|---|
Псевдоним(а) | ДЖИС С 6220 8-бит : csHalfWidthKatakana Роман : ISO646-JP , iso-ir-14. Кана : iso-ir-13, x0201-7 |
Язык(и) | японский (базовая поддержка), английский |
Стандартный | ДЖИС Х 0201:1969 |
Классификация | ISO 646 , расширенный ISO 646 |
Предшественник | Код Вабун , JIS C 0803 |
Преемник | Сдвиг HE |
Другая связанная кодировка(и) | N-байтовый код хангыля |
JIS X 0201 , японский промышленный стандарт, разработанный в 1969 году, был первым японским набором электронных символов , получившим широкое распространение. набор символов первоначально был известен как JIS C 6220. До реформы категории JIS Его двумя формами были 7-битная кодировка или кодировка. 8-битная кодировка, хотя 8-битная форма доминировала до тех пор, пока ее не заменил Unicode (в частности, UTF-8 ) . Полное название этого стандарта — 7-битные и 8-битные кодированные наборы символов для обмена информацией ( кодированный набор символов для). обмен битовой информацией ).
Первые 96 кодов представляют собой вариант ISO 646 , в основном следующий ASCII с некоторыми отличиями, а вторые 96 кодов символов представляют собой фонетические японские знаки катаканы . Поскольку кодировка не обеспечивает никакого способа выражения хираганы или кандзи , она способна выражать только упрощенный письменный японский язык. Тем не менее, это упрощение может представить весь спектр звуков языка. В 1970-х годах это было приемлемо для таких носителей, как компьютерные терминалы с текстовым режимом, телеграммы, квитанции или другие данные, обрабатываемые в электронном виде.
JIS X 0201 был вытеснен последующими кодировками, такими как Shift JIS , которая сочетает в себе этот стандарт и JIS X 0208 , а позже и Unicode .
История
[ редактировать ]Международный консультативный комитет по телефонии и телеграфии (CCITT) представил код Международного телеграфного алфавита № 2 (ITA2) в качестве международного стандарта, который представлял собой 5-битную латинскую кодировку. Большинство стран имеют свои собственные национальные стандарты, основанные на этом. В Японии Агентство промышленной науки и технологий (AIST) стандартизировало его как 6-битные коды символов JIS C 0803-1961 ( Раскладка клавиатуры и коды для телетайпов ), которые сочетались с символами катаканы. Однако он не соответствовал отраслевым требованиям, поскольку карта символов была маленькой, а расположение кода — непрактичным. AIST рассмотрел практическую кодировку символов, которая заменит различные коды, используемые в Японии. [1]
В 1963 году ISO представила проект ISO R 646 ( 6- и 7-битные кодированные наборы символов для обмена информацией при обработке ). AIST поручила объединение ISO R 646 и картографирования катаканы Японскому обществу обработки информации (IPSJ). IPSJ сформировал комитет по стандартизации кодов. Комитет не принял 6-битную форму проекта ISO, потому что набор катаканы не вписывался в его карту символов. В раннем проекте JIS маленькие символы катаканы отображались рядом с каждым из их обычных символов катаканы. Было сочтено удобным сортировать по порядку Годзюон (JIS X 0208:1978 выбрал этот порядок). Некоторые члены комитета раскритиковали, что это усложнит механику клавиатур, которые обрабатывают только обычные символы катаканы. В более позднем проекте маленькие символы катаканы были сопоставлены с позициями 0xA7-0xAF.
В проекте ISO 1964 года позиции 0x24 и 0x5c были зарезервированы для первого и второго символов валюты, которые должны были назначаться каждой страной, но в международных коммуникациях считалось слишком опасным использовать символы валют, которые можно было локализовать. У комитета ISO было два варианта: использовать общий символ валюты (¤) или присвоить знакам доллара ($) и фунта (£) постоянные назначения. Было решено, что знак доллара будет присвоен позиции 0x24, а знак фунта — позиции 0x23. Последнее не требовалось в странах, которым не нужен знак фунта. [2] Комитет JIS решил поместить знак иены (¥) в 0x5c (одна из позиций национального использования).
JIS C 6220 ( Коды для обмена информацией ) был опубликован в 1969 году. Его номер был изменен на JIS X 0201 в связи с реформой категории JIS в 1987 году, а название было изменено на 7-битные и 8-битные кодированные наборы символов для обмена информацией. (7-битные и 8-битные наборы кодированных символов для обмена информацией) в издании 1990 года.
Набор символов JIS X 0201 широко использовался в Японии. Национальная система передачи банковских данных, крупнейшая система денежных переводов в Японии, была создана в 1973 году. В сообщениях о транзакциях между банками использовалось подмножество JIS X 0201. Система использовалась. до 2018 года, и она была заменена ZEDI (Национальная банковская система электронного обмена данными, система Zengin EDI), которая могла обрабатывать символы хираганы и кандзи. [3] В 1978 году был разработан 2-байтовый набор символов JIS C 6226 ( JIS X 0208 ) для выражения символов хираганы и кандзи. Он включает символы катаканы, но их коды и расположение отличаются от JIS X 0201. Производители компьютеров разработали свои собственные расширения JIS X 0208, чтобы сохранить совместимость с JIS X 0201. В 1982 году была разработана Microsoft схема кодирования Kanji ( кодовая страница 932 MS -DOS). ) и Digital Research SJC26 компании (для японского CP/M-86 ) были разработаны для объединения однобайтовой кодировки JIS X 0201 и двухбайтовой кодировки JIS X 0208 без сдвига и сдвига символов. [4] Они получили название Shift JIS и стали промышленным стандартом для персональных компьютеров.
Детали реализации
[ редактировать ]Первая половина (римский набор) JIS X 0201 представляет собой японский вариант ISO 646 , представляющий собой ASCII с обратной косой чертой (\) и тильдой (~), замененной иеной (¥) и надчеркиванием (‾). [5] тогда как вторая половина (набор кана) состоит в основном из катаканы . Управляющие символы указаны в JIS X 0211 .
В 7-битном формате управляющий символ смещения (0x0E) переключается на набор кана, а вводимый символ (0x0F) переключается на набор римских символов. [6] [7] В 8-битном формате, приведенном в таблице ниже, байты с установленным старшим битом (т. е. 0x80–0xFF) используются для набора Kana, а байты с неустановленным битом (т. е. 0x00–0x7F) используются в противном случае.
Имена, используемые специально для 7-битного римского набора, включают «JISCII», [8] «ЖИС Роман», [9] «ИСО646-ДжП», [10] [11] «JIS C6220-1969-ро», [11] [10] «Японо-римский», [12] «Японская 7-битная латынь», [13] и «ИСО-ИР-14», [10] [11] [7] тогда как имена, используемые специально для 7-битного набора Kana, включают «ISO-IR-13», [6] [10] [11] "JIS C6220-1969-jp" [10] [11] и «x0201-7». [10] [11]
Замена символа иены на обратную косую черту может привести к странному отображению путей на компьютерах под управлением DOS и Windows с поддержкой японского языка, например, «C:¥Program Files¥». [14] Другая подобная проблема связана с языка программирования C управляющими символами строковых литералов , например: printf("Hello, world.¥n");
.
Макет кодовой страницы
[ редактировать ]В следующей таблице представлен исходный 8-битный набор символов JIS X 0201 (набор кана обозначен байтами с установленным старшим битом). [15] [16]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | Коды С0 [а] | |||||||||||||||
1x | ||||||||||||||||
2x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | ¥ | ] | ^ | _ |
6x | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ‾ | ПРИНАДЛЕЖАЩИЙ |
8x | Коды C1 или пустой блок [а] | |||||||||||||||
9x | ||||||||||||||||
Топор | 。 | 「 | 」 | 、 | ・ | ヲ | ァ | ィ | ゥ | ェ | ォ | | | ュ | ョ | ッ | |
Бх | с | А | Хороший | ウ | Э | Ой | Ка | キ | | | ケ | ко | | | シ | | | Се | | |
Сх | Та | Чи | ツ | Те | К | На | Н | Нет | Не | Нет | Ха | Привет | Фу | Он | Хо | Ма |
Дх | Ми | М | Мне | Мо | Да | ワ | ヨ | Ра | Ри | Ле | Лес | Ро | ワ | Н | ゙ | ゚ |
Бывший | ||||||||||||||||
Форекс |
В составе Shift JIS
[ редактировать ]Ниже приведено сопоставление, используемое для JIS X 0201 как часть Shift JIS . [17] [18] т.е. отображение 8-битной формы JIS X 0201 и сопоставление символов катаканы с блоком форм половинной и полной ширины (который, в свою очередь, получает макет кана половинной ширины из JIS X 0201).
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | ||||||||||||||||
1x | ||||||||||||||||
2x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | ¥ | ] | ^ | _ |
6x | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ‾ | |
8x | ||||||||||||||||
9x | ||||||||||||||||
Топор | 。 | 「 | 」 | 、 | ・ | ヲ | ァ | ィ | ゥ | ェ | ォ | | | ュ | ョ | ッ | |
Бх | с | А | Хороший | ウ | Э | Ой | Ка | キ | | | ケ | ко | | | シ | | | Се | | |
Сх | Та | Чи | ツ | Те | К | На | Н | Нет | Не | Нет | Ха | Привет | Фу | Он | Хо | Ма |
Дх | Ми | М | Мне | Мо | Да | ワ | ヨ | Ра | Ри | Ле | Лес | Ро | ワ | Н | ゙ | ゚ |
Бывший | ||||||||||||||||
Форекс |
Альтернативное отображение катаканы
[ редактировать ]Базовый профиль ISO-2022-JP не допускает использования набора Кана JIS X 0201, только римский набор и JIS X 0208 (хотя сам ISO 2022 / JIS X 0202 разрешает это). Соответственно, при преобразовании катаканы JIS X 0201 (или каны половинной ширины Unicode , которая использует ту же раскладку) в ISO-2022-JP, часто используется следующее сопоставление или преобразование. [20] Это позволяет конвертировать кану в JIS X 0208.
Теоретически это сопоставление одинаково правильно, поскольку сам JIS X 0201 не определяет ширину дисплея, хотя на практике (и особенно в двупространственных средах) JIS X 0201 используется для катаканы половинной ширины.
Для простоты сравнения с приведенной выше таблицей ниже показано сопоставление с кодировкой катаканы JIS X 0201 и с установленным старшим битом.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
Топор | 。 | 「 | 」 | 、 | ・ | горе | А | я | ты | Э | Ой | Ча | ты | йоу | Ух ты | |
Бх | ー | а | желудок | баклан | рабочий | О | комар | дерево | девять | Ке | Ко | са | С | уксус | Се | Так |
Сх | Та | кровь | цу | Те | к | На | Д | Ню | Не | из | Ха | Привет | центр | Ф | Хо | Ма |
Дх | Ми | Му | Почта | Мо | Да | Ю | Йо | Ла | Ли | ле | Ре | Б | Ва | хм | ゛ [б] | ゜ [с] |
Варианты и расширения
[ редактировать ]Сдвиг HE
[ редактировать ]Реализации IBM
[ редактировать ]Кодовая страница 897 представляет собой IBM реализацию 8-битной формы JIS X 0201 от . Она включает в себя несколько дополнительных графических символов в области управляющих символов C0 , а рассматриваемые кодовые точки могут использоваться как управляющие символы или графические символы в зависимости от контекст, [23] По концепции аналогично OEM-US , но с другими графическими символами. Строки C0 показаны ниже. IBM также обозначает чистый 8-битный JIS X 0201 без этих замен управляющего кода как кодовую страницу 1139 . [24] Другой вариант, включающий меньшее подмножество заменяющей графики C0 (включая только символы рисования прямоугольников в 0x01–06, 0x10, 0x15–17 и 0x19 и символы линии/стрелки в 0x1B–1F), но с использованием другого стиля вверх. -стрелка ( U+21E7 ⇧ БЕЛАЯ СТРЕЛКА ВВЕРХ ) в 0x1C обозначает кодовую страницу 1086 . [25]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | НУЛЕВОЙ | ╔ | ╗ | ╚ | ╝ | ║ | ═ | ↓ | БС | ○ | НЧ | 〿 | ФФ | ЧР | ■ | ☼ |
1x | ╬ | DC1 | ↕ | DC3 | ▓ | ╩ | ╦ | ╣ | МОЖЕТ | ╠ | ░ | ↵ | ↑ | │ | → | ← |
IBM также реализует 7-битный римский набор JIS X 0201 в виде кодовой страницы 895. [31] и 7-битный код Kana, установленный как кодовая страница 896 для использования в качестве ISO 2022 или EUC-JP наборов кодов . Кодовая страница 896, помимо стандартных назначений JIS X 0201, определяет пять дополнительных назначений, показанных ниже. [32] Хотя использование этих расширенных символов не разрешено соответствующим CCSID 896, [33] они разрешены альтернативным CCSID 4992. [34]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
6x | ¢ | £ | ¬ | \ | ~ |
Кодовая страница IBM 1041 — это расширенная версия кодовой страницы 897, кодирующая эти пять расширенных IBM [35] символы в альтернативных местах, совместимых с Shift JIS (соответственно 0x80, 0xA0, 0xFD, 0xFE и 0xFF). [36] Кодовая страница 911 , еще одна расширенная 8-битная реализация JIS X 0201 (которая использует ту же графику замены C0, что и кодовая страница 1086), кодирует знак фунта (стерлинга) ( £ ) в 0xE1, аналогично кодовой странице 896 с установленным восемью битами, но отличается кодированием знака цента ( ¢ ) в 0xE2 и знака отсутствия ( ¬ ) в 0xE3. [37]
IBM Кодовая страница 903 закодирована для использования в качестве однобайтового компонента некоторых упрощенных кодировок китайских символов. [38] сопровождающий ASCII на основе кодовую страницу 904 , используемую с традиционными китайскими кодировками. [39] [40] Несмотря на это, кодовая страница 903 соответствует ISO 646-JP / римской половине JIS X 0201, поскольку она заменяет обратную косую черту ASCII 0x5C (а не знак доллара ASCII 0x24, как в GB 1988 / ISO 646-CN ) на иену/. знак юаня . Он также использует ту же графику замены C0, что и кодовая страница 897. [41] Кодовая страница 1042 расширяет кодовую страницу 903 знаком фунта стерлингов (стерлингов) в 0x80, а также знаками отсутствия, обратной косой чертой и тильдой в местах кодовой страницы 1041. [42]
Другие
[ редактировать ]- Набор символов NEC PC-8001 (1979), отображенный шрифтом 8×8 пикселей.
- Вариант NEC , используемый в серии PC98 .
- Hitachi Вариант , используемый на HD44780 .
Сноски
[ редактировать ]- ^ Jump up to: а б Управляющие символы указаны в JIS X 0211 .
- ^ Сопоставляется с символом JIS X 0208 (сопоставленным с U+309B), а не с нормализацией совместимости (которая будет U+3099, комбинированной версией). [22]
- ^ Сопоставляется с символом JIS X 0208 (сопоставленным с U+309C), а не с нормализацией совместимости (которая будет U+309A, комбинированной версией). [22]
Ссылки
[ редактировать ]- ^ Агентство административного управления (1968 г.). Отчет об исследовании совместного использования электронных компьютеров в государственном управлении ), стр. 108–113 ( на японском языке .
- ^ Фишер, Эрик Н. (20 июня 2000 г.). «Эволюция кодов символов, 1874–1968» . ковчег:/13960/t07x23w8s . Проверено 2 ноября 2023 г.
- ^ «Хорошие новости для компаний, страдающих от нехватки кадров в бухгалтерском отделе: Финансовый EDI «ZEDI» начнет работу в 2018 году . июля 2019 Проверено 24 г.
- ^ Jump up to: а б Нисида, Норимаса (19 декабря 1983 г.) «Функции и внутренняя структура японской MS-DOS 2.0 с Unix-подобными функциями». на японском языке) ( : 165–190 Nikkei Electronics .
- ^ «3.1.1 Подробности проблем» . Проблемы и решения для символов Юникода и символов, определяемых пользователем/поставщиком . Открытая группа Японии. Архивировано из оригинала 3 февраля 1999 г. Проверено 15 апреля 2019 г.
- ^ Jump up to: а б Японский комитет промышленных стандартов . ISO-IR-13: Набор японских графических символов КАТАКАНА (PDF) . ITSCJ/ IPSJ .
- ^ Jump up to: а б Японский комитет промышленных стандартов . ISO-IR-14: Набор японских римских графических символов (PDF) . ITSCJ/ IPSJ .
- ^ «IBM-943 и IBM-932» , Центр знаний IBM , IBM
- ^ «kUnicodeForceASCIIRangeMask» , Документация разработчика Apple , Apple Inc.
- ^ Jump up to: а б с д и ж РФК 1345
- ^ Jump up to: а б с д и ж «Наборы символов» . ИАНА.
- ^ да Круз, Фрэнк (2 апреля 2010 г.), «Имена наборов символов Кермит и MIME» , Проект Кермит , Колумбийский университет
- ^ «CP 00895» , Глобализация IBM — Идентификаторы кодовых страниц , IBM , 9 ноября 2020 г.
- ^ Каплан, Майкл С. (17 сентября 2005 г.). «Когда обратная косая черта не является обратной косой чертой?» .
- ^ JIS X 0201-1997 (на японском языке). Японская ассоциация стандартов . 28 февраля 1997 г. п. 17.
- ^ Консорциум Юникод (2 декабря 2015 г.). «Таблица JIS X 0201 (1976) в Unicode 1.1» . unicode.org . Проверено 01 октября 2021 г.
- ^ "ibm-943_P130-1999" . Демонстрация ICU — Converter Explorer . Международные компоненты для Unicode .
- ^ Apple, Inc (05 апреля 2005 г.) [15 апреля 1995 г.]. «JAPANESE.TXT: сопоставление (внешняя версия) японской кодировки Mac OS с Unicode 2.1 и более поздних версий» . Консорциум Юникод .
- ^ ван Кестерен, Энн (11 февраля 2019 г.). «12.2.2. Кодер ISO-2022-JP» . Стандарт кодирования . ЧТОРГ .
- ^ JP . Например, стандарт кодирования WHATWG использует его в качестве преобразования при кодировании данных кана половинной ширины Unicode в ISO-2022- [19]
- ^ ван Кестерен, Энн (6 января 2018 г.). «Индекс ISO-2022-JP Катакана» . Стандарт кодирования . ЧТОРГ .
- ^ Jump up to: а б ван Кестерен, Энн (11 февраля 2019 г.). «5. Индексы» . Стандарт кодирования . ЧТОРГ .
- ^ «Идентификаторы кодовых страниц — CP 00897» . IBM Глобализация . ИБМ. Архивировано из оригинала 17 марта 2016 г.
- ^ «Кодовая страница 01139» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. Проверено 22 октября 2021 г.
- ^ «Кодовая страница 01086» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. Проверено 22 октября 2021 г.
- ^ "CP00897.pdf" (PDF) . ИБМ.
- ^ «CP00897.txt» . ИБМ.
- ^ «Проводник конвертеров — IBM-943_P130-1999» . Демонстрация отделения интенсивной терапии . Международные компоненты для Unicode.
- ^ «Идентификаторы кодированных наборов символов — CCSID 943» . IBM Глобализация . ИБМ. Архивировано из оригинала 15 марта 2016 г.
- ^ Графика указана в файлах CP00897.pdf и CP00897.txt, предоставленных IBM. [26] [27] Элементы управления перечислены, если они не имеют графической функции или отличаются от ASCII, в соответствии с кодеком ibm-943_P130-1999, предоставленным IBM компании International Components for Unicode. [28] (IBM-943 — это расширенная версия кодовой страницы 897). [29] SUB назначен на 0x7F.
- ^ «CP00895.pdf» (PDF) . ИБМ.
- ^ Jump up to: а б "CP00896.pdf" (PDF) . ИБМ.
- ^ «Идентификаторы кодированных наборов символов — CCSID 896» . IBM Глобализация . ИБМ. Архивировано из оригинала 26 марта 2016 г.
- ^ «Идентификаторы кодированных наборов символов — CCSID 4992» . IBM Глобализация . ИБМ. Архивировано из оригинала 27 марта 2016 г.
- ^ «11.2 - Расширенный набор IBM SBCS» (PDF) . Набор японских графических символов IBM для расширенного кода UNIX (EUC) . ИБМ. п. 315.
- ^ «CP01041.pdf» (PDF) . ИБМ.
- ^ «Кодовая страница 00911» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г. Проверено 22 октября 2021 г.
- ^ «Идентификаторы кодовых страниц — CP 903» . IBM Глобализация . ИБМ. Архивировано из оригинала 17 марта 2016 г.
- ^ «Идентификаторы кодированных наборов символов — CCSID 904» . IBM Глобализация . ИБМ. Архивировано из оригинала 27 марта 2016 г.
- ^ «CP00904.pdf» (PDF) . ИБМ.
- ^ «CP00903.pdf» (PDF) . ИБМ.
- ^ «Кодовая страница 01042» (PDF) . ИБМ . Архивировано из оригинала (PDF) 8 июля 2015 г.