Jump to content

ДЖИС Х 0208

(Перенаправлено с кодовой страницы 955 )

ДЖИС Х 0208
Псевдоним(а) ДЖИС С 6226
Язык(и)
Частичная поддержка :
Стандартный JIS X 0208: 1978–1997 гг.
Классификация
Расширения
Форматы кодирования
Предшественник ДЖИС Х 0201
Преемник ДЖИС Х 0213
Другая связанная кодировка(и) Сопутствующие дополнения: JIS X 0212.
Другие СУБД CJK ISO 2022:

JIS X 0208 — это 2-байтовый набор символов , определенный как японский промышленный стандарт , содержащий 6879 графических символов, подходящих для написания текста, географических названий, личных имен и т. д. на японском языке . Официальное название текущего стандарта — 7-. Наборы KANJI с битовой обмена информацией . и 8 - битной двухбайтовой кодировкой для Первоначально он был установлен как JIS C 6226 в 1978 году и пересматривался в 1983, 1990 и 1997 годах. также называет его кодовой страницей 952. IBM также называет кодовую страницу 955 Версия 1978 года. IBM .

Область использования и совместимость

[ редактировать ]

Набор символов, установленный JIS X 0208, в первую очередь предназначен для обмена информацией ( 情報交換 , jōhō kōkan ) между системами обработки данных и подключенными к ним устройствами или между системами передачи данных. Этот набор символов можно использовать для обработки данных и обработки текста.

Частичные реализации набора символов не считаются совместимыми. Потому что есть места, где случались такие вещи, как первоначальный редакционный комитет первого стандарта, который заботился о разделении персонажей между уровнями 1 и 2, а второй стандарт затем перетасовывал некоторые варианты символов (異体字, итайдзи ) между уровнями, по крайней мере. в первом и втором стандартах предполагается, что японские компьютерные системы, не использующие кандзи и реализующие только уровень 1, одно время рассматривались для разработки. Однако такие реализации никогда не считались совместимыми, хотя такие примеры, как ранний NEC PC-9801, существовали. [1]

Несмотря на то, что в стандарте JIS X 0208:1997 есть положения, касающиеся совместимости, в настоящее время обычно считается, что этот стандарт не подтверждает совместимость и не является официальным производственным стандартом, который представляет собой декларацию самосовместимости. [2] Следовательно, де-факто «совместимые» по стандарту JIS X 0208 продукты не считаются существующими. Такая терминология, как «соответствующий» ( 準拠 , junkyo ) и «поддержка» ( 対応 , taiō ) включена в JIS X 0208, но семантика этих терминов варьируется от человека к человеку.

Таблицы кодов

[ редактировать ]

Ведущий байт

[ редактировать ]

Первый байт кодирования соответствует номеру строки или ячейки плюс 0x20 или 32 в десятичном формате (см. ниже). Следовательно, кодовый набор, начинающийся с 0x21, имеет номер строки 1, а его ячейка 1 имеет байт продолжения 0x21 (или 33) и так далее.

Для ведущих байтов, используемых для символов, отличных от кандзи , предоставляются ссылки на таблицы на этой странице, в которых перечислены символы, закодированные под этим ведущим байтом. Для ведущих байтов, используемых для кандзи, предоставляются ссылки на соответствующий раздел указателя кандзи Викисловаря .

JIS X 0208 (ведущие байты)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x  СП  1-_ 2-_ 3-_ 4-_ 5-_ 6-_ 7-_ 8-_ 9-_ 10-_ 11-_ 12-_ 13-_ 14-_ 15-_
3x 16-_ 17-_ 18-_ 19-_ 20-_ 21-_ 22-_ 23-_ 24-_ 25-_ 26-_ 27-_ 28-_ 29-_ 30-_ 31-_
4x 32-_ 33-_ 34-_ 35-_ 36-_ 37-_ 38-_ 39-_ 40-_ 41-_ 42-_ 43-_ 44-_ 45-_ 46-_ 47-_
5x 48-_ 49-_ 50-_ 51-_ 52-_ 53-_ 54-_ 55-_ 56-_ 57-_ 58-_ 59-_ 60-_ 61-_ 62-_ 63-_
6x 64-_ 65-_ 66-_ 67-_ 68-_ 69-_ 70-_ 71-_ 72-_ 73-_ 74-_ 75-_ 76-_ 77-_ 78-_ 79-_
7x 80-_ 81-_ 82-_ 83-_ 84-_ 85-_ 86-_ 87-_ 88-_ 89-_ 90-_ 91-_ 92-_ 93-_ 94-_ ПРИНАДЛЕЖАЩИЙ

Строки, не написанные на кандзи

[ редактировать ]

Набор символов 0x21 (номер строки 1, специальные символы)

[ редактировать ]

Некоторые поставщики используют для этого набора несколько иное сопоставление Unicode, чем приведенное ниже. Например, Microsoft сопоставляет kuten 1–29 (JIS 0x213D) с U+2015 (горизонтальная полоса), [3] тогда как Apple сопоставляет это с U + 2014 (Em Dash). [4] Аналогичным образом Microsoft сопоставляет kuten 1-61 (JIS 0x215D) с U+FF0D. [3] (полноширинная форма U+002D Дефис-Минус), и Apple сопоставляет его с U+2212 (Знак Минус). [4] Отображение волнового тире в Юникоде также различается у разных поставщиков. См. ячейки со сносками ниже.

Знаки пунктуации ASCII и JISCII (показаны здесь на желтом фоне) могут использовать альтернативные сопоставления с блоком форм половинной и полной ширины , если они используются в кодировке, которая сочетает в себе JIS X 0208 с ASCII или с JIS X 0201 , например Shift JIS , EUC-JP или ИСО 2022-ЯП .

JIS X 0208 (с префиксом 0x21)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x ИДСП , . : ; ? ! ´ ` ¨
3x ^ _ Ты каждый [с] /
4x \ [д] [и] | ( ) [ ]
5x { } + [ф] ± ×
6x ÷ = < > ° ¥
7x $ ¢ £ % # & * @ §

Набор символов 0x22 (номер строки 2, специальные символы)

[ редактировать ]

Большинство символов в этом наборе были добавлены в 1983 году, за исключением символов 0x2221–0x222E (кутен от 2-1 до 2-14 или первая строка таблицы ниже), которые были включены в исходную версию стандарта 1978 года.

JIS X 0208 (с префиксом 0x22)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x
3x
4x ¬
5x
6x
7x Ой

Набор символов 0x23 (номер строки 3, цифры и латинские буквы)

[ редактировать ]

Этот набор включает в себя подмножество инвариантного набора ISO 646 (и, следовательно, также подмножество как ASCII , так и римского набора JIS X 0201 ), за вычетом знаков препинания и символов, включая западные арабские цифры и оба регистра основного латинского алфавита . Символы в этом наборе могут использовать альтернативные сопоставления Юникода с блоком форм половинной и полной ширины , если они используются в кодировке, сочетающей JIS X 0208 с ASCII или с JIS X 0201, например EUC-JP , Shift JIS или ISO 2022-JP .

Сравните строку 3 KPS 9566 , которой точно соответствует эта строка. Сравните и сопоставьте строку 3 KS X 1001 и GB 2312 , которые включают в эту строку все национальные варианты ISO 646 , а не только буквенно-цифровой подмножество.

JIS X 0208 (с префиксом 0x23)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x
3x 0 1 2 3 4 5 6 7 8 9
4x А Б С Д И Ф Г ЧАС я Дж К л М Н ТО
5x П вопрос Р С Т В V В Х И С
6x а б с д и ж г час я дж к л м н тот
7x п д р с т в v В х и С

Набор символов 0x24 (строка номер 4, Хирагана)

[ редактировать ]

В этой строке находится японская хирагана .

Сравните строку 4 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте 10-й ряд KPS 9566 и KS X 1001 , которые используют одну и ту же компоновку, но в другом ряду.

JIS X 0208 (с префиксом 0x24)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x ах а я желудок Эм-м-м баклан Эх картина Ой ой комар но дерево Ги Ку
3x ингредиент волосы Ге ребенок Идти разница смерть характер уксус фигура высота Зе Так Ух ты Та
4x является Чи Ди Ух ты Один цу рука в и степень На к Ню привет из зубы
5x Ба Па огонь Красота Пи долг Бу Пу пердеть Быть Пе Хо Бо По Ма фрукты
6x ничего глаз слишком Ага или ты горячая вода Йо Йо и другие закон природы Ру Ре реактор круг
7x Э из ага

Набор символов 0x25 (строка номер 5, катакана)

[ редактировать ]

В этой строке содержится японская катакана .

Сравните строку 5 GB 2312 , соответствующую этой строке. Сравните и сопоставьте ряд 11 KPS 9566 и KS X 1001 , в которых используется одинаковая компоновка, но в другом ряду. Сравните значительно отличающуюся раскладку катаканы, используемую в JIS X 0201 .

JIS X 0208 (с префиксом 0x25)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x А а я желудок ты баклан Э рабочий Ой О комар Га дерево Ги девять
3x Группа Ке Игра Ко Идти са С Джи уксус З Се Зе Так Зо Та
4x да кровь Ух ты цу Те де к де На Д Ню Не из Ха
5x Ба год Привет Би Пи центр Бу П Ф Быть Пе Хо Бо По Ма Ми
6x Му Почта Мо Ча Да ты Ю йоу Йо Ла Ли ле Ре Б Ва
7x горе хм В Ка га

Набор символов 0x26 (номер строки 6, греческий)

[ редактировать ]

Эта строка содержит базовую поддержку современного греческого алфавита без диакритических знаков и последней сигмы .

Сравните строку 6 GB 2312 и GB 12345 и строку 6 KPS 9566 , которые включают те же греческие буквы в той же раскладке, хотя GB 12345 добавляет вертикальные формы представления, а KPS 9566 добавляет римские цифры. Сравните и сопоставьте строку 5 KS X 1001 , в которой греческие буквы смещены, чтобы сначала включить римские цифры.

JIS X 0208 (с префиксом 0x26)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x А Б С Д Э Г ИЛИ че я К л М Н Х ТО
3x П Р С Т Да Ф Х P.S. Ой
4x а б с д е г или я я Мистер л м н х тот
5x п р п т ты ж час п ой
6x
7x

Набор символов 0x27 (номер строки 7, кириллица)

[ редактировать ]

Этот ряд содержит современный русский алфавит и не обязательно достаточен для представления других форм кириллицы .

Сравните строку 7 GB 2312 , которая соответствует этой строке. Сравните и сопоставьте строку 12 KS X 1001 и строку 5 KPS 9566 , в которых используется одинаковая компоновка (но в другом ряду).

JIS X 0208 (с префиксом 0x27)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x А Б В Г Д Хорошо Или Же С И И К л М Н
3x О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Да Ь Э
4x Ю Я
5x а б в г д является или же с и и к л м н
6x о п р с т у ф х час час ш щ ъ й ь э
7x ю я

Набор символов 0x28 (номер строки 8, рисунок рамки)

[ редактировать ]

Все символы в этом наборе были добавлены в 1983 году и не присутствовали в исходной версии стандарта 1978 года.

JIS X 0208 (с префиксом 0x28)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x
3x
4x
5x
6x
7x

Набор символов расширения 0x2D (номер строки 13, специальные символы NEC)

[ редактировать ]

Строки с 9 по 15 стандарта JIS X 0208 остаются пустыми.

Однако следующая схема для строки 13, впервые представленная NEC , является распространенным расширением. Он используется (с небольшими изменениями, отмеченными в сносках) Windows-932. [3] (который соответствует стандарту кодирования WHATWG , используемому в HTML5 ), варианту PostScript (но, начиная с версии KanjiTalk 7, это не обычный вариант) [5] MacJapanese . и JIS X 0213 (преемник JIS X 0208) [5] [6] В отличие от других расширений, созданных Windows-932/WHATWG и JIS X 0213, они совпадают, а не конфликтуют, поэтому декодирование большей части этой строки поддерживается лучше, чем другие расширения, созданные JIS X 0213.

Специальные символы NEC для JIS X 0208 (с префиксом 0x2D)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x
3x [г]
4x
5x [г] [час]
6x
7x [я] [я] [я] [я] [я] [я] [я] [я] [я] [г] [г]

Кандзи строки

[ редактировать ]

Структура кода

[ редактировать ]

Для представления кодовых точек номера столбцов/строк используются для однобайтовых кодов, а номера кутенов используются для двухбайтовых кодов. Для идентификации символа вне зависимости от кода используются имена символов.

Однобайтовые коды

[ редактировать ]

Почти все коды графических символов JIS X 0208 представлены двумя байтами по крайней мере по семь бит каждый. Однако каждый управляющий символ , а также простое пространство (но не идеографическое пространство ) представлены однобайтовым кодом. Для представления битовой комбинации ( ビット組合せ , bitto kumiawase ) однобайтового кода два десятичных числа – номер столбца и номер строки используются . Три старших бита из семи или четыре старших бита из восьми, считая от нуля до семи или от нуля до пятнадцати соответственно, образуют номер столбца. Четыре младших бита от нуля до пятнадцати образуют номер строки. Каждое десятичное число соответствует одной шестнадцатеричной цифре. Например, битовая комбинация, соответствующая графическому символу «пробел», равна 010 0000 как 7-битному числу и 0010 0000 как 8-битному числу. В обозначении столбца/строки это представлено как 2/0. Другие представления того же однобайтового кода включают 0x20 в шестнадцатеричном виде или 32 в виде одного десятичного числа.

Кодовые точки и кодовые номера

[ редактировать ]

Двухбайтовые коды разбиты на 94 пронумерованные группы, каждая из которых называется строкой ( , ку , букв. «раздел») . Каждая строка содержит 94 пронумерованных кода, каждый из которых называется ячейкой ( , десять , букв. «точка») . [Дж] Всего получается 8836 (94 × 94) возможных кодовых точек (хотя не все назначены, см. ниже); В стандарте они представлены в виде кодовой таблицы из 94 строк и 94 столбцов.

Номер строки и номер ячейки (каждая из которых пронумерована от 1 до 94 для стандартного кода JIS X 0208) образуют точку кутен ( 区点 ) , которая используется для представления двухбайтовых кодовых точек. Кодовый номер или кутен номер ( 区点番号 , kuten bangō ) выражается в форме «строка-ячейка», при этом номера строки и ячейки разделяются дефисом . Например, символ « » имеет кодовую точку в строке 16, ячейке 1, поэтому его кодовый номер представлен как «16-01».

В 7-битном JIS X 0208 (который может быть переключен в JIS X 0202/ ISO-2022-JP ) оба байта должны быть из 94-байтового диапазона от 0x21 (используется для номера строки или ячейки 1) до 0x7E ( используется для номера строки или ячейки 94) — точно соответствует диапазону, используемому для печати 7-битных символов ASCII, не считая пробела. Соответственно, закодированные байты получаются добавлением к каждому числу 0x20 (32). [7] Например, приведенный выше пример 16-01 («亜») будет представлен байтами 0x30 0x21. Вместо этого 8-битный EUC-JP использует диапазон от 0xA1 до 0xFE (устанавливая старший бит на 1), тогда как другие кодировки, такие как Shift JIS, используют более сложные преобразования. Shift JIS включает больше места для кодирования, чем необходимо для самого JIS X 0208; некоторые расширения JIS X 0208, специфичные для Shift JIS, используют номера строк выше 94. [8]

Эта структура также используется в GB 2312 материкового Китая , где она изначально известна как 区位 ; qūwèi и южнокорейский KS C 5601 (в настоящее время KS X 1001 ), где ку и тен соответственно известны как ханг. [9] ( ; ; хэн ) и йол [9] ( ; ; ёль ). Более поздний JIS X 0213 расширяет эту структуру, имея более одной плоскости ( , men , букв. «лицо») строк, что также является структурой, используемой CNS 11643 , и связано со структурой, используемой CCCII .

Неназначенные кодовые точки

[ редактировать ]

Среди 2-байтовых кодов строки с 9 по 15 и с 85 по 94 являются неназначенными кодовыми точками ( 空き領域 , aki ryōiki ) ; то есть это кодовые точки, которым не присвоены никакие символы. Кроме того, некоторые ячейки в других строках также по существу являются неназначенными кодовыми точками.

Эти пустые области содержат кодовые элементы, которые в принципе не следует использовать. За исключением случаев, когда имеется предварительное соглашение между соответствующими сторонами, символы ( гайдзи ) для обмена информацией не должны назначаться неназначенным кодовым точкам.

Даже при присвоении символов неназначенным кодовым точкам им не следует назначать графические символы, определенные в стандарте, и один и тот же символ не следует назначать нескольким неназначенным кодовым точкам; символы не должны дублироваться в наборе.

Более того, при назначении символов неназначенным кодовым точкам необходимо соблюдать осторожность в отношении унификации глифов кандзи. Например, строка 25, ячейка 66 соответствует кандзи, означающему «высокий» или «дорогой»; как форма с компонентом, напоминающим символ «рот» ( ) в середине ( ), так и менее распространенная форма с лестничной конструкцией в том же месте ( ) включены в одну и ту же кодовую точку. Следовательно, ограничение точки 25–66 формой «рот» и присвоение последней формы «лестницы» неназначенной кодовой точке технически будет нарушением стандарта.

Однако на практике несколько Shift JIS вариантов , специфичных для конкретного поставщика, включая Windows-932 и MacJapanese , кодируют расширения поставщика в нераспределенных строках пространства кодирования для JIS X 0208. Кроме того, большинство кодов, не назначенных в JIS X 0208, назначаются новый стандарт JIS X 0213 .

Имена персонажей

[ редактировать ]

Каждому символу JIS X 0208 присвоено имя . Используя имя персонажа, можно идентифицировать персонажей, не полагаясь на их коды. Имена символов скоординированы с другими стандартами наборов символов, в частности с универсальным набором кодированных символов (UCS/ Unicode ), поэтому это один из возможных источников сопоставления символов с наборами символов, такими как Unicode. Например, как символ в ISO/IEC 646 столбце 4 столбца 1 Международной справочной версии ( US-ASCII ), так и символ в строке 3 JIS X 0208, ячейке 33, имеют имя «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A». Следовательно, символ 4/1 в ASCII и символ 3–33 в JIS X 0208 можно рассматривать как один и тот же символ (хотя на практике альтернативное сопоставление для символа JIS X 0208 используется из-за кодировок, предоставляющих ASCII отдельно). ). И наоборот, символы ASCII 2/2 (кавычка), 2/7 (апостроф), 2/13 (дефис-минус) и 7/14 (тильда) могут быть определены как символы, не существующие в этом стандарте.

В именах символов, не являющихся кандзи, используются заглавные латинские буквы, пробелы и дефисы. Символам, не являющимся кандзи, дается общее японское имя ( 日本語通用名称 , Нихонго цуё мейсё ) , но некоторых положений для этих имен не существует. [к] Названия кандзи, с другой стороны, автоматически задаются в соответствии с соответствующим шестнадцатеричным представлением их кода в UCS/Unicode. Название кандзи можно получить, добавив к кодовому знаку Юникода «CJK UNIFIED IDEOGRAPH-». Например, ячейка 1 строки 16 ( ) соответствует U+4E9C в UCS, поэтому ее имя будет «CJK UNIFIED IDEOGRAPH-4E9C». Кандзи не имеют общепринятых японских имен.

Набор кандзи

[ редактировать ]

JIS X 0208 предписывает набор из 6879 графических символов, которые соответствуют двухбайтовым кодам с семью или восемью битами в байте; в JIS X 0208 это называется набором кандзи ( 漢字集合 , кандзи сюго ) , который включает 6355 кандзи, а также 524 не-кандзи ( 非漢字 , хикандзи ) , включая такие символы, как латинские буквы , кана и т. д.

Специальные символы
Занимает строки 1 и 2. Имеется 18 символов-дескрипторов ( дескриптивных символов , кидзюцу киго ), таких как «идеографическое пространство» (   ), а также японская запятая и точка ; восемь диакритических знаков, таких как дакутен и хандакутен , 10 символов для последующих букв ; кана или кандзи ( кана или эквивалент кандзи кана ни дзюндзиру моно ), как знак итерации ( , ( символ скобки какко киго ) ; 45 математических символов , академический символ такие гакудзюцу киго ) ; мата ва кандзи , который включает знак валюты и почтовую марку , всего 147 символов.
Цифры
Занимает часть строки 3. Десять цифр от «0» до «9».
Латинские буквы
Занимает часть третьего ряда. 26 букв английского алфавита в верхнем и нижнем регистре, всего 52.
Хирагана
Занимает 4-й ряд. Содержит 48 глухих кан (включая устаревшие ви и мы ), 20 звонких кан ( дакутен ), 5 полуголосых кан ( хандакутен ), 10 малых кан для палатализированных и усваиваемых звуков, всего 83 символа.
Катакана
Занимает 5-ю строку. Всего 86 символов; в дополнение к катакане, эквивалентной символам хираганы, маленькой ка / ке кана ( / ) и ву кана ( ).
Греческие буквы
Занимает строку 6. 24 буквы греческого алфавита в верхнем и нижнем регистре (без последней сигмы ), всего 48.
Кириллические буквы
Занимает 7-й ряд. 33 буквы русского алфавита в верхнем и нижнем регистре, всего 66.
Персонажи, рисующие коробки
Занимает ряд 8. Тонкие сегменты, толстые сегменты и смешанные тонкие и толстые сегменты, всего 32.
Кандзи
2965 символов 1-го уровня ( 第1水準 , дайичи суйджун ) с 16 по 47 строку и 3390 символов 2 уровня ( 第2水準 , дай ни суйджун ) с 48 по 84 строку, всего 6355.

Специальные символы, цифры и латинские символы

[ редактировать ]

Что касается специальных символов в наборе кандзи, то некоторые символы из набора графических символов Международной справочной версии (IRV) стандарта ISO/IEC 646 :1991 (эквивалент ASCII ) отсутствуют в JIS X 0208. Существуют вышеупомянутые четыре символа. «КАВЫЧКИ», «АПОСТРОФ», «ДЕФИС-МИНУС» и «ТИЛЬДА». Первые три разделены на разные кодовые точки в наборе кандзи (Нишимура, 1978; стандарт JIS X 0221-1:2001, раздел 3.8.7). «ТИЛЬДА» в IRV не имеет соответствующего символа в наборе кандзи.

В следующей таблице рассматриваемые символы IRV ISO/IEC 646:1991 сравниваются с их многочисленными эквивалентами в JIS X 0208, за исключением символа IRV «TILDE», который сравнивается с «WAVE DASH» из JIS X 0208. Записи в столбцах «Символ» используют кодовые точки UCS/Unicode, поэтому особенности отображения могут отличаться.

Символам ASCII/IRV без точных эквивалентов JIS X 0208 позже были присвоены кодовые точки JIS X 0213 , они также перечислены ниже, как и Microsoft сопоставление четырех символов .

Нестрогое соответствие между ISO/IEC 646:1991 IRV (ASCII) и JIS X 0208.
ИСО/МЭК 646:1991 ИРВ ДЖИС Х 0208
Столбец/строка x0213 [6] Майкрософт Символ Имя Как Символ Имя
2/2 1-2-16 92-94 [А]
115-24 [Б]
" КАВЫЧКИ 1-15 ¨ ДИЭРЕЗ
1-40 ЛЕВАЯ ДВОЙНАЯ КАВЫКА
1-41 ПРАВАЯ ДВОЙНАЯ КАВЫКА
1-77 ДВОЙНОЙ ПРАЙМ
2/7 1-2-15 92-93 [А]
115-23 [Б]
' АПОСТРОФ 1-13 ´ ОСТРЫЙ АКЦЕНТ
1-38 ЛЕВАЯ ОДИНАРНАЯ КАВЫКА
1-39 ПРАВАЯ ОДИНАРНАЯ КАВЫКА
1-76 ОСНОВНОЙ
2/13 1-2-17 1-61 [С] - ДЕФИС-МИНУС 1-30 ДЕФИС
1-61 ЗНАК МИНУС
7/14 1-2-18 1-33 [Д] ~ ТИЛЬДА (нет соответствующего символа)
(нет соответствующего символа) 1-33 ВОЛНА РЫЧАГ [Д]
  1. ^ Перейти обратно: а б Из «Выбора расширений IBM NEC». Занимает кодовую точку, нераспределенную в JIS X 0208.
  2. ^ Перейти обратно: а б Из «Расширений IBM». Вне диапазона JIS X 0208, но кодируется в Shift_JIS.
  3. ^ Microsoft рассматривает знак минус JIS как полноширинную форму дефиса-минус.
  4. ^ Перейти обратно: а б Wave Dash иногда рассматривается как полноширинная форма тильды, например, Microsoft (см. Tilde § Unicode и Shift JIS-кодирование волнового тире ). Тильда ASCII /IRV — это неоднозначный кодовый знак, который может отображаться либо как знак ударения тильды (˜), либо как тире с той же кривизной (∼), хотя тире встречается чаще из-за пробельного акцента, имеющего отдельную кодовую точку. в Windows-1252 ; для акцента тильды нет символа JIS X 0208. Символ 1-2-18 в JIS X 0213 отображается в таблице кодов как знак тильды. [6]

Это означает, что набор кандзи является наиболее распространенным набором символов, не совместимым с предыдущими версиями, в мире; это считается одним из слабых мест этого стандарта.

Даже несмотря на то, что набор кандзи и набор IRV имеют 90 общих специальных символов, цифр и латинских букв, этот стандарт не соответствует структуре ISO/IEC 646. Эти 90 символов разделены между строками 1 (пунктуация) и 3 ( буквы и цифры), хотя строка 3 соответствует стандарту ISO 646 только для 62 букв и цифр (например, 4/1 («А») в ISO 646 становится 2/3 4/1 (т.е. 3-33) в JIS X 0208).

Что касается причины того, что эти цифры, латинские буквы и т. д. в наборе кандзи являются «полноширинными буквенно-цифровыми символами» ( 全角英数字 , zenkaku eisūji ) , и как исходная реализация имела другую интерпретацию по сравнению с IRV, считается, что это происходит из-за этой несовместимости.

Со времен первого стандарта стало возможным представлять составные элементы ( 合成 , gōsei ), такие как числа в кружочках , лигатуры для названий единиц измерения и римские цифры ; [10] им не были предоставлены независимые кодовые точки кутен . Хотя отдельные компании, производящие информационные системы, могут попытаться представить эти символы так, как того требуют клиенты, исходя из состава символов, ни одна из них не просила добавить их в стандарт, вместо этого предпочитая предлагать их как гайдзи .

В четвертом стандарте (1997 г.) все эти символы были явно определены как символы, сопровождающие продвижение по текущей позиции; то есть это пробельные символы . Более того, было постановлено, что они не должны составляться по составу персонажей. По этой причине стало запрещено представлять латинские символы с диакритическими знаками вообще , возможно, за единственным исключением символа ангстрема ( Å ) в строке 2, ячейке 82.

Хирагана и катакана

[ редактировать ]

Хирагана , и катакана в JIS X 0208, в отличие от JIS X 0201 включают маркировку дакутен и хандакутен как часть символа. Также включены катакана ви ( ) и мы ( ) (оба устаревшие в современном японском языке), а также маленькая ва ( ) , которой нет в JIS X 0201.

катаканы в JIS X В в JIS X 0208 отличается от расположения Расположение каны JIS 0201. кана также в порядке годзюон ( woaaaaaayyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy ) С другой стороны, в JIS X 0208 кана является сначала отсортировано по годзюону затем в порядке «маленькая кана, полноразмерная кана, кана с дакутеном и кана с хандакутеном», так что одна и та же основная кана сгруппирована со своими производными ......Хабапахипифубупухебепе почти по..... .wawawaieeon ). Этот порядок был выбран для того, чтобы упростить сортировку словарных поисков на основе кана (Yasuoka, 2006). [л]

Как упоминалось выше, в этом стандарте ранее определенный порядок катаканы в JIS X 0201 не соблюдался в JIS X 0208. Считается, что катакана JIS X 0201, являющаяся « каной половинной ширины », возникла из-за несовместимости с катаканой JIS X 0201. этот стандарт. Этот момент также является одним из слабых мест данного стандарта.

Как кандзи в этом стандарте были выбраны из каких источников, почему они разделены на уровень 1 и уровень 2 и как они устроены, все это подробно объясняется в четвертом стандарте (1997 г.). Согласно этому объяснению, кандзи, включенные в следующие четыре списка кандзи, были отражены в 6349 символах первого стандарта (1978 г.).

  • Список кандзи для стандартного кода (предварительно) ( Стандартный код с китайскими иероглифами (предварительно) , Hyōjun Kōdo-yō Kanjihyō (Shian) )
Комитет по кодированию кандзи Общества обработки информации Японии составил этот список в 1971 году. В приведенных ниже «Результатах анализа соответствия» он составляет 6086 символов.
  • Базовый кандзи для обработки административных данных ( Базовый кандзи для обработки административных данных , Gyosei Jōhō Shoriyō Kihon Kanji )
Выбранный Агентством административного управления Японии в 1975 году, он состоит из 2817 символов. Для получения данных для целей отбора Агентство составило отчет, в котором, начиная с «Списка кандзи для стандартного кода (предварительно)», сопоставлялось несколько списков кандзи. кандзи » выбор « Результаты анализа соответствия и частота использования кандзи для обработки административных данных. Используйте обычный , Kanji no Shiyō Hindo Oyobi Taiō Bunseki Kekka ) «Результаты анализа соответствия» ( Результаты анализа соответствия , Taiō Bunseki Kekka ) . , или для краткости
  • Японское личное регистрационное имя кандзи ( кандзи Нихон Сэймэй Сюё Дзинмей )
Один из списков кандзи, составляющих «Результаты анализа переписки», состоящий из 3044 символов. Его больше не существует. Первоначального списка не существовало для первоначального редакционного комитета; этот список кандзи был отражен в стандарте, который следует за «Результатами анализа соответствия».
  • Кандзи для административного округа ( списка национального Кокудо Гёсей Кукаку Соран Шиё Кандзи )
Один из списков кандзи, составляющих «Результаты анализа корреспонденции», состоящий из 3251 символа. Это кандзи, используемые в списке всех административных географических названий, составленном Японским центром географических данных , «Список национальных административных округов» ( 国土行政区画総覧 , Кокудо Гёсей Кукаку Сёран ) . Первоначальный редакционный комитет не расследовал сам список; кандзи, использованные из этого списка, следовали за «Результатами анализа соответствия».

Во втором и третьем стандартах к уровню 2 добавили четыре и два символа соответственно, в результате чего общее количество кандзи достигло 6355. Кроме того, во втором стандарте были изменены формы символов, а также перестановка между уровнями; в третьем стандарте также были изменены формы символов. Они описаны ниже.

Разделение уровней

[ редактировать ]

2965 кандзи уровня 1 занимают строки с 16 по 47. 3390 кандзи уровня 2 занимают строки с 48 по 84.

Для уровня 1 были выбраны символы, общие для нескольких списков символов кандзи, с использованием кандзи тоё , черновика исправления кандзи тоё и кандзи дзинмейё в качестве основы. Кроме того, были учтены JIS C 6260 («Идентификационный код To-Do-Fu-Ken (префектура)»; в настоящее время JIS X 0401 ) и JIS C 6261 («Идентификационный код для городов, поселков и деревень»; в настоящее время JIS X 0402 ); кандзи почти всех японских префектур , городов, районов, районов, поселков, деревень и т. д. были намеренно помещены на уровень 1. [м] Кроме того, были внесены поправки экспертов.

Уровень 2 был посвящен кандзи, которые появлялись в четырех вышеупомянутых основных списках, но не были выбраны для уровня 1. Как отмечено ниже, кандзи уровня 1 были упорядочены по их произношению, поэтому среди кандзи, произношение которых было трудно определить, были такие, которые на этом основании были переведены с уровня 1 на уровень 2 (Нишимура, 1978).

Из-за этих решений, по большей части, уровень 1 содержит более часто используемые кандзи, а уровень 2 содержит более редко используемые кандзи, но, конечно, они оценивались по стандартам того времени; с течением времени некоторые кандзи уровня 2 стали использоваться более часто, например, один означает «парить» ( ), а другой означает «сверкать» ( ); и наоборот, некоторые кандзи уровня 1 стали редкими, особенно те, которые означают «сантиметр» ( ) и «миллиметр» ( ). Из текущих кандзи дзёё 30 относятся ко второму уровню. [н] а три вообще отсутствуют (塡 , pee‖ и 饠 ). [the] Из текущих кандзи дзинмейё 192 находятся на уровне 2. [п] а 105 не являются частью стандарта. [д]

Договоренность

[ редактировать ]

Кандзи уровня 1 сортируются в порядке «репрезентативного прочтения» каждого из них (т.е. канонического прочтения, выбранного только для целей настоящего стандарта); чтение кандзи для этого может быть чтением он или кун ; показания сортируются в порядке Годзюон . [р] Как правило, чтение «он » (на китайском языке) считается репрезентативным чтением; Если кандзи имеет несколько значений , для репрезентативного чтения используется чтение, которое считается преобладающим в частоте использования (стандарт JIS C 6226-1978, раздел 3.4). Для небольшого процента кандзи, которые либо не имеют надписи «он », либо имеют надпись «он », которая малоизвестна и не широко используется, кун» в качестве репрезентативного чтения использовалось чтение « глагола кун . Если в качестве репрезентативного чтения необходимо использовать чтение рэнъёкэй (а не сюсикэй , используется форма ).

Например, ячейки с 1 по 41 в строке 16 содержат 41 символ, начиная с чтения . Внутри них 22 иероглифа, в том числе 16-10 ( : при чтении « ки »; кун при чтении « аой ») и 16-32 ( : при чтении « дзоку » и « шоку »; кун при чтении « ава »). на основе своих кун показаний. 16-09 ( : при чтении « хо », кун при чтении « а(и) ») и 16-23 ( : при чтении « со » и « кю », кун при чтении « ацука(и) ») - это всего лишь два примеры глаголов в форме рэнъёкей, используемых для репрезентативного чтения.

Если репрезентативное чтение одинаково для разных кандзи, кандзи, в котором используется чтение «он» , помещается перед кандзи, в котором используется чтение «кун» . Если значения он или кун одинаковы для более чем одного кандзи, они затем упорядочиваются по их основному радикалу и количеству штрихов .

Будь то уровень 1 или уровень 2, итайдзи устроены так, чтобы напрямую следовать своей образцовой форме. Например, на уровне 2, сразу после строки 49, ячейки 88 ( ), следующие символы отклоняются от общего правила (в данном случае количества штрихов) и включают три варианта 49–88 ( , и ). [с]

Кандзи на уровне 2 расположены в порядке количества основных радикалов и штрихов. Если эти два свойства одинаковы для разных кандзи, они затем сортируются путем чтения.

Кандзи из неизвестных источников

[ редактировать ]
Кандзи, источники которых неясны, неизвестны или иным образом не идентифицируются, в JIS X 0208:1997, Приложение 7.
Как Символ Classi­fi­ca­tion
52-55 Неизвестный
52-63 банка Неизвестный
54-12 Источник неясен
55-27 Un­iden­ti­fiable
57-43 Источник неясен
58-83 Источник неясен
59-91 Источник неясен
60-57 Источник неясен
74-12 Источник неясен
74-57 ты Источник неясен
79-64 евнух Источник неясен
81-50 пистолет Источник неясен

Было отмечено, что в наборе кандзи есть кандзи, которых нет в полных, полных словарях кандзи, и что их источники неизвестны. Например, всего через год после того, как был установлен первый стандарт, Тадзима (1979) сообщил, что он подтвердил 63 кандзи, которых не было ни в Синдзигене (большом словаре кандзи, опубликованном Kadokawa Shoten ), ни в Дай Кан-Ва дзитэн. , и они не имели смысла как рякудзи никакого ; он отметил, что было бы предпочтительнее, чтобы кандзи, отсутствующие в словарях кандзи, были выбраны из определенных источников. Эти кандзи стали известны как «призрачные» символы ( 幽霊文字 , yūrei moji ) или «призрачные кандзи» ( 幽霊漢字 , yūrei kanji ) , а также другие имена.

Редакционный комитет четвертой версии стандарта также увидел проблему в существовании кандзи с неизвестными источниками и поэтому провел расследование, на какие источники ссылался редакционный комитет первой версии. В результате выяснилось, что первоначальный редакционный комитет в значительной степени полагался на «результаты анализа корреспонденции» для сбора кандзи. Когда редакционный комитет исследовал «Результаты анализа соответствия», стало ясно, что многие кандзи, включенные в набор кандзи, но не найденные в исчерпывающих словарях кандзи, предположительно произошли из «Японских кандзи имени регистрации личности» и «Кандзи для национального административного округа». Листинг», упомянутые в «Результатах анализа корреспонденции».

Было подтверждено, что исходного текста «Японского регистрационного имени кандзи», упомянутого в «Результатах анализа соответствия», не существует. Для «Списка национальных административных округов» Сасахара Хироюки из редакционного комитета четвертой версии изучил кандзи, появившиеся на страницах незавершенной разработки первого стандарта. Комитет также ознакомился со многими древними писаниями, а также со многими примерами личных имен в базе данных телефонных книг NTT .

Благодаря этому тщательному расследованию комитету удалось сократить количество кандзи, источник которых невозможно с уверенностью объяснить, до двенадцати, показанных в соседней таблице. Предполагается, что из них несколько символов возникли из-за ошибок копирования. В частности, 妛, вероятно, возник, когда принтеры пытались создать 𡚴, вырезая и склеивая 山 и 女 вместе. Тень от этого процесса была ошибочно интерпретирована как линия, в результате чего получилось 妛 (изображение этого можно найти в кандзи Дзёё дзитэн ).

Унификация вариантов кандзи

[ редактировать ]

Согласно спецификациям четвертого стандарта (1997 г.), унификация ( 包摂 , хосетсу , не тот же термин, который используется для » Юникода « унификации , хотя это почти та же концепция) — это действие по присвоению символу одной и той же кодовой точки. безотносительно к различным формам его характера. В четвертом стандарте разрешенное количество символов ограничено; степень, в которой отдельные аллографические глифы объединены в графемный четко определена код.

Более того, согласно спецификациям стандарта, глиф ( 字体 , дзитай , букв. «тело символа»;) представляет собой абстрактное понятие графического представления графического символа; ( форма символа 字形 , дзикей , букв. «форма символа»; в некотором смысле также «глиф», но дифференцированная на другом уровне в целях стандартизации) — это представление в виде графической формы, которую глиф принимает в действительности (например, из-за к глифу, написанному от руки, напечатанному, отображенному на экране и т. д.). Для одного глифа существует бесконечный диапазон возможных конкретно и/или визуально различных форм символов. Вариация формы одного глифа называется «разницей в дизайне» ( デザインの差 , dezain no sa ) .

Степень, в которой глиф объединен с одной кодовой точкой, определяется в соответствии с «примером глифа» этой кодовой точки ( 例示字体 , рейджи джитай ) и «критериями объединения» ( 包摂規準 , хосетсу киджун ) , которые можно применить к этому примеру. глиф; то есть пример глифа для кодовой точки применяется к этой кодовой точке, и любые глифы, для которых части, составляющие пример глифа, заменены в соответствии с критериями унификации, также применяются к этой кодовой точке.

Например, пример глифа 33–46 ( ) состоит из радикала 9 ( ) и кандзи, который в конечном итоге породил со кана ( ). Кроме того, в критерии объединения 101 отображаются три кандзи: первый принимает форму, наиболее часто встречающуюся в японском языке ( ); второй содержит более традиционную форму ( ), в которой первые две черты образуют радикал 12 (кандзи-цифра 8: ); а третий подобен второму, за исключением того, что радикал 12 перевернут ( ). Следовательно, все три перестановки ( , , ) применимы к кодовой точке в строке 33, ячейке 46.

В четвертом стандарте, включая одну из опечаток для первого издания, имеется 186 критериев унификации.

Если пример глифа кодовой точки состоит из более чем одной части глифа, критерии унификации могут быть применены к каждой части. После того, как критерий унификации применен к одной части глифа, к этой части больше не могут быть применены критерии унификации. Кроме того, критерий унификации не допускается применять, если результирующий глиф полностью совпадет с глифом другой кодовой точки.

Пример глифа — это не более чем пример этой кодовой точки; это не глиф, «одобренный» стандартом. Кроме того, критерии унификации необходимо использовать только для общеупотребительных кандзи и с целью присвоения вещам кодовых точек этого стандарта. Стандартные требования не создавать обычно неиспользуемые кандзи на основе примеров глифов и критериев унификации.

Кандзи набора кандзи выбраны не совсем последовательно по критериям унификации. Например, хотя 41-7 соответствует форме, в которой третья и четвертая черточки пересекаются ( ), а также форме, где они не пересекаются ( ) согласно критерию объединения 72, 20-73 соответствует только форме, в которой они не пересекаются (彥). не пересекать ( ), а 80-90 соответствует только форме, в которой они пересекаются ( ).

Термины «унификация», «критерии унификации» и «пример глифа» были приняты в четвертом стандарте. С первой по третью версию кандзи и отношения между кандзи были сгруппированы в три типа: «независимые» ( 独立 , докурицу ) , «совместимые» ( 対応 , тайо ) , и «эквивалентные» ( 同値 , дочи ) ; было объяснено, что символы, признанные эквивалентными, «объединяются в одну точку». В «эквивалентность» включены кандзи, за исключением кандзи абсолютно одинаковой формы, кандзи с различиями в стиле и кандзи, в которых разница в форме символов невелика.

В первом стандарте оговаривалось, что «настоящий стандарт... не устанавливает особенностей форм символов» (раздел 3.1); в нем также говорится, что «цель этого стандарта состоит в том, чтобы установить общее представление о символах и их кодах; дизайн форм их символов и тому подобное выходит за рамки его компетенции». Во втором и третьем стандартах также имеются замечания о том, что конкретные конструкции форм символов выходят за рамки его применения (примечание к п. 1). Четвертый стандарт также предусматривает, что «Настоящий стандарт регулирует графические символы, а также их битовые комбинации, а использование, конкретные конструкции отдельных символов и т. д. не входят в сферу применения настоящего стандарта» (JIS X 0208:1997, пункт 1). ).

Критерии унификации совместимости

[ редактировать ]

В четвертом стандарте определены «критерии унификации для обеспечения совместимости с предыдущими стандартами» ( 過去の規格との互換性を維持するための包摂規準 , kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun ) . Их применение ограничено 29 кодовыми точками, символы которых сильно различаются в зависимости от стандартов JIS C 6226-1983 и последующих версий и JIS C 6226-1978. Для этих 29 кодовых точек глифы из JIS C 6226-1983 и далее отображаются как «A», а глифы из JIS C 6226-1978 как «B». На каждом из них могут быть нанесены глифы как «А», так и «Б». Однако, чтобы заявить о совместимости со стандартом, необходимо явно указать, использовалась ли форма «A» или «B» для каждой кодовой точки.

Кодировки символов

[ редактировать ]

Схемы кодирования, предусмотренные JIS X 0208.

[ редактировать ]

В JIS X 0208:1997 статья 7 в сочетании с приложениями 1 и 2 определяет в общей сложности восемь схем кодирования.

В приведенных ниже описаниях области «CL» (элемент управления слева), «GL» (график слева), «CR» (элемент управления справа) и «GR» (график справа) соответственно в обозначении столбца/строки от 0. с /0 по 1/15, с 2/1 по 7/14, с 8/0 по 9/15 и с 1/10 по 15/14. Каждому коду 2/0 присвоен графический символ «ПРОБЕЛ», а 7/15 – управляющий символ «УДАЛЕНИЕ». Управляющие символы C0 (определенные в JIS X 0211 и соответствующие ISO/IEC 6429 ) назначены региону CL.

7-битная кодировка кандзи
Предусмотрено в самом стандарте. Двухбайтовый набор JIS X 0208 назначен региону GL.
8-битная кодировка кандзи
Предусмотрено в самом стандарте. То же, что и 7-битное кодирование, но определяется в виде 8-битных байтов. Область CR может не использоваться или кодировать управляющие символы C1 из JIS X 0211. Область GR не используется.
Международная справочная версия + 7-битная кодировка кандзи
Предусмотрено в самом стандарте. Сдвиг управляющего символа обозначает ISO/IEC 646 :1991 IRV (международную справочную версию, эквивалентную US-ASCII ) в регион GL. Выходной сдвиг обозначает двухбайтовый набор JIS X 0208 в том же регионе.
Латинские символы + 7-битная кодировка кандзи
Предусмотрено в самом стандарте. Как и в случае с IRV+7-бит, но в ISO/IEC 646:IRV заменен на ISO/IEC 646:JP (римский набор JIS X 0201 ).
Международная справочная версия + 8-битная кодировка кандзи
Предусмотрено в самом стандарте. ISO/IEC 646:IRV присвоен региону GL, JIS X 0208 — региону GR. По сути, это подмножество EUC-JP , за исключением катаканы половинной ширины из JIS X 0201 и дополнительных кандзи из JIS X 0212 .
Латинские символы + 8-битная кодировка кандзи
Предусмотрено в самом стандарте. Как и в случае с IRV+8-бит, но ISO/IEC 646:IRV заменен на ISO/IEC 646:JP.
Набор символов со сдвигом
Оговорено в Приложении 1: «Представление с кодированием сдвига» ( Shift-Coded Representation , Шифуто Фугока Хёгэн ) . Авторитетное определение Shift JIS .
Набор символов в кодировке RFC 1468
Указано в Приложении 2: «Представление в коде RFC 1468» ( RFC 1468符号化表現 , RFC 1468 Fugōka Hyōgen ) . Напоминает ISO-2022-JP (который официально определен в RFC 1468), но определяется в виде восьмибитных байтов, тогда как ISO-2022-JP определяется в виде семибитных байтов.

зарегистрирована только кодировка символов «Shift» Среди кодировок, предусмотренных четвертым стандартом, IANA . [11] Однако некоторые другие тесно связаны с кодировками, зарегистрированными в IANA и определенными в других местах (EUC-JP и ISO-2022-JP).

Escape-последовательности для JIS X 0202/ISO 2022

[ редактировать ]

JIS X 0208 может использоваться в составе ISO 2022 /JIS X 0202 (подмножеством которого является ISO-2022-JP). для Escape-последовательности обозначения JIS X 0208 для каждого из четырех наборов кодов ISO 2022 перечислены ниже. Здесь «ESC» относится к управляющему символу « Escape » (0x1B или 1/11).

Escape-последовательности ISO 2022 для выбора JIS C 6226 и JIS X 0208.
Стандартный G0 Г1 G2 G3
78 ЭКУ 2/4 4/0 ЭКУ 2/4 2/9 4/0 ЭКУ 2/4 2/10 4/0 ЭКУ 2/4 2/11 4/0
83 ЭКУ 2/4 4/2 ЭКУ 2/4 2/9 4/2 ЭКУ 2/4 2/10 4/2 ЭСК 2/4 2/11 4/2
90 и далее ЭКУ 2/6 4/0 ЭКУ 2/4 4/2 ЭКУ 2/6 4/0 ЭКУ 2/4 2/9 4/2 ЭКУ 2/6 4/0 ЭКУ 2/4 2/10 4/2 ЭКУ 2/6 4/0 ЭКУ 2/4 2/11 4/2

Escape-последовательность, начинающаяся с ESC 2/4, выбирает многобайтовый набор символов. Escape-последовательность, начинающаяся с ESC 2/6, указывает пересмотр предстоящего выбора набора символов. JIS C 6226:1978 идентифицируется байтом идентификатора с многобайтовым набором 94 4/0 (соответствует ASCII @). JIS C 6226:1983 / JIS X 0208:1983 идентифицируется байтом идентификатора с многобайтовым набором 94 4/2 ( B). JIS X 0208:1990 также идентифицируется 94-значным байтом идентификатора 4/2, но его можно отличить по идентификатору версии 4/0 ( @).

Дублирующиеся кодировки ASCII и JIS X 0201.

[ редактировать ]

При использовании набора кандзи этого стандарта либо с набором графических символов ISO/IEC 646:1991 IRV ( ASCII ), либо с набором графических символов JIS X 0201 для латинских символов ( JIS-Roman ), обработка символов, общих для обоих наборов, становится проблематично. Если не принять специальных мер, символы, включенные в оба набора, не все сопоставляются друг с другом один к одному, и одному символу может быть присвоено более одной кодовой точки; то есть это может привести к дублированию кодировки.

JIS X 0208:1997, когда символ является общим для обоих наборов, по сути запрещает использование кодовой точки в наборе кандзи (который является одной из двух кодовых точек), исключая дублирование кодировок. Принято считать, что персонажи с одинаковым именем являются одним и тем же персонажем.

Например, и имя символа, соответствующего битовому шаблону 4/1 в ASCII, и имя символа, соответствующего ячейке 33 строки 3 набора кандзи, — это «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A». В Международной справочной версии + 8-битный код для кандзи, будь то битовая комбинация 4/1 или битовая комбинация, соответствующая ячейке 33 строки 3 набора кандзи (10/3 12/1), буква « A » (т.е. «ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА А»). Стандарт запрещает использование битового шаблона «10/3 12/1» в попытке устранить дублирующую кодировку.

Принимая во внимание реализации, которые рассматривают символы кодовых точек в наборе кандзи как « полноширинные символы », а символы ASCII или JIS-Roman как разные символы, использование кодовых точек набора кандзи разрешено только ради обратная совместимость. Например, в целях обратной совместимости разрешено считать 10/3 12/1 в международной эталонной версии + 8-битный код для кандзи соответствующим полноширинному символу «A».

Если набор кандзи используется вместе с ASCII или JIS-Roman, то даже при строгом соблюдении стандарта уникальность кодировки символа не гарантируется. Например, в Международной справочной версии + 8-битный код для кандзи допустимо представлять дефис с битовой комбинацией 2/13 для символа «ДЕФИС-МИНУС», а также с строкой 1 набора кандзи, ячейкой 30. (битовый шаблон 10/1 11/14) для символа «ДЕФИС». Кроме того, стандарт не определяет, какой из двух для чего использовать, поэтому дефису не присваивается одна уникальная кодировка. Та же проблема касается знака минус , кавычек и так далее.

Более того, даже если набор кандзи используется как отдельный код, нет никакой гарантии, что будет реализована уникальная кодировка символов. » полной ширины Однако во многих случаях « ИДЕОГРАФИЧЕСКОЕ ПРОСТРАНСТВО в строке 1, ячейке 1 и пространство половинной ширины (2/0) сосуществуют. Чем эти два понятия должны отличаться, неочевидно и не указано в стандарте.

Сравнение схем кодирования, используемых на практике

[ редактировать ]
Кодирование Альтернативное название 7-битный? [А] ИСО 2022 ? State­less? [Б] Принимает ASCII ? 0x00–7F всегда ASCII? Расширенный набор 8-битного JIS X 0201 ? Поддерживает JIS X 0212 ? Побайтовая самосинхронизация? Побитовая самосинхронизация?
ISO-2022-JP « ДЖИС » (JIS X 0202) Да Да Нет [С] Да Последовательности могут быть не в формате ASCII. [С] Нет (возможно кодирование) [Д] Возможный [И] Нет Нет
Shift_HE "СЖИС" Нет Нет Да Почти [Ф] Изолированные байты могут быть не ASCII. [Г] Да Нет Нет Нет
EUC-JP «ЮЖИС» (Унифицированный JIS) Нет Да [ЧАС] Да [ЧАС] Обычно [Я] Да Нет (закодировано) [Дж] Обычно доступен [К] Нет Нет
Форматы Юникода для сравнения [Л]
UTF-8  Нет Нет Да Да Да Нет (закодировано) Доступный Да Обычно [М]
UTF-16 «Юникод» [Н] Нет Нет Да Нет Нет Нет (закодировано) Доступный Только слова длиной более 16 бит. Нет
ГБ 18030  Нет Нет [ТО] Да Да Изолированные байты могут быть не ASCII. Нет (закодировано) Доступный Нет Нет
UTF-32  Нет Нет Да Нет Нет Нет (закодировано) Доступный Обычно на практике [П] Нет
  1. ^ т.е. не требует 8-битной чистой передачи.
  2. ^ т.е. последовательность, используемая для кодирования данного символа, всегда одинакова, независимо от того, какими были предыдущие символы. См. состояние (информатика) .
  3. ^ Перейти обратно: а б ISO-2022-JP — это кодировка с отслеживанием состояния : все кодировки кодируются с помощью 0x21–7E и переключаются между ними с помощью escape-символов ANSI. Следовательно, хотя в исходном состоянии это ASCII, целые последовательности символов, отличных от ASCII, могут быть закодированы байтами ASCII.
  4. ^ Катакана JIS X 0201 доступна в JIS X 0202 и ISO 2022, но не включена в базовый профиль ISO-2022-JP, хотя они являются общим расширением.
  5. ^ JIS X 0212 доступен в JIS X 0202 и ISO 2022 и включен в профили ISO-2022-JP-1 и ISO-2022-JP-2, но не в базовый профиль ISO-2022-JP.
  6. ^ Однобайтовые символы 0x21–7E в Shift_JIS правильно представляют собой ISO-646-JP , чтобы быть расширенным набором 8-битного JIS X 0201, но часто декодируются (не обязательно отображаются) как ASCII, который отличается только в двух местах.
  7. ^ Некоторые (не все) байты ASCII могут отображаться как вторые, но не первые байты двухбайтовых символов в Shift_JIS. Следовательно, в последовательности из двух или более байтов ASCII второй байт и далее обязательно являются символами ASCII (или ISO-646-JP).
  8. ^ Перейти обратно: а б EUC упакованного формата основан на механизмах ISO 2022 с заранее заданными обозначениями кодировок. Избегаются экранирование обозначения кодировки и блокирующие сдвиги, тогда как использование одиночных сдвигов может быть реализовано без сохранения состояния. Тем не менее, ограничения ISO 2022 соблюдаются.
  9. ^ Однобайтовые символы 0x21–7E в EUC-JP обычно считаются ASCII, но иногда рассматриваются как ISO-646-JP .
  10. ^ В отличие от Shift_JIS, EUC-JP не будет обрабатывать простой 8-битный ввод JIS X 0201 без предварительного преобразования из-за другого представления катаканы JIS X 0201 (с одиночными сдвигами).
  11. ^ JIS X 0212 в EUC-JP не всегда реализуется.
  12. ^ Помимо свойств самих кодировок, форматы Unicode имеют дополнительные преимущества, вытекающие из базового набора символов: они не ограничиваются символами в кодировке JIS, но могут представлять всю UCS (включая полный набор символов в кодировке JIS) и, следовательно, подходит для международного использования. На них также меньше влияют конфликтующие проприетарные расширения из-за их большего базового репертуара и выделенных областей частного использования.
  13. ^ Большинство побитовых сдвигов кадров текста в кодировке UTF-8 приводят к созданию недопустимого UTF-8, но можно создавать последовательности символов, которые остаются действительными UTF-8 даже при сдвиге кадров на один или несколько битов.
  14. ^ Только Microsoft.
  15. ^ Хотя GB 18030 и GBK являются расширениями формы EUC-CN GB/T 2312, они не соответствуют ограничениям EUC или ISO 2022, в отличие от EUC-JP (или исходного EUC-CN).
  16. ^ Хотя теоретически UTF-32 самосинхронизируется только по 32-битным dwordм, использование 32-битного значения для представления 21-битного значения означает, что на практике UTF-32 содержит непрерывный поток не менее 11 нулевых битов в верхнем конце каждого символа, которые обычно можно использовать для выравнивания по границам символов, в зависимости от задействованных кодовых точек.

До тех пор, пока не пройдет пять лет после того, как японский промышленный стандарт был установлен, подтвержден или пересмотрен, предыдущий стандарт подвергается процессу повторного подтверждения, пересмотра или отмены. С момента создания стандарт подвергался пересмотру трижды, и в настоящее время действует четвертый стандарт.

Первый стандарт

[ редактировать ]

Первым стандартом является JIS C 6226-1978 «Код набора японских графических символов для обмена информацией» ( 情報交換用漢字符号系 , Jōhō Kōkan’yō Kanji Fugōkei ) , установленный министром международной торговли и промышленности Японии 1 января 1978 года. его также называют 78JIS Сокращенно . По поручению Агентства промышленных наук и технологий комитет по исследованиям и исследованиям стандартизации кодов кандзи JIPDEC подготовил проект. Председателем комитета был Моригучи Сигейчи .

Код включал 453 некандзи (включая хирагану, катакану, римский, греческий и кириллический алфавит и знаки препинания) и 6349 кандзи (2965 кандзи уровня 1 и 3384 кандзи уровня 2), всего 6802 символа. [12] В него еще не входили символы, рисующие рамки . Сам стандарт был установлен в Shaken Co., Ltd. шрифте Ishii Mincho компании

Второй стандарт

[ редактировать ]

Второй стандарт JIS C 6226-1983 «Код набора японских графических символов для обмена информацией» ( 情報交換用漢字符号系 , Jōhō Kōkan'yō Kanji Fugōkei ) пересматривал первый стандарт 1 сентября 1983 года. Он также называется 83JIS . По поручению AIST комитет JIPDEC, связанный с кодом кандзи JIS, подготовил проект. Председателем комитета был Мотоока Туру .

Проект второго стандарта был основан на рассмотрении таких факторов, как обнародование кандзи дзёё , введение в действие кандзи дзинмейё и стандартизация телетекса на японском языке Министерством почты и телекоммуникаций ; Кроме того, следующая модификация была выполнена, чтобы идти в ногу со стандартом JIS C 6234-1983 (24-пиксельные формы символов матричного принтера; в настоящее время JIS X 9052).

Добавление специальных символов
К специальным символам добавлено 39 символов. Среди этих 39, согласно рекомендациям JICST и таким стандартам, как JIS Z 8201-1981 (математические символы) и JIS Z 8202-1982 (количество, единица измерения и химические символы), были выбраны вещи, которые не могут быть представлены составом.
Недавно добавленные персонажи, рисующие коробки.
32 персонажа, рисующих коробки . Добавлено
Замена itaiji кодовых точек
Кодовые точки для 22 пар вариантов кандзи были заменены, так что вариант с уровня 2 был перенесен на уровень 1 и наоборот. [12] [13] Например, (уровень 1) строка 36, ячейка 59 в первом стандарте ( ) была перемещена в (уровень 2) строка 52, ячейка 68; точка, первоначально находившаяся в строке 52, ячейке 68 ( ), в свою очередь, была перенесена в строку 36, ячейку 59.
Дополнения к кандзи 2 уровня
Трем символам уровня 1 и одному символу уровня 2 были присвоены новые кодовые точки в ранее не назначенных кодовых точках в строке 84 как кандзи уровня 2. Итайдзи для каждой из этих кодовых точек были заново назначены на свои исходные места. [14] Например, ячейка 1 строки 84 во втором стандарте ( ) была перемещена туда, чтобы разместить другую форму, не включенную в ячейку 38 строки 22, в качестве кандзи уровня 1 ( ).
Модификация форм персонажей
Были изменены формы символов примерно 300 кандзи. [15]

Среди изменений в этих примерно 300 формах символов кандзи многие глифы уровня 1, которые были в стиле Словаря Канси, были изменены на варианты, и особенно на более упрощенные формы (например, рякудзи и расширенный синдзитай ). Например, пара элементов кода, которые часто являются предметом критики из-за значительных изменений, — это ячейка 10 строки 18 (78JIS: , 83JIS: ) и ячейка 34 строки 38 (78JIS: , 83JIS: ).

По сравнению с вариантами в стиле Канси было много мелких изменений; например, строка 25, ячейка 84 ( ) потеряла часть штриха. Кроме того, там, где некоторые символы для кандзи уровня 1 не были формами в стиле Канси, некоторые были изменены на формы в стиле Канси; например, ячейка 49 строки 80 ( ) получила часть штриха (т. е. ту же часть штриха, которую потеряли 25–84).

Чтобы прояснить первоначальную цель первого стандарта, они в конечном итоге попали в параметры критериев унификации четвертого стандарта. Разница в форме для отмеченных выше примеров (« » и « ») подпадает под параметры критерия унификации 42 (относительно компонента « »). [т]

Основная часть изменений в формах символов — это различия между кандзи уровня 1 и уровня 2. В частности, упрощение делалось чаще для кандзи уровня 1, чем для кандзи уровня 2; упрощения, примененные к кандзи уровня 1 (например, от « » к « » и от « » к « »), как правило, не применялись к кандзи уровня 2 (« » остался как есть). Вышеупомянутые 25-84 ( ) и 80-49 ( ) также подвергались разному обращению, поскольку первый находится на уровне 1, а второй - на уровне 2. Несмотря на это, произошли некоторые изменения независимо от уровня; например, символы, содержащие компоненты «дверь» ( ) и «зима» ( ), были изменены без каких-либо различий между кандзи уровня 1 и уровня 2.

Однако для 29 кодовых точек (таких как проблемные 18-10 и 38-34, упомянутые выше) формы, унаследованные четвертым стандартом, противоречат первоначальному замыслу первого. Для них существуют специальные критерии унификации для обеспечения совместимости с предыдущими стандартами в этих кодовых точках.

Когда была введена новая категория «X» для японских промышленных стандартов (для областей, связанных с информацией), второй стандарт был переименован в JIS X 0208-1983. [12] 1 марта 1987 года.

Третий стандарт

[ редактировать ]

Третий стандарт JIS X 0208-1990 «Код набора японских графических символов для обмена информацией» ( 情報交換用漢字符号 , Jōhō Kōkan'yō Kanji Fugō ) пересматривал второй стандарт 1 сентября 1990 года. он также называется 90JIS Для краткости . По поручению AIST комитет Японской ассоциации стандартов по пересмотру JIS X 0208 создал проект. Председателем комитета был Тадзима Кадзуо .

Было изменено 225 символов кандзи, а на уровень 2 добавлены два символа (84-05 « » и 84-06 « »). Это было разъединение итайдзи для двух уже включенных символов (49–59 « » и 63–70 « »). Некоторые изменения и два дополнения соответствовали 118 кандзи дзинмейё, добавленным в марте 1990 года. [12] Сам стандарт был установлен в Хэйсэй Минчо .

Четвертый стандарт

[ редактировать ]

Четвертый стандарт JIS X 0208:1997 «7-битные и 8-битные наборы КАНДЗИ с двухбайтовой кодировкой » информацией для обмена Ни-Байто Дзёхо Коканъё Фугока Кандзи Сюго ) пересмотрел третий стандарт 20 января 1997 года. Он также называется 97JIS для краткости По поручению AIST комитет JSA по исследованию и изучению наборов кодированных символов подготовил проект. Председателем комитета был Сибано Кодзи .

Основная политика этой версии заключалась в том, чтобы не вносить изменений в набор символов, прояснить неоднозначные положения и сделать стандарт относительно простым в использовании. Добавление, удаление и перестановка кодовых точек не производились, и все без исключения глифы в качестве примера также остались неизменными. Однако положения стандарта были полностью переписаны и/или дополнены. Если третий стандарт без пояснений имел объем 65 страниц, то четвертый стандарт без пояснений составлял 374 страницы.

Основными моментами доработки являются:

Определение методов кодирования
До третьего стандарта был определен только метод кодирования, основанный на расширении кода JIS X 0202. Это что-то необычное с точки зрения кодированных наборов символов. В четвертом стандарте были определены методы кодирования, не использующие escape-последовательности с целью расширения кода.
Определение общего запрета на использование неназначенных кодовых точек и методов использования неназначенных кодовых точек.
Третий стандарт, в объяснении, которое не было частью стандарта, описывал вещи так, как если бы были места, где для некоторых неназначенных кодовых точек было приемлемо назначить гайджи. В четвертом стандарте было разъяснено, что использование неназначенных кодовых точек обычно запрещено. Также были уточнены условия использования неназначенных кодовых точек.
Общее устранение повторяющихся кодировок
Каждому персонажу было присвоено «имя персонажа», соответствующее именам других стандартов. Кроме того, были указаны методы кодирования для их использования вместе с международной эталонной версией ISO/IEC 646 или JIS X 0201. Когда JIS X 0208 используется вместе с любым из двух назначенных кодовых точек для символов с одинаковым именем, разрешен только один; таким образом, дублирование кодировок в целом устранялось.
Исследование источников кандзи
Символы, включенные в стандарт на данный момент и не встречающиеся ни в словаре Канси , ни в Дай Канва Дзитен, не были идентифицированы. Соответственно, было исследовано, с какой именно целью включения и из каких источников эти кандзи пришли при составлении первого стандарта.
Определение критериев объединения кандзи
На основе таких вещей, как материалы для разработки первого стандарта, была предпринята попытка восстановить цель первого стандарта в отношении объема глифов, которые представляет каждая кодовая точка. Более того, были четко определены критерии объединения глифов кандзи.
Включение стандартов де-факто
Ко времени появления четвертого стандарта методы кодирования Shift JIS и ISO-2022-JP стали де-факто стандартами для персональных компьютеров и электронной почты соответственно. Эти методы кодирования были включены как «Представление с кодировкой сдвига» и «Представление с кодировкой RFC 1468» (описанное выше).

Преемники

[ редактировать ]

JIS X 0213 ( расширенный кандзи ) был разработан «с целью предложить достаточный набор символов для кодирования современного японского языка, которым JIS X 0208 задумывался с самого начала»; [16] он определяет набор символов, который расширяет набор кандзи JIS X 0208. Разработчики JIS X 0213 рекомендуют переход с JIS X 0208 на JIS X 0213, среди преимуществ которого является совместимость JIS X 0213 со списком глифов Hyōgai Kanji и с более новыми кандзи джинмейё .

Вопреки ожиданиям разработчиков, принятие JIS X 0213 было далеко не быстрым с момента его принятия в 2000 году. Редакционный комитет JIS X 0213:2004 написал (в 2004 году): Большинство информационных систем могут совместно использовать только JIS X 0208», и это продолжается до сих пор». (JIS X 0213:2000, Приложение 1:2004, раздел 2.9.7)

Для Microsoft Windows , преобладающей операционной системы (и, следовательно, обеспечивающей преобладающую среду рабочего стола ) в секторе персональных компьютеров, репертуар JIS X 0213 был включен начиная с Windows Vista , выпущенной в ноябре 2006 года. Mac OS X совместима с JIS X 0213. начиная с версии 10.1 (выпущенной в 2001 г.). Многие Unix-подобные системы , такие как Linux, при желании могут (опционально) поддерживать JIS X 0213. Поэтому считается, что со временем поддержка JIS X 0213 на персональных компьютерах не станет препятствием для его возможного внедрения.

Среди разработчиков JIS X 0213 есть те, кто ожидает увидеть смесь JIS X 0208 и JIS X 0213 до принятия JIS X 0213 (Satō, 2004). Однако JIS X 0208 продолжает использоваться в настоящее время, и многие прогнозируют, что он останется стандартом. Существуют препятствия, которые необходимо преодолеть, чтобы JIS X 0213 заменил стандарт JIS X 0208 в обычном использовании:

  • Репертуар персонажей, используемый в японских мобильных телефонах . в настоящее время [ когда? ] основаны на JIS X 0208. Официально не объявлено о планах по их переходу на совместимость с JIS X 0213. Поскольку мобильные телефоны в настоящее время являются широко распространенным аспектом японской текстовой коммуникации (см. Японская культура мобильных телефонов ), являясь широко распространенным и широко доступным средством для отправки электронной почты и доступа к Всемирной паутине , отсутствие распространения мобильных телефонов сдерживает их использование в других местах.
  • JIS X 0213 не является строго совместимым с JIS X 0208 с точки зрения критериев унификации (см. ниже ). Для крупномасштабных архивов (например, библиографических баз данных и Aozora Bunko ), которые используют JIS X 0208 и строго следуют его критериям унификации, считается, что будет чрезвычайно сложно одновременно преобразовать все данные в JIS X 0213 и сохранить тот же стандарт. текстовой целостности.
  • На практике многие системы определяют и используют неназначенные кодовые точки в JIS X 0208. Например, Windows назначает расширенные символы IBM и NEC и определяемые пользователем области символов (см. Windows-932 ), а мобильные телефоны назначают эмодзи в некоторых таких местах. Кодовые точки этих гайджи конфликтуют с кодовыми точками, которые используют коды JIS X 0213, поэтому могут возникнуть некоторые трудности при переходе этих систем с JIS X 0208 на JIS X 0213. Также планируется перейти на UCS / Unicode и использовать Репертуар JIS X 0213 оттуда, но до тех пор, пока системный администратор не сможет решить, что реализации суррогатных пар UCS/Unicode и композиций символов достаточно стабильны, он или она, вероятно, не решатся использовать репертуар JIS X 0213, который требует этих реализации.
  • Улучшения, предоставляемые JIS X 0213, в основном касаются символов, которые используются не так часто, как те, которые уже присутствуют в JIS X 0208. Поскольку необходимо реализовать почти вдвое больше глифов для меньшего использования этих дополнительных глифов. , во многих случаях это может быть низкая отдача от инвестиций, особенно там, где ресурсы ограничены.

Реализации

[ редактировать ]

Поскольку JIS X 0208/JIS C 6226 — это прежде всего набор символов , а не строго определенная кодировка символов , несколько компаний внедрили свои собственные кодировки набора символов.

Некоторые из них включают назначения символов, специфичные для конкретного поставщика, вместо нераспределенных областей стандарта. , а также кодировка символов NEC PC98 К ним относятся Windows-932 и MacJapanese . Хотя IBM-932 и IBM-942 также включают назначения поставщиков, они включают их за пределы региона, используемого для JIS X 0208.

Связь с другими стандартами

[ редактировать ]

ISO/IEC 646 IRV и ASCII

[ редактировать ]

Как отмечалось выше, набор кандзи не совместим с набором графических символов ISO/IEC 646:1991 IRV (ASCII). Набор кандзи и набор графических символов IRV можно использовать вместе, как указано в JIS X 0208 (IRV + 7-битный код для кандзи и IRV + 8-битный код для кандзи). можно использовать вместе в EUC-JP Их также .

ДЖИС Х 0201

[ редактировать ]

В наборе кандзи отсутствуют три символа, включенные в графический набор латинских символов JIS X 0201 : 2/2 (КАВЫЧКИ), 2/7 (АПОСТРОФ) и 2/13 (ДЕФИС-МИНУС). Набор кандзи содержит все символы, включенные в набор графических символов катаканы JIS X 0201.

Набор кандзи и набор графических символов для латинских символов можно использовать вместе, как указано в JIS X 0208 (латинские символы + 7-битный код для кандзи и латинские символы + 8-битный код для кандзи). Набор кандзи, набор графических символов для латинских символов и набор графических символов JIS X 0201 для катаканы могут использоваться вместе, как указано в JIS X 0208 (набор символов с кодировкой сдвига; т. е. Shift JIS ). Набор кандзи и набор графических символов катаканы можно использовать вместе в EUC-JP .

ДЖИС Х 0212

[ редактировать ]

JIS X 0212 (дополнительные кандзи) определяет дополнительные символы с кодовыми точками для целей обработки информации, для которой требуются символы, отсутствующие в JIS X 0208. Вместо выделения символов в основном наборе кандзи JIS X 0208 он определяет второй 94-битный набор кандзи. Набор из 94 кандзи, содержащих дополнительные символы.

JIS X 0212 можно использовать с JIS X 0208 в EUC-JP . Кроме того, JIS X 0208 и JIS X 0212 являются исходными стандартами для унификации Han UCS/Unicode , что означает, что кандзи из обоих наборов могут быть включены в один документ формата Unicode.

Среди кодовых точек, измененных во второй версии JIS X 0208, 28 кодовых точек в JIS X 0212 отражают формы символов, существовавшие до изменений. [17] Кроме того, JIS X 0212 переназначает « знак закрытия », который JIS X 0208 назначил как не-кандзи ( , в строке 1, ячейка 26), на кандзи ( , в строке 16, ячейка 17). JIS X 0212 не имеет общих символов с JIS X 0208, кроме этих. Следовательно, он не подходит для общего использования сам по себе.

Однако в четвертой версии JIS X 0208 связь с JIS X 0212 вообще не определялась. Считается, что это связано с тем, что редакционный комитет четвертого стандарта JIS X 0208 высказал критическое мнение о методах выбора и идентификации JIS X 0212. [18] Значения символов и обоснования выбора не были должным образом задокументированы, что затрудняло определение того, соответствуют ли желаемые кандзи тем, что есть в его репертуаре. [19] В тексте четвертого стандарта, а также указываются проблемные моменты выбора символов JIS X 0212, говорится, что «считается, что не только невозможен выбор символов, но и невозможно использовать их вместе; подключение к JIS X 0212 вообще не определен». (раздел 3.3.1)

ДЖИС Х 0213

[ редактировать ]
Диаграмма Эйлера, сравнивающая репертуары JIS X 0208, JIS X 0212 , JIS X 0213 , Windows-31J , стандартного репертуара Microsoft и Unicode .

JIS X 0213 (расширение кандзи) определяет набор кандзи, который расширяет набор кандзи JIS X 0208. Согласно этому стандарту, он «разработан с целью предложить достаточный набор символов для кодирования современного японского языка». таким, каким JIS X 0208 задумывался с самого начала». [16]

Набор кандзи JIS X 0213 включает в себя все символы, которые могут быть представлены в наборе кандзи JIS X 0208, со многими дополнениями. В общей сложности JIS X 0213 определяет 1183 не-кандзи и 10 050 кандзи (всего 11 233 символа) в двух плоскостях размером 94 на 94 ( , мужчины ) . Первый уровень (не кандзи и кандзи уровня 1–3) основан на JIS X 0208, тогда как второй уровень (кандзи уровня 4) предназначен для размещения в нераспределенных строках JIS X 0212, что позволяет использовать его в EUC-JP . [20] JIS X 0213 также определяет Shift_JISx0213 , вариант Shift_JIS, способный кодировать весь JIS X 0213.

В большинстве случаев плоскость 1 JIS X 0213 является надмножеством JIS X 0208. Однако к некоторым кодовым точкам в JIS X 0213 применяются другие критерии унификации по сравнению с JIS X 0208. Следовательно, некоторые пары глифов кандзи, которые были представлены на одну кодовую точку JIS X 0208 из-за унификации присваиваются отдельные кодовые точки в JIS X 0213. Например, глиф в строке 33, ячейке 46 JIS X 0208 (« », описанный выше ) объединяет несколько вариантов из-за к его правой составляющей. В JIS X 0213 две формы (содержащие компонент « ») объединены в плоскости 1, строка 33, ячейка 46, а другая (содержащая компонент « ») расположена в плоскости 1, строка 14, ячейка 41. Следовательно, не может быть определено автоматически, следует ли JIS X 0208, строка 33, ячейка 46, сопоставляться с JIS X 0213, плоскость 1, строка 33, ячейка 46 или плоскость 1, строка 14, ячейка 41. [в] Это ограничивает степень, в которой JIS X 0213 можно считать более совместимым с JIS X 0208, как это признано редакционным комитетом JIS X 0213. [21]

Однако по большей части строка m ячейки n в JIS X 0208 соответствует строке m ячейки n плоскости 1 в JIS X 0213; поэтому на практике особой путаницы не возникает. Это связано с тем, что в большинстве шрифтов используются глифы, представленные в JIS X 0208, и большинство пользователей не осознают критериев унификации.

ISO/IEC 10646 и Юникод

[ редактировать ]

Набор кандзи JIS X 0208 входит в число исходных стандартов унификации Хань в ISO/IEC 10646 (UCS) и Unicode . Каждому кандзи в JIS X 0208 соответствует своя кодовая точка в базовой многоязычной плоскости (BMP) UCS/Unicode.

Некандзи в JIS X 0208 также соответствуют собственным кодовым точкам в BMP. Однако для некоторых специальных символов некоторые системы реализуют соответствия, отличные от соответствий UCS/Unicode (которые основаны на именах символов, указанных в JIS X 0208:1997).

пояснительная

[ редактировать ]
  1. ^ Отсутствуют греческие диакритические знаки и последняя сигма .
  2. ^ Перейти обратно: а б с д ( Снято )
  3. ^ JIS и Apple: U+2014.
    Юникод, [б] Microsoft и WHATWG: U+2015.
  4. ^ Microsoft и WHATWG: U+FF5E.
    Юникод, [б] JIS и Apple: U+301C.
  5. ^ Microsoft и WHATWG: U+2225.
    Юникод, [б] JIS и Apple: U+2016.
  6. ^ Microsoft: U+FF0D.
    Юникод, [б] JIS и Apple: U+2212.
    WHATWG: U+FF0D при декодировании, в исключительных случаях оба при кодировании.
  7. ^ Перейти обратно: а б с д Добавлено в JIS X 0213.
  8. ^ Отсутствует в оригинальной версии расширения, предшествовавшей эпохе Хэйсэй . Позиция кода, выбранная NEC или Microsoft. [5] Не в Macintosh PostScript.
  9. ^ Перейти обратно: а б с д и ж г час я Дублируется дополнениями, внесенными в строку 2 в 1983 году. Здесь не кодируется (но остается нераспределенным) в JIS X 0213, [5] но здесь дублируется кодировка Microsoft и WHATWG. добавляется код частного использования U+F87F, Что касается кодировки Macintosh PostScript, к форме, декодированной с помощью функций библиотеки macOS, чтобы обеспечить двусторонний обмен.
  10. ^ Как показано в кодовых таблицах, зарегистрированных в Международном реестре наборов кодированных символов для использования с escape-последовательностями, до четвертого стандарта (1997 г.) ку ( ) и десять ( ) назывались «разделом» и «позицией». "соответственно на английском языке. Что касается изменений в английском языке, то в стандарте JIS X 0221-1995 (UCS), который перевел ISO/IEC 10646-1:1993, термины «группа», «плоскость», «ряд» и «ячейка» могут можно перевести на оружие ( ) , мужчины ( ) , ку ( ) и десять ( ) . Однако строка и ячейка JIS X 0208 и строка и ячейка ПСК представляют собой разные идеи.
  11. ^ Имена персонажей даются латинскими буквами и используются на международном уровне, поэтому их можно считать международным соглашением, чем-то вроде научных названий живых организмов. Что касается этой аналогии, общепринятые японские имена персонажей подобны общим названиям организмов.
  12. ^ Для полнофункционального поиска или сортировки в порядке кана необходимо учитывать чтение слов, знаки повторения и т. д. Сортировка строк японских символов описана в JIS X 4061 (Сопоставление строк японских символов).
  13. ^ По словам Ясуоки (2001a), похоже, были какие-то случайные оплошности. Он отмечает, например, что ба ( , 58-57) Инбы , и ши ( 61-89) Шисуи , Кумамото не являются частью уровня 1.
  14. ^ Список: 丼awnarrogant Примечание смущает
  15. Кандзи дзёё 𠮟Result включен только в официальный вариант 叱.
  16. ^ Список: Прокатиться на Будде, приехать в деревню. Группа плохая, а база сильная комета ��嬕��heng����e evil����Hui�ix charade愄   日          ��晖Никола滉    полоскание         Тайна секрета                       лог Рисовое растение, початок, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо , ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо, ухо ухо, ухо, ухо, ухо и ухо ЧжуанЧжуанЛиЧжуан ��萠awn в опасности ��за���тихо��
  17. ^ Список: 玴砄OuZhu Боги, удача, удача Зеленый цвет - это цвет, цвет - это цвет, цвет - это цвет, цвет - это цвет, цвет - это цвет, цвет - это цвет. цвет. Я хотел бы раскрыть. Еда лучшая, еда лучшая. Чжэнчжэнь ��Tu����difficulty��Mei����late����bei�stele��bin�min. �оскорбление���Миан��шаг�������� Каждый Все Тонкий, глоток, широкий и широкий
  18. ^ Для ячеек 30 и 31 строки 19 порядок их репрезентативных показаний перепутан. Следовательно, там, где правильный порядок должен быть таким: каэру ( , «лягушка»), за которым следует каори ( , «аромат») , их позиции переставляются так, что каори предшествует каэру .
  19. ^ Кроме того, наиболее часто используемый вариант ( ) находится в строке 23, ячейке 85 на уровне 1, а еще один вариант ( ) можно найти сгруппированным как имеющий «золотой» радикал в строке 78, ячейке 63 на уровне 2.
  20. ^ Вопрос о том, какие глифы в рамках критериев унификации следует использовать, остается на усмотрение шрифтового дизайнера. В зависимости от этого (и обстоятельств конечного пользователя), возможно, что ни один, ни другой из этих двух не будет следовать своей форме в стиле Канси.
  21. ^ Это та же неопределенность, что и относительно того, следует ли «ДЕФИС-МИНУС» в ISO / IEC 646 сопоставлять с «ДЕФИСОМ» или «ЗНАКОМ МИНУС» в JIS X 0208.

Справочные сноски

[ редактировать ]
  1. ^ «Почему Япония не создала iPod» . Гатунка . 5 мая 2008 г.
  2. ^ JIS X 0208 не был одним из стандартов, включенных в список применимых целевых систем для отображения нового знака JIS, объявленного Министерством экономики, торговли и промышленности 17 января 2007 года.
  3. ^ Перейти обратно: а б с Стил, Шон (15 апреля 1998 г.). «CP932.TXT: cp932 в таблицу Юникода» . Майкрософт. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  4. ^ Перейти обратно: а б «Сопоставление (внешняя версия) японской кодировки Mac OS с Unicode 2.1 и более поздних версий» . Яблоко. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
  5. ^ Перейти обратно: а б с д Лунде, Кен (21 марта 2019 г.). «Краткая история лигатур имен японской эпохи» . Типовой блог CJK . Adobe Inc.
  6. ^ Перейти обратно: а б с Японский комитет промышленных стандартов . ISO-IR-233: Набор японских графических символов для обмена информацией, плоскость 1 (обновление ISO-IR 228) (PDF) . ITSCJ/ IPSJ .
  7. ^ Unicode, Inc. (14 октября 2011 г.). «JIS X 0208 (1990) в Юникод» .
  8. ^ ван Кестерен, Энн , «Индекс jis0208» , Стандарт кодирования , WHATWG
  9. ^ Перейти обратно: а б Юнгшик Шин (14 октября 2011 г.). «KSX1001.TXT: KS X 1001 в таблицу Юникода» . Юникод, Инк.
  10. ^ JIS C 6225-1979 (коды управляющих символов для набора японских графических символов для обмена информацией) предоставил управляющие символы для начала и конца композиции. JIS C 6225 был переименован в JIS X 0207 в 1987 году и отменен в 1997 году.
  11. ^ В наборах символов IANA Shift JIS определяется ссылкой на JIS X 0208:1997, Приложение 1.
  12. ^ Перейти обратно: а б с д «15. История JIS X 0208» (PDF) , Набор японских графических символов IBM для расширенного кода UNIX (EUC) , IBM, стр. 371, заархивировано (PDF) из оригинала 8 декабря 2017 г. , получено 8 декабря 2017 г.
  13. ^ Лунде, Кен. «Приложение Q § 78-vs-83-3» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутен без дефиса.
  14. ^ Лунде, Кен. «Приложение Q § 78-vs-83-2» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутен без дефиса.
  15. ^ Согласно Номуре (1984), количество измененных форм символов, включая перемещения между кодовыми точками, составляет 294. Согласно Шибано (1997a) и тексту четвертого стандарта, количество измененных форм символов составляет 300.
  16. ^ Перейти обратно: а б Оригинальный японский: «Разработан для обеспечения достаточного набора символов для кодирования современного японского языка, для кодирования которого изначально предназначался JIS X 0208».
  17. ^ Лунде, Кен. «Приложение Q § TJ2» . CJKV Information Processing (дополнительный материал) . О'Рейли. Обратите внимание на включение кодов кутен без дефиса.
  18. ^ Например, Сибано Кодзи (1997a), который был председателем редакционного комитета четвертого стандарта, так сказал о методе выбора: «Он основан на поверхностном понимании выбора набора символов JIS X 0208; это ошибочное понимание» (исходный японский: «Это основано на поверхностном понимании выбора набора символов в JIS ». (исходный японский: «Существуют серьезные проблемы при рассмотрении набора символов, превышающего 10 000 символов» ).
  19. ^ Марукава, Казуши. «Наборы символов JIS – JIS X 0212:1990» . Архивировано из оригинала 22 мая 2005 года.
  20. ^ Чанг, Хешик (31 октября 2021 г.). «Readme для CJKCodecs» . cПитон . Фонд программного обеспечения Python.
  21. ^ JIS X 0213:2000, раздел 5.3.2, JIS X 0213:2000, Приложение 1:2004, раздел 3.2.2.

См. также

[ редактировать ]
  • Наборы символов в кодировке JIS
    • JIS X 0201 «7-битные и 8-битные наборы кодированных символов для обмена информацией»
    • JIS X 0202 «Информационные технологии. Структура кода символов и методы расширения» ( ISO/IEC 2022 ).
    • JIS X 0208 «7-битные и 8-битные наборы КАНДЗИ с двухбайтовой кодировкой для обмена информацией»
    • JIS X 0211 «Функции управления кодированными наборами символов» ( ISO/IEC 6429 )
    • JIS X 0212 «Код дополнительного набора японских графических символов для обмена информацией»
    • JIS X 0213 «7-битные и 8-битные расширенные наборы КАНДЗИ с двухбайтовой кодировкой для обмена информацией»
    • JIS X 0221 «Универсальный набор символов с многооктетной кодировкой (UCS)» ( ISO/IEC 10646 )
  • Расширенный синдзитай
  • Справка:Японский

В целях цитирования эти японские имена представлены так, как если бы они были в западном порядке там, где романизированы, и сохраняли восточный порядок там, где это не так.

  • Нисимура, Хирохико [ Нисимура Ясухико ], 1978. The Kanji JIS [ Kanji JIS ]. Журнал стандартизации [ Журнал стандартизации ], 171: 3–8.
  • Номура, Масааки [ Масааки Номура ], 1984. Пересмотр JIS C 6226: Коды кандзи для обмена информацией [ Пересмотр кодов кандзи JIS C 6226 для обмена информацией ]. Журнал стандартизации [ Журнал стандартизации ], 14 (3): 4–9.
  • Огата, Кацухиро [ Katsuhiro Ogata ], 2006а. [ постоянная мертвая ссылка ] Вещи, которые не были унифицированы в 97JIS, среди примеров глифов, измененных в JIS C 6226-1983 (83JIS) ] [ постоянная мертвая ссылка ] (по состоянию на 29 января 2007 г.).
  • Огата, Кацухиро [ Katsuhiro Ogata ], 2006б. [ постоянная мертвая ссылка примеров глифов, измененных в JIS C 6226-1983 (83JIS) Вещи, подпадающие под унификацию ] [ постоянная мертвая ссылка ] (по состоянию на 29 января 2007 г.).
  • Сато, Такаюки [ Такаюки Сато ], 2004. Относительно пересмотра 8–12 . Journal JIS X 0213 (7-битные и 8-битные расширенные наборы кандзи с двухбайтовой кодировкой для обмена информацией) Standardization , 34 (4):
  • Сибано, Кодзи [ Коджи Сибано ], 1997a. Относительно пересмотра JIS X 0208 (7-битные и 8-битные наборы кандзи с двухбайтовой кодировкой для обмена информацией) . Журнал 27 ( 3 стандартизации , ): 8–12
  • , Кодзи , 1997b . План расширения стандартизации журнала 27 JIS , Сибано (7): 5–11.
  • Сибано, Кодзи [ Коджи Сибано ], 2000. Создание JIS X 0213 (7-битные и 8-битные расширенные наборы кандзи с двухбайтовой кодировкой для обмена информацией) Standardization . Journal 30 ( 3 , ): 3–7
  • Сибано, Кодзи [ Коджи Сибано ], 2001. Относительно кандзи JIS [ О кандзи ]. Стандартизация и контроль качества [ Стандартизация и контроль качества ], 54 (8): 44–50.
  • Сибано, Кодзи [ 耗野 Кодзи ] (редактор), 2002. Словарь кандзи JIS, расширенное и исправленное издание [ Дополнительный и исправленный словарь кандзи JIS Токио: Японская ассоциация стандартов]. ISBN   4-542-20129-5 ).
  • Кодзи технологий обработки , 2002. Развитие кандзи и японского языка : стандартизация кодов кандзи . Сибано , Журнал IPSJ [ Обработка информации ], 43 (12): 1362–1367.
  • Тадзима, Кадзуо [ Кадзуо Тадзима ], 1979. Проблемы использования списка кандзи JIS: разработка и обработка кандзи в системах обработки кандзи . Журнал Общества обработки информации Японии [ Управление информацией ], 21 (10): 753–761. .
  • Томио Создание , 1990. JIS X 0212 (Коды кандзи для обмена информацией – дополнительный журнал кандзи) ( 20 , Учида , 11): 6–11.
  • Ясуока, Коити , 2001a . Ситуация с новейшими кодами символов в Японии (бывшая часть) . и информации Системы управления , 45 (9): 528–535.
  • Ясуока, Коити [ Коичи Ясуока ], 2001b. Ситуация с новейшими кодами символов в Японии (последняя часть) . Системы, контроль и информация [ Система/Управление/Информация ], 45 (12): 687–694.
  • Ясуока, Коити [ Коичи Ясуока ], 2006 « Различия между планом кандзи JIS (1976) и JIS C 6226-1978 » на 17-м «Использование компьютеров в востоковедении» [ Использование компьютеров в востоковедении ]. исследовательском семинаре
  • Ясуока, Коити [ Коичи Ясуока ] и Мотоко Ясуока [ Мотоко Ясуока ], 2006. История Токио кодов символов: Европа, Америка и Япония : Кёрицу Шуппан (. ISBN   4-32012102-3 ).
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0ba779e67c5547fde983fd992f0e78d4__1710682980
URL1:https://arc.ask3.ru/arc/aa/0b/d4/0ba779e67c5547fde983fd992f0e78d4.html
Заголовок, (Title) документа по адресу, URL1:
JIS X 0208 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)