ГБ 2312
![]() | Вы можете помочь дополнить эту статью текстом, переведенным из соответствующей статьи на китайском языке . (сентябрь 2016 г.) Нажмите [показать], чтобы просмотреть важные инструкции по переводу. |
МИМ / IANA | GB_2312-80 ( GB2312 для обычной формы EUC) |
---|---|
Псевдоним(а) | iso-ir-58, китайский, csGB2312, csISO58GB231280 |
Язык(и) | Упрощенный китайский , английский Частичная поддержка: Традиционный китайский , русский , болгарский , греческий , японский , итальянский , ирландский , маори. |
Стандартный | ГБ/Т 2312-1980 |
Классификация | ISO-2022 Совместимость с DBCS , CJK кодировка |
Расширения | ИСО-ИР-165 |
Форматы кодирования |
|
Предшественник | Китайский телеграфный код |
Преемник | ГБК , ГБ 18030 |
Другая связанная кодировка(и) | ДЖИС С 0208 , КС С 1001 |
GB/T 2312-1980 — ключевой официальный набор символов , Китайской Народной Республики используемый для символов упрощенного китайского языка . GB2312 — это зарегистрированное интернет-имя EUC-CN , которое представляет собой его обычную закодированную форму. GB относится к стандартам Гобяо (国家标准), тогда как суффикс T ( 推荐 ; tuījiàn ; «рекомендация») обозначает необязательный стандарт. [1]
GB/T 2312-1980 изначально был обязательным национальным стандартом, получившим обозначение GB 2312-1980 . Однако после выхода Национального стандартного бюллетеня Китайской Народной Республики в 2017 году GB 2312 больше не является обязательным, а его стандартный код изменен на GB/T 2312-1980 . [2] GB/T 2312-1980 был заменен GBK и GB 18030 , которые включают дополнительные символы, но GB/T 2312 по-прежнему широко используется как подмножество этих кодировок.
По состоянию на сентябрь 2022 г. [update]GB2312 — вторая по популярности кодировка, обслуживаемая в Китае и других регионах (после UTF-8 ), при этом 5,5% веб-серверов обслуживают страницы, объявляющие ее. [3] Во всем мире GB2312 заявлен на 0,1% всех веб-страниц. [4] Однако все основные веб-браузеры декодируют документы с пометкой GB2312, как если бы они были помечены расширенной кодировкой GBK, за исключением Safari и Edge на этикетке. GB_2312
. [5]
Существует аналогичный набор символов, известный как GB/T 12345 Код набора китайских иероглифов для дополнительного набора обмена информацией , который дополняет GB/T 2312 традиционными формами символов путем замены упрощенных форм в их коде qūwèi и некоторых дополнительных 62 дополнительных символов. [6] [7] Шрифты в кодировке GB часто поставляются парами: один с набором символов GB/T 2312 (упрощенный), а другой с набором символов GB/T 12345 (традиционный). Существует больше наборов дополнительных кодировок GB, дополняющих GB/T 2312, в том числе GB/T 7589 Кодекс китайских иеограмм, набор для обмена информацией — 2-й дополнительный набор и GB/T 7590 Код китайских иеограмм, набор для обмена информацией — 4-й дополнительный набор. который предоставляет дополнительные [варианты китайских символов | варианты символов] в том же формате кодировки qūwèi (позже использованном в ISO-2022-CN), но не имеет никакого отношения к символам, закодированным в GB/T 2312.
Диапазон символов в строках [ править ]
GB/T 2312 охватывает более 99,99% использования современного текста на китайском языке. [8] исторические тексты и многие имена остаются за рамками рассмотрения. Старый стандарт GB 2312 включает 6763 китайских иероглифа (на двух уровнях: первый упорядочен по чтению, второй по радикалу , а затем по количеству штрихов), а также символы и знаки препинания, японскую кану , греческий и кириллический алфавиты , чжуинь и двойной символ . -байтовый набор букв пиньинь со знаками тона. В более поздней версии GB/T 2312-1980 имеется 7445 букв.
Символы в GB/T 2312 расположены в сетке 94×94 (как в ISO 2022 ), а двухбайтовая кодовая точка каждого символа выражается в форме qūwèi ( 区位 ), которая определяет строку ( 区 ; qū ). и положение символа в строке (ячейка; 位 ; wèi ). (Эта структура такая же, как и в других , основанных на ISO-2022 национальных CJK стандартах набора символов ; сравните kuten .) Например, символ «外» (означающий: иностранный) расположен в строке 45, позиции 66, [9] таким образом, его код кувей — 45–66.
Строки (с номерами от 1 до 94) содержат следующие символы:
- 01–09, состоящие из знаков препинания и других специальных символов; также хирагана , катакана , греческий язык , кириллица , пиньинь , бопомофо.
- 16–55 — первый уровень китайских иероглифов , упорядоченный по системе Пиньинь . (3755 символов).
- 56–87, второй уровень китайских иероглифов, упорядоченных по радикалам и штрихам. (3008 символов).
Строки 10–15 и 88–94 не назначены.
Для GB/T 2312-1980 он содержит 682 знака и 6763 китайских иероглифа.
Кодировки GB/T 2312 [ править ]
EUC-CN [ править ]
EUC-CN часто используется в качестве кодировки символов (т. е. для внешнего хранилища) в программах, работающих с GB/T 2312, что обеспечивает совместимость с ASCII . Два байта используются для представления каждого символа, не найденного в ASCII . Значение первого байта от 0xA1–0xF7
(161–247), а значение второго байта от 0xA1–0xFE
(161–254). Поскольку все эти диапазоны выходят за рамки ASCII, например UTF-8, при использовании EUC-CN можно проверить, является ли байт частью многобайтовой конструкции, но не является ли байт первым или последним.
По сравнению с UTF-8 , GB/T 2312 (как собственный, так и закодированный в EUC-CN) более эффективен для хранения: тогда как UTF-8 использует три байта. [а] на каждый иероглиф CJK в GB/T 2312 используется только два. Однако GB/T 2312 не охватывает столько иероглифов, как Unicode.
Чтобы сопоставить кодовые точки qūwei с байтами EUC, добавьте 160 ( 0xA0
) как к номеру строки (или qū, 区), так и к номеру ячейки/столбца ( десять или вэй, 位). Результат сложения с номером строки кодовой точки сформирует старший байт, а результат сложения с номером ячейки кодовой точки сформирует младший байт.
Например, чтобы закодировать символ «外» в ячейке qūwèi 45–66, старший байт будет использовать номер строки 45: 45+160=205= 0xCD
, а младший байт будет из ячейки с номером 66: 66+160=226= 0xE2
. Итак, полная кодировка <CD E2>
. [10] [11]
ISO-2022-CN [ править ]
ISO-2022-CN — это еще одна форма кодировки GB/T 2312, которая также является кодировкой, указанной в официальной документации. Эта кодировка ссылается на стандарт ISO-2022 , который также использует два байта для кодирования символов, отсутствующих в ASCII. Однако вместо использования расширенной области ASCII в ISO-2022 используется тот же диапазон байтов, что и в ASCII: значение первого байта составляет от 0x21–0x77
(33–119), а значение второго байта от 0x21–0x7E
(33–126). Поскольку диапазон байтов значительно перекрывает ASCII, необходимы специальные символы, чтобы указать, находится ли символ в диапазоне ASCII или является частью двухбайтовой последовательности расширенной области, а именно Shift Out и Shift In функции . Это создает риск неправильного кодирования, поскольку неправильная обработка текста может привести к потере информации.
Чтобы сопоставить кодовые точки qūwèi с байтами ISO-2022, добавьте 32 ( 0x20
) как к номеру строки (или qū, 区), так и к номеру ячейки/столбца (или wèi, 位). Результат добавления к номеру строки кодовой точки сформирует старший байт, а результат добавления к номеру ячейки кодовой точки сформирует младший байт, аналогично кодированию EUC.
Например, чтобы закодировать символ «外» в ячейке qūwèi 45–66, старший байт будет использовать номер строки 45: 45+32=77= 0x4D
, а младший байт будет из ячейки с номером 66: 66+32=98= 0x62
. Итак, полная кодировка <4D 62>
. [11]
ХЗ [ править ]
HZ — это еще одна кодировка GB/T 2312, которая используется в основном для в Usenet публикаций ; символы представлены теми же парами байтов, что и в ISO-2022-CN, но последовательности байтов, обозначающие начало и конец диапазона текста GB 2312, различаются.
Таблицы кодов [ править ]
В таблицах ниже, где для префиксного байта или кодирующего байта указана пара шестнадцатеричных чисел, при кодировании через GL ( 0x 21-0x7E) используется меньшее (с неустановленным или недоступным восьмым битом), как в ISO- 2022-CN или HZ-GB-2312 , а больший (с установленным восьмым битом) используется в более типичном случае его кодирования через GR (0xA1-0xFE), как в EUC-CN , GBK или GB 18030 . Числа Цювэй даны в десятичном формате.
Когда GB/T 2312 кодируется через GR, в обоих байтах установлен восьмой бит (т. е. они больше 0x7F). GBK и GB 18030 также используют двухбайтовые коды, в которых только первый байт имеет восьмой бит, установленный для целей расширения: такие коды находятся за пределами плоскости GB/T 2312 и здесь не приводятся в таблице.
Ведущий байт [ править ]
На этой диаграмме подробно описана общая компоновка основной плоскости набора символов GB/T 2312 по ведущим байтам. Для ведущих байтов, используемых для символов, отличных от hanzi , предоставляются ссылки на таблицы на этой странице, в которых перечислены символы, закодированные под этим ведущим байтом. Для ведущих байтов, используемых для ханзи, предоставляются ссылки на соответствующий раздел Викисловаря индекса ханзи .
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | СП [б] | 1-_ | 2-_ | 3-_ | 4-_ | 5-_ | 6-_ | 7-_ | 8-_ | 9-_ | 10-_ | 11-_ | 12-_ | 13-_ | 14-_ | 15-_ |
3x/Вх | 16-_ | 17-_ | 18-_ | 19-_ | 20-_ | 21-_ | 22-_ | 23-_ | 24-_ | 25-_ | 26-_ | 27-_ | 28-_ | 29-_ | 30-_ | 31-_ |
4x/Сх | 32-_ | 33-_ | 34-_ | 35-_ | 36-_ | 37-_ | 38-_ | 39-_ | 40-_ | 41-_ | 42-_ | 43-_ | 44-_ | 45-_ | 46-_ | 47-_ |
5x/Дх | 48-_ | 49-_ | 50-_ | 51-_ | 52-_ | 53-_ | 54-_ | 55-_ | 56-_ | 57-_ | 58-_ | 59-_ | 60-_ | 61-_ | 62-_ | 63-_ |
6x/Ex | 64-_ | 65-_ | 66-_ | 67-_ | 68-_ | 69-_ | 70-_ | 71-_ | 72-_ | 73-_ | 74-_ | 75-_ | 76-_ | 77-_ | 78-_ | 79-_ |
7x/FX | 80-_ | 81-_ | 82-_ | 83-_ | 84-_ | 85-_ | 86-_ | 87-_ | 88-_ | 89-_ | 90-_ | 91-_ | 92-_ | 93-_ | 94-_ | ПРИНАДЛЕЖАЩИЙ [б] |
Ведущий байт Неиспользованный ведущий байт |
Строки, не относящиеся к Ханзи [ править ]
В следующих таблицах перечислены символы, не относящиеся к ханзи, доступные в GB/T 2312, GB/T 12345 и в двухбайтовой области 1 GB 18030 (которая примерно соответствует области не-ханзи в GB/T 2312). Делаются примечания там, где они отличаются, а также где GB 6345.1 и ISO-IR-165 отличаются от них. Для сравнения сделаны перекрестные ссылки на статьи о других наборах национальных символов CJK.
Две реализации GB2312 [ править ]
EUC-CN | Подмножество GBK/GB18030 | GB2312.TXT | Имя персонажа [12] : 3 |
---|---|---|---|
А1А4 | U+00B7 · СРЕДНЯЯ ТОЧКА | U+30FB ・ КАТАКАНА СРЕДНЯЯ ТОЧКА | разделительная точка ' ' ; |
А1АА | U+2014 — ЭМ ДЭШ | U+2015 ― ГОРИЗОНТАЛЬНАЯ ПОЛОСКА | тире ' Эм ' ; |
Сопоставления Unicode интерпункта ( китайский : 间隔 点 ; букв. «точка-разделитель») и длинного тире ( китайский : 破折号 ) в подмножестве GBK и GB 18030 , соответствующем GB/T 2312 ( U+00B7 · СРЕДНЯЯ ТОЧКА и U+2014 — EM DASH ) отличаются от тех, которые указаны в GB2312.TXT ( U+30FB ・ КАТАКАНА СРЕДНЯЯ ТОЧКА и U+2015 — HORIZONTAL BAR ), который представляет собой файл данных, ранее предоставленный Консорциумом Unicode , [13] хотя с августа 2011 года он признан устаревшим [14] и больше не размещается по состоянию на сентябрь 2016 года.
По состоянию на 2015 год Microsoft .Net Framework следует сопоставлениям GB 18030 при сопоставлении этих двух символов в данных, помеченных как gb2312
, тогда как отделение интенсивной терапии , [15] значок v-1.14, [16] php-5.6, ActivePerl-5.20, Java 1.7 и Python 3.4. [17] следуйте GB2312.TXT в ответ на gb2312
этикетка. Ruby 2.2 совместим с обеими реализациями; он внутренне преобразует конфликтующие символы в подмножество GB 18030. Техническая рекомендация W3C меткой / WHATWG для использования с HTML5 определяет кодировку GBK, которая должна быть выведена для потоков с gb2312
, который, в свою очередь, использует декодер GB18030. [18]
Другие различные сопоставления были определены и использованы отдельными поставщиками. [13] включая один от Apple . [19]
Набор символов 0x21/0xA1 (строка 1: знаки препинания и символы) [ править ]
Эта строка содержит знаки препинания, математические операторы и другие символы. В следующей таблице показаны сопоставления GB 18030. [20] сначала для этих символов GB/T 2312, а затем любых других документированных сопоставлений.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ИДСП | 、 3001 | 。 3002 | · / ・ | ˉ 02C9 | ˇ 02C7 | ¨ 00A8 | 〃 3003 | каждый 3005 | — / ― | ~ / 〜 | ‖ / ∥ | … / ⋯ | ‘ 2018 | ’ 2019 | |
3x/Вх | “ 201С | ” 201Д | 〔 3014 | 〕 3015 | 〈 3008 | 〉 3009 | 《 300А | 》 300Б | 「 300С | 」 300Д | 『 300Э | 』 300Ф | 〖 3016 | 〗 3017 | 【 3010 | 】 3011 |
4x/Сх | ± 00B1 | × 00D7 | ÷ 00F7 | ∶ 2236 | ∧ 2227 | ∨ 2228 | ∑ 2211 | ∏ 220F | ∪ 222А | ∩ 2229 | ∈ 2208 | ∷ 2237 | √ 221А | ⊥ 22А5 | ∥ 2225 | ∠ 2220 |
5x/Дх | ⌒ 2312 | ⊙ 2299 | ∫ 222Б | ∮ 222Э | ≡ 2261 | ≌ 224С | ≈ 2248 | ∽ 223D | ∝ 221Д | ≠ 2260 | ≮ 226Э | ≯ 226Ф | ≤ 2264 | ≥ 2265 | ∞ 221Э | ∵ 2235 |
6x/Ex | ∴ 2234 | ♂ 2642 | ♀ 2640 | ° 00B0 | ′ 2032 | ″ 2033 | ℃ 2103 | $ FF04 | ¤ 00А4 | ¢ / ¢ | £ / £ | ‰ 2030 | § 00A7 | № 2116 | ☆ 2606 | ★ 2605 |
7x/FX | ○ 25КБ | ● 25CF | ◎ 25 год н. э. | ◇ 25С7 | ◆ 25С6 | □ 25А1 | ■ 25А0 | △ 25Б3 | ▲ 25Б2 | ※ 203Б | → 2192 | ← 2190 | ↑ 2191 | ↓ 2193 | 〓 3013 |
Набор символов 0x22/0xA2 (строка 2: маркеры списка) [ изменить ]
Эта строка содержит различные типы маркеров списка. Строчные формы римских цифр не были включены в исходный GB/T 2312. [21] ни в GB/T 12345, [6] но включены в кодовую страницу Windows 936. [22] и ГБ 18030 . [20] Знак евро также был добавлен в GB 18030. [20]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ⅰ 2170 | ⅱ 2171 | ⅲ 2172 | ⅳ 2173 | ⅴ 2174 | ⅵ 2175 | ⅶ 2176 | ⅷ 2177 | ⅸ 2178 | ⅹ 2179 | ||||||
3x/Вх | ⒈ 2488 | ⒉ 2489 | ⒊ 248А | ⒋ 248Б | ⒌ 248С | ⒍ 248Д | ⒎ 248Э | ⒏ 248F | ⒐ 2490 | ⒑ 2491 | ⒒ 2492 | ⒓ 2493 | ⒔ 2494 | ⒕ 2495 | ⒖ 2496 | |
4x/Сх | ⒗ 2497 | ⒘ 2498 | ⒙ 2499 | ⒚ 249А | ⒛ 249Б | ⑴ 2474 | ⑵ 2475 | ⑶ 2476 | ⑷ 2477 | ⑸ 2478 | ⑹ 2479 | ⑺ 247А | ⑻ 247Б | ⑼ 247С | ⑽ 247Д | ⑾ 247Э |
5x/Дх | ⑿ 247F | ⒀ 2480 | ⒁ 2481 | ⒂ 2482 | ⒃ 2483 | ⒄ 2484 | ⒅ 2485 | ⒆ 2486 | ⒇ 2487 | ① 2460 | ② 2461 | ③ 2462 | ④ 2463 | ⑤ 2464 | ⑥ 2465 | ⑦ 2466 |
6x/Ex | ⑧ 2467 | ⑨ 2468 | ⑩ 2469 | € 20AC | ㈠ 3220 | ㈡ 3221 | ㈢ 3222 | ㈣ 3223 | ㈤ 3224 | ㈥ 3225 | ㈦ 3226 | ㈧ 3227 | ㈨ 3228 | ㈩ 3229 | ||
7x/FX | Ⅰ 2160 | Ⅱ 2161 | Ⅲ 2162 | Ⅳ 2163 | Ⅴ 2164 | Ⅵ 2165 | Ⅶ 2166 | Ⅷ 2167 | Ⅸ 2168 | Ⅹ 2169 | Ⅺ 216А | Ⅻ 216Б |
Набор символов 0x23/0xA3 (строка 3: ISO 646-CN) [ править ]
Эта строка содержит ISO 646-CN (GB/T 1988-80), национальный аналог ASCII . Сравните строку 3 KS X 1001 , которая делает то же самое с южнокорейской версией ISO 646, и строку 3 JIS X 0208 и KPS 9566 , которые включают только буквенно-цифровой подмножество, но в том же макете. В следующей таблице указан ISO 646-CN.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ! 0021 | " 0022 | # 0023 | ¥ 00А5 | % 0025 | & 0026 | ' 0027 | ( 0028 | ) 0029 | * 002А | + 002Б | , 002C | - 002D | . 002E | / 002F | |
3x/Вх | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003А | ; 003Б | < 003C | = 003D | > 003E | ? 003F |
4x/Сх | @ 0040 | А 0041 | Б 0042 | С 0043 | Д 0044 | И 0045 | Ф 0046 | Г 0047 | ЧАС 0048 | я 0049 | Дж 004А | К 004Б | л 004C | М 004D | Н 004E | ТО 004F |
5x/Дх | П 0050 | вопрос 0051 | Р 0052 | С 0053 | Т 0054 | В 0055 | V 0056 | В 0057 | Х 0058 | И 0059 | С 005А | [ 005Б | \ 005C | ] 005D | ^ 005E | _ 005F |
6x/Ex | ` 0060 | а 0061 | б 0062 | с 0063 | д 0064 | и 0065 | ж 0066 | г 0067 | час 0068 | я 0069 | дж 006А | к 006Б | л 006C | м 006D | н 006E | тот 006F |
7x/FX | п 0070 | д 0071 | р 0072 | с 0073 | т 0074 | в 0075 | v 0076 | В 0077 | х 0078 | и 0079 | С 007А | { 007Б | | 007C | } 007D | ‾ 203E |
При использовании в кодировке, допускающей комбинацию с ASCII, такой как EUC-CN (и его расширенный набор GB 18030 ), эти символы обычно реализуются как символы полной ширины сопоставления с блоками форм половинной и полной ширины, , поэтому используются как показано ниже. GB 6345.1 также обрабатывает эту строку как полную ширину и добавляет формы половинной ширины (как указано выше) как строку 10. [1] Apple в основном сопоставляет эту строку с кодовыми точками полной ширины, как показано ниже, но использует сопоставления не полной ширины для надстрочной линии и знака юаня , как указано выше. [19]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ! FF01 | " FF02 | # FF03 | ¥ ФФЭ5 | % FF05 | & FF06 | ' FF07 | ( FF08 | ) FF09 | * FF0A | + FF0B | , FF0C | - ФФ0Д | . ФФ0Е | / ФФ0Ф | |
3x/Вх | 0 ФФ10 | 1 ФФ11 | 2 ФФ12 | 3 ФФ13 | 4 ФФ14 | 5 ФФ15 | 6 ФФ16 | 7 ФФ17 | 8 ФФ18 | 9 ФФ19 | : ФФ1А | ; FF1B | < FF1C | = ФФ1Д | > ФФ1Е | ? ФФ1Ф |
4x/Сх | @ ФФ20 | A ФФ21 | B ФФ22 | C ФФ23 | D ФФ24 | E ФФ25 | F ФФ26 | G ФФ27 | H ФФ28 | I ФФ29 | J ФФ2А | K ФФ2Б | L ФФ2С | M ФФ2Д | N ФФ2Е | O ФФ2Ф |
5x/Дх | P ФФ30 | Q ФФ31 | R ФФ32 | S ФФ33 | T ФФ34 | U ФФ35 | V ФФ36 | W ФФ37 | X ФФ38 | Y ФФ39 | Z ФФ3А | [ ФФ3Б | \ FF3C | ] ФФ3D | ^ ФФ3Е | _ ФФ3Ф |
6x/Ex | ` ФФ40 | a ФФ41 | b ФФ42 | c ФФ43 | d ФФ44 | e ФФ45 | f ФФ46 | g / ɡ [с] | h ФФ48 | i ФФ49 | j ФФ4А | k FF4B | l FF4C | m ФФ4Д | n ФФ4Е | o ФФ4Ф |
7x/FX | p ФФ50 | q ФФ51 | r ФФ52 | s ФФ53 | t ФФ54 | u ФФ55 | v ФФ56 | w ФФ57 | x ФФ58 | y ФФ59 | z ФФ5А | { ФФ5Б | | FF5C | } ФФ5Д |  ̄ ФФЭ3 |
Набор символов 0x24/0xA4 (строка 4: Хирагана) [ править ]
Этот набор содержит хирагану для письма на японском языке .
Сравните со строкой 4 JIS X 0208 , которой соответствует эта строка, и со строкой 10 из KS X 1001 и KPS 9566 , которые используют ту же компоновку, но в другой строке.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ах 3041 | а 3042 | я 3043 | желудок 3044 | Эм-м-м 3045 | баклан 3046 | Эх 3047 | картина 3048 | Ой 3049 | ой 304А | комар 304Б | но 304С | дерево 304D | Ги 304Э | Ку 304F | |
3x/Вх | ингредиент 3050 | волосы 3051 | Ге 3052 | ребенок 3053 | Идти 3054 | разница 3055 | ざ 3056 | смерть 3057 | характер 3058 | уксус 3059 | фигура 305А | высота 305Б | Зе 305С | Так 305Д | Ух ты 305Э | Та 305Ф |
4x/Сх | является 3060 | Чи 3061 | Ди 3062 | Ух ты 3063 | Один 3064 | цу 3065 | рука 3066 | в 3067 | и 3068 | степень 3069 | На 306А | к 306Б | Ню 306С | привет 306D | из 306Э | зубы 306F |
5x/Дх | Ба 3070 | Па 3071 | огонь 3072 | Красота 3073 | Пи 3074 | долг 3075 | Бу 3076 | Пу 3077 | пердеть 3078 | Быть 3079 | Пе 307А | Хо 307Б | Бо 307С | По 307Д | Ма 307Э | фрукты 307F |
6x/Ex | ничего 3080 | глаз 3081 | слишком 3082 | Ага 3083 | или 3084 | ты 3085 | горячая вода 3086 | Йо 3087 | Йо 3088 | и другие 3089 | закон природы 308А | Ру 308Б | Ре 308С | реактор 308Д | ゎ 308Э | круг 308F |
7x/FX | ゐ 3090 | Э 3091 | из 3092 | ага 3093 |
Набор символов 0x25/0xA5 (строка 5: катакана) [ править ]
В этот набор входит катакана для письма на японском языке . Однако японский знак долгой гласной , который используется в тексте катаканы и включен в строку 1 JIS X 0208 , не включен в GB/T 2312, хотя он добавлен в GBK и GB 18030 за пределами основного GB/T 2312. самолет, [24] по адресу 0xA960. [20]
Сравните со строкой 5 JIS X 0208 , которой соответствует эта строка, и со строкой 11 из KS X 1001 и KPS 9566 , которые используют ту же компоновку, но в другой строке.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | А 30А1 | а 30А2 | я 30А3 | желудок 30А4 | ты 30А5 | баклан 30А6 | Э 30А7 | рабочий 30А8 | Ой 30А9 | О 30АА | комар 30АБ | Га 30AC | дерево 30 год нашей эры | Ги 30АЭ | девять 30АФ | |
3x/Вх | Группа 30B0 | Ке 30Б1 | Игра 30Б2 | Ко 30Б3 | Идти 30Б4 | са 30Б5 | ザ 30Б6 | С 30Б7 | Джи 30Б8 | уксус 30Б9 | З 30БА | Се 30ББ | Зе 30 г. до н.э. | Так 30BD | Зо 30 лет назад | Та 30БФ |
4x/Сх | да 30C0 | кровь 30С1 | Ди 30С2 | Ух ты 30С3 | цу 30С4 | ㅅ 30С5 | Те 30С6 | де 30С7 | к 30С8 | де 30С9 | На 30КА | Д 30CB | Ню 30CC | Не 30CD | из 30 год н.э. | С 30CF |
5x/Дх | Ба 30D0 | год 30Д1 | Привет 30Д2 | Би 30Д3 | Пи 30Д4 | центр 30Д5 | Бу 30Д6 | П 30Д7 | Ф 30Д8 | Быть 30Д9 | Пе 30ДА | Хо 30ДБ | Бо 30DC | По 30ДД | Ма 30DE | Ми 30ДФ |
6x/Ex | Му 30E0 | Почта 30Е1 | Мо 30Е2 | Ча 30Е3 | Да 30Е4 | ты 30Е5 | Ю 30Е6 | йоу 30Е7 | Йо 30Е8 | Ла 30E9 | Ли 30EA | ле 30ЭБ | Ре 30ЕС | Б 30ЭД | ヮ 30EE | Ва 30EF |
7x/FX | ヰ 30F0 | ヱ 30Ф1 | горе 30Ф2 | хм 30Ф3 | В 30F4 | Ка 30F5 | га 30Ф6 |
Набор символов 0x26/0xA6 (строка 6: греческое и вертикальное расширения) [ править ]
Эта строка содержит базовую поддержку современного греческого алфавита без диакритических знаков и последней сигмы .
Выделенные символы представляют собой формы представления знаков препинания для вертикального письма и не включены в собственно GB/T 2312, но включены в этот ряд GB/T 12345, [1] [6] Кодовая страница Windows 936 , [22] Mac OS, упрощенный китайский, [19] и ГБ 18030. [20] Они рассматриваются как «стандартные расширения GB 2312». [19] И наоборот, ISO-IR-165 включает в эту строку узорчатые полуграфические символы (в основном без точных аналогов в Юникоде), что противоречит позициям кода, используемым для вертикальных расширений. [25]
Сравните со строкой 6 JIS X 0208 , которой эта строка соответствует, если не включены вертикальные формы, и со строкой 6 KPS 9566 , которая включает те же греческие буквы в той же раскладке, но добавляет римские цифры вместо вертикальных форм. Сравните строку 5 KS X 1001 , в которой греческие буквы смещены, чтобы сначала были включены римские цифры.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | А 0391 | Б 0392 | С 0393 | Д 0394 | Э 0395 | Г 0396 | ИЛИ 0397 | че 0398 | я 0399 | К 039А | л 039Б | М 039С | Н 039D | Х 039E | ТО 039F | |
3x/Вх | П 03A0 | Р 03А1 | С 03А3 | Т 03А4 | Да 03А5 | Ф 03А6 | Х 03А7 | P.S. 03А8 | Ой 03А9 | |||||||
4x/Сх | а 03B1 | б 03Б2 | с 03B3 | д 03B4 | е 03B5 | г 03Б6 | или 03Б7 | я 03Б8 | я 03B9 | Мистер 03BA | л 03BB | м 03BC | н 03BD | х 03BE | тот 03BF | |
5x/Дх | п 03C0 | р 03C1 | п 03C3 | т 03C4 | ты 03C5 | ж 03C6 | час 03C7 | п 03C8 | ой 03C9 | ︐ [д] FE10 | ︒ [д] FE12 | ︑ [д] FE11 | ︓ [д] FE13 | ︔ [д] FE14 | ︕ [д] FE15 | ︖ [д] FE16 |
6x/Ex | ︵ FE35 | ︶ FE36 | ︹ FE39 | ︺ FE3A | ︿ FE3F | ﹀ FE40 | ︽ FE3D | ︾ FE3E | ﹁ FE41 | ﹂ FE42 | ﹃ FE43 | ﹄ FE44 | ︗ [д] FE17 | ︘ [д] FE18 | ︻ FE3B | ︼ FE3C |
7x/FX | ︷ FE37 | ︸ FE38 | ︱ FE31 | ︙ [д] FE19 | ︳ FE33 | ︴ FE34 |
Набор символов 0x27/0xA7 (строка 7: кириллица) [ править ]
В этот набор входят оба корпуса по 33 буквы кириллицы , достаточные для написания современного русского алфавита и болгарского алфавита , хотя другие формы кириллицы требуют дополнительных букв. [27]
Сравните со строкой 7 JIS X 0208 , которой соответствует эта строка, а также со строкой 12 из KS X 1001 и строкой 5 из KPS 9566 , которые используют ту же компоновку, но в разных строках.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | А 0410 | Б 0411 | В 0412 | Г 0413 | Д 0414 | Хорошо 0415 | Или 0401 | Же 0416 | С 0417 | И 0418 | И 0419 | К 041А | л 041Б | М 041С | Н 041D | |
3x/Вх | О 041E | П 041F | Р 0420 | С 0421 | Т 0422 | У 0423 | Ф 0424 | Х 0425 | Ц 0426 | Ч 0427 | Ш 0428 | Щ 0429 | Ъ 042А | Да 042Б | Ь 042C | Э 042D |
4x/Сх | Ю 042E | Я 042F | ||||||||||||||
5x/Дх | а 0430 | б 0431 | в 0432 | г 0433 | д 0434 | является 0435 | или 0451 | же 0436 | с 0437 | и 0438 | и 0439 | к 043А | л 043Б | м 043С | н 043D | |
6x/Ex | о 043E | п 043F | р 0440 | с 0441 | т 0442 | у 0443 | ф 0444 | х 0445 | час 0446 | час 0447 | ш 0448 | щ 0449 | ъ 044А | й 044Б | ь 044C | э 044D |
7x/FX | ю 044E | я 044F |
Набор символов 0x28/0xA8 (строка 8: чжуинь и пиньинь, не входящая в ASCII) [ править ]
Эта строка содержит символы бопомофо и пиньинь , за исключением букв ASCII (которые находятся в строке 3). Выделенные символы — это те символы, которых нет в базовом наборе GB 2312, но добавлены GB 6345.1 . [19] а также включен в GB/T 12345, [1] [6] Кодовая страница Windows 936 , [22] Mac OS Упрощенный китайский [19] и ГБ 18030. [20] Они рассматриваются как «стандартные расширения GB 2312». [19]
GB 6345.1 рассматривает пиньинь в этой строке как полную ширину и включает аналоги половинной ширины как строку 11; [1] GB 18030 этого не делает.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | и 0101 | на 00E1 | ώ 01CE | имеет 00E0 | были 0113 | и 00E9 | Э 011Б | И 00E8 | я 012Б | в 00ED | ϐ 01D0 | я 00EC | ой 014D | от 00F3 | ϒ 01D2 | |
3x/Вх | ò 00F2 | Эм-м-м 016Б | ты 00FA | ϔ 01D4 | ты 00F9 | ٖ 01D6 | ٘ 01D8 | ٚ 01 ДА | Ɯ 01DC | ты 00FC | ага 00ЕА | ɑ 0251 | ḿ [и] 1E3F | является 0144 | нет 0148 | н [ф] 01F9 |
4x/Сх | ɡ / g [г] | ㄅ 3105 | ㄆ 3106 | ㄇ 3107 | ㄈ 3108 | ㄉ 3109 | ㄊ 310А | ㄋ 310Б | ㄌ 310С | ㄍ 310Д | ㄎ 310Э | ㄏ 310Ф | ||||
5x/Дх | ㄐ 3110 | ㄑ 3111 | ㄒ 3112 | ㄓ 3113 | ㄔ 3114 | ㄕ 3115 | ㄖ 3116 | ㄗ 3117 | ㄘ 3118 | ㄙ 3119 | ㄚ 311А | ㄛ 311Б | ㄜ 311С | ㄝ 311Д | ㄞ 311Э | ㄟ 311Ф |
6x/Ex | ㄠ 3120 | ㄡ 3121 | ㄢ 3122 | ㄣ 3123 | ㄤ 3124 | ㄥ 3125 | ㄦ 3126 | ㄧ 3127 | ㄨ 3128 | ㄩ 3129 | ||||||
7x/FX |
Набор символов 0x29/0xA9 (строка 9: рисунок рамки) [ править ]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ─ 2500 | ━ 2501 | │ 2502 | ┃ 2503 | ┄ 2504 | ┅ 2505 | ┆ 2506 | ┇ 2507 | ┈ 2508 | ┉ 2509 | ┊ 250А | ┋ 250Б | ||||
3x/Вх | ┌ 250С | ┍ 250Д | ┎ 250E | ┏ 250Ф | ┐ 2510 | ┑ 2511 | ┒ 2512 | ┓ 2513 | └ 2514 | ┕ 2515 | ┖ 2516 | ┗ 2517 | ┘ 2518 | ┙ 2519 | ┚ 251А | ┛ 251Б |
4x/Сх | ├ 251С | ┝ 251Д | ┞ 251Э | ┟ 251F | ┠ 2520 | ┡ 2521 | ┢ 2522 | ┣ 2523 | ┤ 2524 | ┥ 2525 | ┦ 2526 | ┧ 2527 | ┨ 2528 | ┩ 2529 | ┪ 252А | ┫ 252Б |
5x/Дх | ┬ 252С | ┭ 252Д | ┮ 252Э | ┯ 252Ф | ┰ 2530 | ┱ 2531 | ┲ 2532 | ┳ 2533 | ┴ 2534 | ┵ 2535 | ┶ 2536 | ┷ 2537 | ┸ 2538 | ┹ 2539 | ┺ 253А | ┻ 253Б |
6x/Ex | ┼ 253С | ┽ 253Д | ┾ 253Э | ┿ 253F | ╀ 2540 | ╁ 2541 | ╂ 2542 | ╃ 2543 | ╄ 2544 | ╅ 2545 | ╆ 2546 | ╇ 2547 | ╈ 2548 | ╉ 2549 | ╊ 254А | ╋ 254Б |
7x/FX |
Ханзи ряды [ править ]
Исправления [ править ]
GB 5007.1-85 24x24 растровых шрифтов Набор информацией — это : китайских иероглифов для обмена самый ранний шаблон шрифта, основанный на GB/T 2312, который содержит исправления и расширения, включая
- изменение формы глифа латинского алфавита «g»
- добавление 6 Ханью Пиньинь символов : ɑ , ḿ , ń , ň , ǹ , ɡ [примечание 1]
- изменил " 鍾 " на " 锺 "
- включало 94 глифа половинной ширины в строку 10 (форма половинной ширины строки 3, эквивалентная GB 1988–80).
- включена полуширина из 32 символов Ханью Пиньинь из строки 8 в строке 11.
В GB/T 2312 исправлений не было, но эти исправления включены в шаблоны шрифтов, основанные на GB/T 2312, включая GB/T 12345; его суперсеты GBK и GB 18030 также включали эти исправления. GB/T 2312 также используется в ISO-IR-165 .
См. также [ править ]
- Код Гобяо
- Персонажи CJK
- Кодировка китайских символов
- Юникод
- Big5 – стандарт, используемый в Тайване и Гонконге.
- GB 18030 , пришедший на смену GB/T 2312-1980.
- GB/T 12345-1990 , традиционный аналог GB/T 2312-1980, заменен GB18030.
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б с д и Лунде, Кен (2009). Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . стр. 94–111. ISBN 978-0-596-51447-1 .
- ^ «Бюллетень национального стандарта Китая за 2017 год, № 7» Проверено . 3 июля 2018 года .
- ^ «Распространение кодировок символов между веб-сайтами, использующими Китай и территории» . w3techs.com . Проверено 4 сентября 2022 г.
- ^ «Исторические тенденции статистики использования кодировок символов для веб-сайтов, октябрь 2022 г.» . w3techs.com . Проверено 1 октября 2022 г.
- ^ «Кодирование: Обобщенные результаты испытаний» . www.w3.org . Проверено 15 ноября 2019 г.
- ^ Jump up to: Перейти обратно: а б с д Лунде, Кен (1998). Приложение F: GB/T 12345 (PDF) . О'Рейли Медиа . ISBN 9781565922242 .
{{cite book}}
:|work=
игнорируется ( помогите ) - ^ GB12345-80 в таблицу Юникода . Консорциум Юникод . 06.12.1993. Архивировано из оригинала 17 июня 2004 г.
- ^ Ханнас, Уильям К. (1997). Орфографическая дилемма Азии . Гавайский университет Press. п. 264. ИСБН 9780824818920 .
комплект обеспечивает более 99,99 процентов всего использования. Тем не менее дизайнеры сочли необходимым добавить 14 276 символов «специального использования» на случай непредвиденных обстоятельств!
- ^ «GB 2312-1980: Информационные технологии — набор символов, закодированный китайской идеограммой для обмена информацией (базовый набор)» . Май 1981 года.
- ^ «Юникод в таблицу GB2312 или GBK» . cs.nyu.edu . Архивировано из оригинала 3 марта 2016 года . Проверено 11 января 2022 г.
- ^ Jump up to: Перейти обратно: а б Лунде, Кен Роджер (декабрь 2008 г.). Обработка информации CJKV (2-е изд.). О'Рейли . ISBN 978-0-596-51447-1 .
- ^ «GB 2312-1980: Информационные технологии — набор символов, закодированный китайской идеограммой для обмена информацией (базовый набор)» . Май 1981 года . Проверено 2 октября 2016 г.
- ^ Jump up to: Перейти обратно: а б Хайбле, Бруно. «GB2312 (Таблицы преобразования)» . Проверено 29 сентября 2016 г.
- ^ «Readme – MAPPINGS/OSOLETE/EASTASIA» . 9 августа 2001 года . Проверено 29 сентября 2016 г.
- ^ "java-EUC_CN-1.3_P.ucm" . Проверено 29 сентября 2016 г. [ постоянная мертвая ссылка ]
- ^ "libiconv:lib/gb2312.h" . ГНУ Саванна . Проверено 29 сентября 2016 г.
- ^ «Выпуск 24036» . Трекер ошибок Python .
- ^ «Кодировка § Имена и метки» . W3C . Проверено 29 сентября 2016 г.
- ^ Jump up to: Перейти обратно: а б с д и ж г час я дж «Сопоставление (внешняя версия) упрощенной китайской кодировки Mac OS с Unicode 3.0 и более поздних версий» . Apple, Inc.
- ^ Jump up to: Перейти обратно: а б с д и ж г час я дж Управление стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии — набор китайских кодированных символов .
- ^ Китайская ассоциация по стандартизации . Набор китайских графических символов для обмена информацией (PDF) . ITSCJ/ IPSJ . ИСО-ИК -58.
- ^ Jump up to: Перейти обратно: а б с д и ж Майкрософт . «КОДОВАЯ СТРАНИЦА 936: КНР ГБК (XGB) — ANSI, OEM» . Консорциум Юникод .
- ^ Jump up to: Перейти обратно: а б Вишванадха, Рагурам (30 августа 2000 г.). «Таблица Unicode в ISO-IR-165» . Международные компоненты для Unicode . ИБМ .
- ^ Лунде, Кен (2009). «Кажется, пропавшие персонажи». Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . п. 180. ИСБН 978-0-596-51447-1 .
- ^ Jump up to: Перейти обратно: а б МКИТТ (13 июля 1992 г.). Коды китайского графического набора символов для связи (PDF) . ITSCJ/ IPSJ . ИСО-ИК -165.
- ^ Лунде, доктор Кен (4 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 7 августа 2022 г.
- ^ Чиборра, Роман (30 ноября 1998 г.) [25 мая 1998 г.]. «Суп с кириллицей» . Архивировано из оригинала 3 декабря 2016 г. Проверено 3 декабря 2016 г.
- ^ «Политика стабильности кодировки символов Юникода» . Консорциум Юникод. 23 июня 2017 г.
Примечания [ править ]
- ^ Только для иероглифов, предусмотренных GB/T 2312, все из которых соответствуют Unicode BMP.
- ^ Jump up to: Перейти обратно: а б Совместимость с ISO 2022 94 н -набор символов, простой пробел и символ удаления доступны в виде однобайтовых кодов по адресам 0x20 и 0x7F (не 0xA0 и 0xFF) соответственно.
- ^ Используется дляU+FF47 в большинстве реализаций на основе GB 6345.1 , включая реализацию Apple и GB 18030 (которые используют 8-32 дляU+0261), [20] но дляU+0261 по ISO-IR-165 . [23]
- ^ Jump up to: Перейти обратно: а б с д и ж г час я дж Эти символы из блока «Вертикальные формы» . Некоторые используемые сопоставления были разработаны, когда единственными формами вертикального представления, существовавшими в Unicode, были формы в блоке CJK Compatibility Forms . В частности, они сопоставляются Windows-936 и ранее GB 18030 с областью частного использования , но с определенным глифом, [22] [20] и Apple к обычному полноширинному символу с добавленным символом частного использования.U+F87E как маркер вариации. [19] В обновлении GB 18030-2022 эти сопоставления областей частного использования были удалены и теперь сопоставлены со стандартными кодовыми точками Unicode. [26]
- ^ Сопоставлено с зоной частного использования. U+E7C7 в первой (2000 г.) редакции GB 18030 , а также в Windows-936; [22] в это были внесены поправки, внесенные в издание GB 18030 2005 года. [20]
- ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот символ был сопоставлен с его композиционной последовательностью (т. е. U+006E+0300 ) от Apple. [19] Это изменение предшествовало стабилизации форм нормализации Unicode , которая была введена в Unicode 3.1. [28] Он сопоставлен с зоной частного использования. U+E7C8 от Windows-936. [22]
- ^ Сопоставлено сU + 0261 в ГБ 18030 [20] и большинство других реализаций на основе GB 6345.1. [19] (которые используют 3-71 дляU+FF47), но чтобыU+FF47 в ISO-IR-165. [23] [25]
- ^ ɑ (U + 0251)
ḿ (U+1E3F; представлено в Unicode 3.0, поэтому CP936 не включал этот символ [1] [ постоянная мертвая ссылка ] )
(U + 0144)
ň (U+0148)
ǹ (U+01F9; представлено в Юникоде 3.0, поэтому CP936 не включал этот символ [2] [ постоянная мертвая ссылка ] )
ɡ (U + 0261)
Дальнейшее чтение [ править ]
- Лунде, Кен (2009). «Стандарты китайского набора символов — Китай» . Обработка информации CJKV (2-е изд.). О'Рейли. ISBN 978-0-596-51447-1 .
Внешние ссылки [ править ]
- Графическое представление GB2312 в Converter Explorer ICU
- Юникод в таблицу GB2312 или GBK
- Коды китайских символов
- Эволюция GBK и GB2312 в GB18030
- GB2312 Набор символов для китайских иероглифов
- Кодированный набор китайских графических символов для обмена информацией ISO-IR 58
- Код C генерирует 6763 основных символа с выводом
- Стандарт GB2312-80 на China-Language.gov.cn