ГБ 2312
![]() | Вы можете помочь дополнить эту статью текстом, переведенным из соответствующей статьи на китайском языке . (сентябрь 2016 г.) Нажмите [показать], чтобы просмотреть важные инструкции по переводу. |
МИМ / IANA | GB_2312-80 ( GB2312 для обычной формы EUC) |
---|---|
Псевдоним(а) | iso-ir-58, китайский, csGB2312, csISO58GB231280 |
Язык(и) | Упрощенный китайский , английский Частичная поддержка: Традиционный китайский , русский , болгарский , греческий , японский , итальянский , ирландский , маори. |
Стандартный | ГБ/Т 2312-1980 |
Классификация | ISO-2022 Совместимость с DBCS , CJK кодировка |
Расширения | ИСО-ИР-165 |
Форматы кодирования |
|
Предшествует | Китайский телеграфный код |
Преемник | ГБК , ГБ 18030 |
Другая связанная кодировка(и) | ДЖИС С 0208 , КС С 1001 |
GB/T 2312-1980 — ключевой официальный набор символов , Китайской Народной Республики используемый для символов упрощенного китайского языка . GB2312 — это зарегистрированное интернет-имя EUC-CN , которое представляет собой его обычную закодированную форму. GB относится к стандартам Гобяо (国家标准), тогда как суффикс T ( 推荐 ; tuījiàn ; «рекомендация») обозначает необязательный стандарт. [1]
GB/T 2312-1980 изначально был обязательным национальным стандартом, получившим обозначение GB 2312-1980 . Однако после выхода Национального стандартного бюллетеня Китайской Народной Республики в 2017 году GB 2312 больше не является обязательным, а его стандартный код изменен на GB/T 2312-1980 . [2] GB/T 2312-1980 был заменен GBK и GB 18030 , которые включают дополнительные символы, но GB/T 2312 по-прежнему широко используется как подмножество этих кодировок.
По состоянию на сентябрь 2022 г. [update]GB2312 — вторая по популярности кодировка, обслуживаемая в Китае и других регионах (после UTF-8 ), при этом 5,5% веб-серверов обслуживают страницы, объявляющие ее. [3] Во всем мире GB2312 заявлен на 0,1% всех веб-страниц. [4] Однако все основные веб-браузеры декодируют документы с пометкой GB2312, как если бы они были помечены расширенной кодировкой GBK, за исключением Safari и Edge на этикетке. GB_2312
. [5]
Существует аналогичный набор символов, известный как GB/T 12345 Код китайского набора иероглифов для дополнительного набора обмена информацией , который дополняет GB/T 2312 традиционными формами символов путем замены упрощенных форм в их коде qūwèi и некоторых дополнительных 62 дополнительных символов. [6] [7] Шрифты в кодировке GB часто поставляются парами: один с набором символов GB/T 2312 (упрощенный), а другой с набором символов GB/T 12345 (традиционный). Существует больше наборов дополнительных кодировок GB, дополняющих GB/T 2312, в том числе GB/T 7589 Кодекс китайских иеограмм, набор для обмена информацией — 2-й дополнительный набор и GB/T 7590 Код китайских иеограмм, набор для обмена информацией — 4-й дополнительный набор. который предоставляет дополнительные [варианты китайских символов | варианты символов] в том же формате кодировки qūwèi (позже использованном в ISO-2022-CN), но не имеет никакого отношения к символам, закодированным в GB/T 2312.
Диапазон символов в строках [ править ]
GB/T 2312 охватывает более 99,99% использования современного текста на китайском языке. [8] исторические тексты и многие имена остаются за рамками рассмотрения. Старый стандарт GB 2312 включает 6763 китайских иероглифа (на двух уровнях: первый упорядочен по чтению, второй по радикалу , а затем по количеству штрихов), а также символы и знаки препинания, японскую кану , греческий и кириллический алфавиты , чжуинь и двойной символ. -байтовый набор букв пиньинь со знаками тона. В более поздней версии GB/T 2312-1980 имеется 7445 букв.
Символы в GB/T 2312 расположены в сетке 94×94 (как в ISO 2022 ), а двухбайтовая кодовая точка каждого символа выражается в форме qūwèi ( 区位 ), которая определяет строку ( 区 ; qū ). и положение символа в строке (ячейка; 位 ; wèi ). (Эта структура такая же, как и в других , основанных на ISO-2022 национальных CJK стандартах набора символов ; сравните kuten .) Например, символ «外» (означающий: иностранный) расположен в строке 45, позиции 66, [9] таким образом, его код кувей — 45–66.
Строки (с номерами от 1 до 94) содержат следующие символы:
- 01–09, состоящие из знаков препинания и других специальных символов; также хирагана , катакана , греческий язык , кириллица , пиньинь , бопомофо.
- 16–55 — первый уровень китайских иероглифов , упорядоченный по системе Пиньинь . (3755 символов).
- 56–87, второй уровень китайских иероглифов, упорядоченных по радикалам и штрихам. (3008 символов).
Строки 10–15 и 88–94 не назначены.
Для GB/T 2312-1980 он содержит 682 знака и 6763 китайских иероглифа.
Кодировки GB/T 2312 [ править ]
EUC-CN [ править ]
EUC-CN часто используется в качестве кодировки символов (т. е. для внешнего хранилища) в программах, работающих с GB/T 2312, что обеспечивает совместимость с ASCII . Два байта используются для представления каждого символа, не найденного в ASCII . Значение первого байта от 0xA1–0xF7
(161–247), а значение второго байта от 0xA1–0xFE
(161–254). Поскольку все эти диапазоны выходят за рамки ASCII, например UTF-8, при использовании EUC-CN можно проверить, является ли байт частью многобайтовой конструкции, но не является ли байт первым или последним.
По сравнению с UTF-8 , GB/T 2312 (как собственный, так и закодированный в EUC-CN) более эффективен для хранения: тогда как UTF-8 использует три байта. [а] на каждый иероглиф CJK в GB/T 2312 используется только два. Однако GB/T 2312 не охватывает столько иероглифов, как Unicode.
Чтобы сопоставить кодовые точки qūwei с байтами EUC, добавьте 160 ( 0xA0
) как к номеру строки (или qū, 区), так и к номеру ячейки/столбца ( десять или вэй, 位). Результат сложения с номером строки кодовой точки сформирует старший байт, а результат сложения с номером ячейки кодовой точки сформирует младший байт.
Например, чтобы закодировать символ «外» в ячейке qūwèi 45–66, старший байт будет использовать номер строки 45: 45+160=205= 0xCD
, а младший байт будет из ячейки с номером 66: 66+160=226= 0xE2
. Итак, полная кодировка <CD E2>
. [10] [11]
ISO-2022-CN [ править ]
ISO-2022-CN — это еще одна форма кодировки GB/T 2312, которая также является кодировкой, указанной в официальной документации. Эта кодировка ссылается на стандарт ISO-2022 , который также использует два байта для кодирования символов, отсутствующих в ASCII. Однако вместо использования расширенной области ASCII в ISO-2022 используется тот же диапазон байтов, что и в ASCII: значение первого байта составляет от 0x21–0x77
(33–119), а значение второго байта от 0x21–0x7E
(33–126). Поскольку диапазон байтов значительно перекрывает ASCII, необходимы специальные символы, чтобы указать, находится ли символ в диапазоне ASCII или является частью двухбайтовой последовательности расширенной области, а именно функции Shift Out и Shift In . Это создает риск неправильного кодирования, поскольку неправильная обработка текста может привести к потере информации.
Чтобы сопоставить кодовые точки qūwèi с байтами ISO-2022, добавьте 32 ( 0x20
) как к номеру строки (или qū, 区), так и к номеру ячейки/столбца (или wèi, 位). Результат добавления к номеру строки кодовой точки сформирует старший байт, а результат добавления к номеру ячейки кодовой точки сформирует младший байт, аналогично кодированию EUC.
Например, чтобы закодировать символ «外» в ячейке qūwèi 45–66, старший байт будет использовать номер строки 45: 45+32=77= 0x4D
, а младший байт будет из ячейки с номером 66: 66+32=98= 0x62
. Итак, полная кодировка <4D 62>
. [11]
ХЗ [ править ]
HZ — это еще одна кодировка GB/T 2312, которая используется в основном для в Usenet публикаций ; символы представлены теми же парами байтов, что и в ISO-2022-CN, но последовательности байтов, обозначающие начало и конец диапазона текста GB 2312, различаются.
Таблицы кодов [ править ]
21-0x7E) используется меньшее (с неустановленным или недоступным восьмым битом) В таблицах ниже, где для префиксного байта или кодового байта указана пара шестнадцатеричных чисел, при кодировании через GL ( 0x , как в ISO- 2022-CN или HZ-GB-2312 , а больший (с установленным восьмым битом) используется в более типичном случае его кодирования через GR (0xA1-0xFE), как в EUC-CN , GBK или GB 18030 . Числа Цювэй даны в десятичном формате.
Когда GB/T 2312 кодируется через GR, в обоих байтах установлен восьмой бит (т. е. они больше 0x7F). GBK и GB 18030 также используют двухбайтовые коды, в которых только первый байт имеет восьмой бит, установленный для целей расширения: такие коды находятся за пределами плоскости GB/T 2312 и здесь не приводятся в таблице.
Ведущий байт [ править ]
На этой диаграмме подробно описана общая компоновка основной плоскости набора символов GB/T 2312 по ведущим байтам. Для ведущих байтов, используемых для символов, отличных от hanzi , предоставляются ссылки на таблицы на этой странице, в которых перечислены символы, закодированные под этим ведущим байтом. Для ведущих байтов, используемых для ханзи, предоставляются ссылки на соответствующий раздел . индекса ханзи Викисловаря
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | СП [б] | 1-_ | 2-_ | 3-_ | 4-_ | 5-_ | 6-_ | 7-_ | 8-_ | 9-_ | 10-_ | 11-_ | 12-_ | 13-_ | 14-_ | 15-_ |
3x/Вх | 16-_ | 17-_ | 18-_ | 19-_ | 20-_ | 21-_ | 22-_ | 23-_ | 24-_ | 25-_ | 26-_ | 27-_ | 28-_ | 29-_ | 30-_ | 31-_ |
4x/Сх | 32-_ | 33-_ | 34-_ | 35-_ | 36-_ | 37-_ | 38-_ | 39-_ | 40-_ | 41-_ | 42-_ | 43-_ | 44-_ | 45-_ | 46-_ | 47-_ |
5x/Дх | 48-_ | 49-_ | 50-_ | 51-_ | 52-_ | 53-_ | 54-_ | 55-_ | 56-_ | 57-_ | 58-_ | 59-_ | 60-_ | 61-_ | 62-_ | 63-_ |
6x/Ex | 64-_ | 65-_ | 66-_ | 67-_ | 68-_ | 69-_ | 70-_ | 71-_ | 72-_ | 73-_ | 74-_ | 75-_ | 76-_ | 77-_ | 78-_ | 79-_ |
7x/FX | 80-_ | 81-_ | 82-_ | 83-_ | 84-_ | 85-_ | 86-_ | 87-_ | 88-_ | 89-_ | 90-_ | 91-_ | 92-_ | 93-_ | 94-_ | ПРИНАДЛЕЖАЩИЙ [б] |
Ведущий байт
Неиспользованный ведущий байт |
Строки, не относящиеся к Ханзи [ править ]
В следующих таблицах перечислены символы, не относящиеся к ханзи, доступные в GB/T 2312, GB/T 12345 и в двухбайтовой области 1 GB 18030 (что примерно соответствует области не-ханзи в GB/T 2312). Делаются примечания там, где они отличаются, а также где GB 6345.1 и ISO-IR-165 отличаются от них. Для сравнения сделаны перекрестные ссылки на статьи о других наборах национальных символов CJK.
Две реализации GB2312 [ править ]
EUC-CN | Подмножество GBK/GB18030 | GB2312.TXT | Название характера [12] : 3 |
---|---|---|---|
А1А4 | U+00B7 · СРЕДНЯЯ ТОЧКА | U+30FB ・ КАТАКАНА СРЕДНЯЯ ТОЧКА | разделительная ' точка ' ; |
А1АА | U+2014 — ЭМ ДЭШ | U+2015 ― ГОРИЗОНТАЛЬНАЯ ПОЛОСКА | ; ' Эм тире ' |
Сопоставления Unicode интерпункта ( китайский : 间隔 点 ; букв. «точка-разделитель») и длинного тире ( китайский : 破折号 ) в подмножестве GBK и GB 18030, соответствующем GB/T 2312 ( U+00B7 · СРЕДНЯЯ ТОЧКА и U+2014 — EM DASH ) отличаются от тех, которые указаны в GB2312.TXT ( U+30FB ・ КАТАКАНА СРЕДНЯЯ ТОЧКА и U+2015 — HORIZONTAL BAR ), который представляет собой файл данных, ранее предоставленный Консорциумом Unicode , [13] хотя с августа 2011 года он признан устаревшим [14] и больше не размещается по состоянию на сентябрь 2016 года.
По состоянию на 2015 год Microsoft .Net Framework следует сопоставлениям GB 18030 при сопоставлении этих двух символов в данных, помеченных как gb2312
, тогда как отделение интенсивной терапии , [15] значок v-1.14, [16] php-5.6, ActivePerl-5.20, Java 1.7 и Python 3.4. [17] следуйте GB2312.TXT в ответ на gb2312
этикетка. Ruby 2.2 совместим с обеими реализациями; он внутренне преобразует конфликтующие символы в подмножество GB 18030. Техническая рекомендация W3C меткой / WHATWG для использования с HTML5 определяет кодировку GBK, которая должна быть выведена для потоков с gb2312
, который, в свою очередь, использует декодер GB18030. [18]
Другие различные сопоставления были определены и использованы отдельными поставщиками. [13] включая один от Apple . [19]
Набор символов 0x21/0xA1 (строка 1: знаки препинания и символы) [ править ]
Эта строка содержит знаки препинания, математические операторы и другие символы. В следующей таблице показаны сопоставления GB 18030. [20] сначала для этих символов GB/T 2312, а затем любых других документированных сопоставлений.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ИДСП | 、 3001 |
。 3002 |
· / ・ | ˉ 02C9 |
ˇ 02C7 |
¨ 00A8 |
〃 3003 |
люди 3005 |
— / ― | ~ / 〜 | ‖ / ∥ | … / ⋯ | ‘ 2018 |
’ 2019 | |
3x/Вх | “ 201С |
” 201Д |
〔 3014 |
〕 3015 |
〈 3008 |
〉 3009 |
《 300А |
》 300Б |
「 300С |
」 300Д |
『 300Э |
』 300Ф |
〖 3016 |
〗 3017 |
【 3010 |
】 3011 |
4x/Сх | ± 00B1 |
× 00D7 |
÷ 00F7 |
∶ 2236 |
∧ 2227 |
∨ 2228 |
∑ 2211 |
∏ 220F |
∪ 222А |
∩ 2229 |
∈ 2208 |
∷ 2237 |
√ 221А |
⊥ 22А5 |
∥ 2225 |
∠ 2220 |
5x/Дх | ⌒ 2312 |
⊙ 2299 |
∫ 222Б |
∮ 222Э |
≡ 2261 |
≌ 224С |
≈ 2248 |
∽ 223D |
∝ 221Д |
≠ 2260 |
≮ 226Э |
≯ 226Ф |
≤ 2264 |
≥ 2265 |
∞ 221Э |
∵ 2235 |
6x/Ex | ∴ 2234 |
♂ 2642 |
♀ 2640 |
° 00B0 |
′ 2032 |
″ 2033 |
℃ 2103 |
$ FF04 |
¤ 00А4 |
¢ / ¢ | £ / £ | ‰ 2030 |
§ 00A7 |
№ 2116 |
☆ 2606 |
★ 2605 |
7x/FX | ○ 25КБ |
● 25CF |
◎ 25 год н. э. |
◇ 25С7 |
◆ 25С6 |
□ 25А1 |
■ 25А0 |
△ 25Б3 |
▲ 25Б2 |
※ 203Б |
→ 2192 |
← 2190 |
↑ 2191 |
↓ 2193 |
〓 3013 |
Набор символов 0x22/0xA2 (строка 2: маркеры списка) [ изменить ]
Эта строка содержит различные типы маркеров списка. Строчные формы римских цифр не были включены в исходный GB/T 2312. [21] ни в GB/T 12345, [6] но включены в кодовую страницу Windows 936. [22] и ГБ 18030 . [20] Знак евро также был добавлен в GB 18030. [20]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ⅰ 2170 |
ⅱ 2171 |
ⅲ 2172 |
ⅳ 2173 |
ⅴ 2174 |
ⅵ 2175 |
ⅶ 2176 |
ⅷ 2177 |
ⅸ 2178 |
ⅹ 2179 |
||||||
3x/Вх | ⒈ 2488 |
⒉ 2489 |
⒊ 248А |
⒋ 248Б |
⒌ 248С |
⒍ 248Д |
⒎ 248Э |
⒏ 248F |
⒐ 2490 |
⒑ 2491 |
⒒ 2492 |
⒓ 2493 |
⒔ 2494 |
⒕ 2495 |
⒖ 2496 | |
4x/Сх | ⒗ 2497 |
⒘ 2498 |
⒙ 2499 |
⒚ 249А |
⒛ 249Б |
⑴ 2474 |
⑵ 2475 |
⑶ 2476 |
⑷ 2477 |
⑸ 2478 |
⑹ 2479 |
⑺ 247А |
⑻ 247Б |
⑼ 247С |
⑽ 247Д |
⑾ 247Э |
5x/Дх | ⑿ 247F |
⒀ 2480 |
⒁ 2481 |
⒂ 2482 |
⒃ 2483 |
⒄ 2484 |
⒅ 2485 |
⒆ 2486 |
⒇ 2487 |
① 2460 |
② 2461 |
③ 2462 |
④ 2463 |
⑤ 2464 |
⑥ 2465 |
⑦ 2466 |
6x/Ex | ⑧ 2467 |
⑨ 2468 |
⑩ 2469 |
€ 20AC |
㈠ 3220 |
㈡ 3221 |
㈢ 3222 |
㈣ 3223 |
㈤ 3224 |
㈥ 3225 |
㈦ 3226 |
㈧ 3227 |
㈨ 3228 |
㈩ 3229 |
||
7x/FX | Ⅰ 2160 |
Ⅱ 2161 |
Ⅲ 2162 |
Ⅳ 2163 |
Ⅴ 2164 |
Ⅵ 2165 |
Ⅶ 2166 |
Ⅷ 2167 |
Ⅸ 2168 |
Ⅹ 2169 |
Ⅺ 216А |
Ⅻ 216Б |
Набор символов 0x23/0xA3 (строка 3: ISO 646-CN) [ править ]
Эта строка содержит ISO 646-CN (GB/T 1988-80), национальный аналог ASCII . Сравните строку 3 KS X 1001 , которая делает то же самое с Южной Кореи версией ISO 646 для , и строку 3 JIS X 0208 и KPS 9566 , которые включают только буквенно-цифровой подмножество, но в том же макете. В следующей таблице указан ISO 646-CN.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ! 0021 |
" 0022 |
# 0023 |
¥ 00А5 |
% 0025 |
& 0026 |
' 0027 |
( 0028 |
) 0029 |
* 002А |
+ 002Б |
, 002C |
- 002D |
. 002E |
/ 002F | |
3x/Вх | 0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003А |
; 003Б |
< 003C |
= 003D |
> 003E |
? 003F |
4x/Сх | @ 0040 |
А 0041 |
Б 0042 |
С 0043 |
Д 0044 |
И 0045 |
Ф 0046 |
г 0047 |
ЧАС 0048 |
я 0049 |
Дж 004А |
К 004Б |
л 004C |
М 004D |
Н 004E |
О 004F |
5x/Дх | п 0050 |
вопрос 0051 |
р 0052 |
С 0053 |
Т 0054 |
В 0055 |
V 0056 |
В 0057 |
Икс 0058 |
И 0059 |
С 005А |
[ 005Б |
\ 005C |
] 005D |
^ 005E |
_ 005F |
6x/Ex | ` 0060 |
а 0061 |
б 0062 |
с 0063 |
д 0064 |
Это 0065 |
ж 0066 |
г 0067 |
час 0068 |
я 0069 |
дж 006А |
к 006Б |
л 006C |
м 006D |
н 006E |
О 006F |
7x/FX | п 0070 |
д 0071 |
р 0072 |
с 0073 |
т 0074 |
в 0075 |
v 0076 |
В 0077 |
Икс 0078 |
и 0079 |
С 007А |
{ 007Б |
| 007C |
} 007D |
‾ 203E |
При использовании в кодировке, допускающей комбинацию с ASCII, такой как EUC-CN (и его расширенный набор GB 18030 ), эти символы обычно реализуются как полной ширины символы форм половинной и полной ширины, , поэтому используются сопоставления с блоками как показано ниже. GB 6345.1 также обрабатывает эту строку как полную ширину и добавляет формы половинной ширины (как указано выше) как строку 10. [1] Apple в основном сопоставляет эту строку с кодовыми точками полной ширины, как показано ниже, но использует сопоставления не полной ширины для надстрочной линии и знака юаня, как указано выше. [19]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ! FF01 |
" FF02 |
# FF03 |
¥ ФФЭ5 |
% FF05 |
& FF06 |
' FF07 |
( FF08 |
) FF09 |
* FF0A |
+ FF0B |
, FF0C |
- ФФ0Д |
. ФФ0Е |
/ ФФ0Ф | |
3x/Вх | 0 ФФ10 |
1 ФФ11 |
2 ФФ12 |
3 ФФ13 |
4 ФФ14 |
5 ФФ15 |
6 ФФ16 |
7 ФФ17 |
8 ФФ18 |
9 ФФ19 |
: ФФ1А |
; FF1B |
< FF1C |
= ФФ1Д |
> ФФ1Е |
? ФФ1Ф |
4x/Сх | @ ФФ20 |
A ФФ21 |
B ФФ22 |
C ФФ23 |
D ФФ24 |
E ФФ25 |
F ФФ26 |
G ФФ27 |
H ФФ28 |
I ФФ29 |
J ФФ2А |
K ФФ2Б |
L ФФ2С |
M ФФ2Д |
N ФФ2Е |
O ФФ2Ф |
5x/Дх | P ФФ30 |
Q ФФ31 |
R ФФ32 |
S ФФ33 |
T ФФ34 |
U ФФ35 |
V ФФ36 |
W ФФ37 |
X ФФ38 |
Y ФФ39 |
Z ФФ3А |
[ ФФ3Б |
\ FF3C |
] ФФ3D |
^ ФФ3Е |
_ ФФ3Ф |
6x/Ex | ` ФФ40 |
a ФФ41 |
b ФФ42 |
c ФФ43 |
d ФФ44 |
e ФФ45 |
f ФФ46 |
g / ɡ [с] | h ФФ48 |
i ФФ49 |
j ФФ4А |
k FF4B |
l FF4C |
m ФФ4Д |
n ФФ4Е |
o ФФ4Ф |
7x/FX | p ФФ50 |
q ФФ51 |
r ФФ52 |
s ФФ53 |
t ФФ54 |
u ФФ55 |
v ФФ56 |
w ФФ57 |
x ФФ58 |
y ФФ59 |
z ФФ5А |
{ ФФ5Б |
| FF5C |
} ФФ5Д |
 ̄ ФФЭ3 |
Набор символов 0x24/0xA4 (строка 4: Хирагана) [ править ]
Этот набор содержит хирагану для письма на японском языке .
Сравните со строкой 4 JIS X 0208 , которой соответствует эта строка, и со строкой 10 из KS X 1001 и KPS 9566 , которые используют ту же компоновку, но в другой строке.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ах 3041 |
а 3042 |
я 3043 |
желудок 3044 |
Эм-м-м 3045 |
баклан 3046 |
Эх 3047 |
картина 3048 |
Мм 3049 |
ой 304А |
комар 304Б |
но 304С |
дерево 304D |
Ги 304Э |
Ку 304F | |
3x/Вх | ингредиент 3050 |
волосы 3051 |
Ге 3052 |
ребенок 3053 |
Идти 3054 |
разница 3055 |
ざ 3056 |
смерть 3057 |
характер 3058 |
уксус 3059 |
фигура 305А |
высота 305Б |
Зе 305С |
Так 305Д |
Ух ты 305Э |
Та 305Ф |
4x/Сх | является 3060 |
Чи 3061 |
Ди 3062 |
Ух ты 3063 |
Один 3064 |
Зу 3065 |
рука 3066 |
в 3067 |
и 3068 |
степень 3069 |
На 306А |
к 306Б |
Ню 306С |
привет 306D |
из 306Э |
зубы 306F |
5x/Дх | Ба 3070 |
Па 3071 |
огонь 3072 |
Красота 3073 |
Пи 3074 |
долг 3075 |
Бу 3076 |
Пу 3077 |
пердеть 3078 |
Быть 3079 |
Пе 307А |
Хо 307Б |
Бо 307С |
По 307Д |
Ма 307Э |
фрукты 307F |
6x/Ex | ничего 3080 |
глаз 3081 |
слишком 3082 |
Да 3083 |
или 3084 |
ты 3085 |
горячая вода 3086 |
Эй 3087 |
Эй 3088 |
и другие 3089 |
закон природы 308А |
RU 308Б |
Ре 308С |
реактор 308Д |
ゎ 308Э |
круг 308F |
7x/FX | ゐ 3090 |
Э 3091 |
из 3092 |
ага 3093 |
Набор символов 0x25/0xA5 (строка 5: катакана) [ править ]
В этот набор входит катакана для письма на японском языке . Однако японский знак долгой гласной , который используется в тексте катаканы и включен в строку 1 JIS X 0208 , не включен в GB/T 2312, хотя он добавлен в GBK и GB 18030 за пределами основного GB/T 2312. самолет, [24] по адресу 0xA960. [20]
Сравните со строкой 5 JIS X 0208 , которой соответствует эта строка, и со строкой 11 из KS X 1001 и KPS 9566 , которые используют ту же компоновку, но в другой строке.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | А 30А1 |
а 30А2 |
я 30А3 |
желудок 30А4 |
ты 30А5 |
баклан 30А6 |
Э 30А7 |
рабочий 30А8 |
Ой 30А9 |
О 30АА |
комар 30АБ |
Га 30AC |
дерево 30 год нашей эры |
Ги 30АЭ |
девять 30АФ | |
3x/Вх | Группа 30B0 |
Ке 30Б1 |
Игра 30Б2 |
Ко 30Б3 |
Идти 30Б4 |
са 30Б5 |
ザ 30Б6 |
С 30Б7 |
Джи 30Б8 |
уксус 30Б9 |
З 30БА |
Се 30ББ |
Зе 30 г. до н. э. |
Так 30BD |
Зо 30 лет назад |
Та 30БФ |
4x/Сх | да 30C0 |
кровь 30С1 |
も 30С2 |
Ух ты 30С3 |
цу 30С4 |
ㅅ 30С5 |
Те 30С6 |
де 30С7 |
к 30С8 |
де 30С9 |
На 30КА |
Д 30CB |
Ню 30CC |
Не 30CD |
из 30 год н.э. |
С 30CF |
5x/Дх | Ба 30D0 |
год 30Д1 |
Привет 30Д2 |
Би 30Д3 |
Пи 30Д4 |
центр 30Д5 |
Бу 30Д6 |
п 30Д7 |
Ф 30Д8 |
Быть 30Д9 |
Пе 30ДА |
Хо 30ДБ |
Бо 30DC |
По 30ДД |
Ма 30DE |
Ми 30ДФ |
6x/Ex | Му 30E0 |
Почта 30Е1 |
Мо 30Е2 |
Ча 30Е3 |
Да 30Е4 |
ты 30Е5 |
Ю 30Е6 |
Эй 30Е7 |
Эй 30Е8 |
Ла 30E9 |
Ли 30EA |
ле 30ЭБ |
Ре 30ЕС |
Б 30ЭД |
ヮ 30EE |
Ва 30EF |
7x/FX | ヰ 30F0 |
ヱ 30Ф1 |
горе 30Ф2 |
хм 30Ф3 |
В 30F4 |
Ка 30F5 |
га 30Ф6 |
Набор символов 0x26/0xA6 (строка 6: греческое и вертикальное расширения) [ править ]
Эта строка содержит базовую поддержку современного греческого алфавита без диакритических знаков и последней сигмы .
Выделенные символы представляют собой формы представления знаков препинания для вертикального письма и не включены в собственно GB/T 2312, но включены в этот ряд GB/T 12345, [1] [6] Кодовая страница Windows 936 , [22] Mac OS, упрощенный китайский, [19] и ГБ 18030. [20] Они рассматриваются как «стандартные расширения GB 2312». [19] И наоборот, ISO-IR-165 включает в эту строку узорчатые полуграфические символы (в основном без точных аналогов в Юникоде), что противоречит позициям кода, используемым для вертикальных расширений. [25]
Сравните со строкой 6 JIS X 0208 , которой эта строка соответствует, если не включены вертикальные формы, и со строкой 6 KPS 9566 , которая включает те же греческие буквы в той же раскладке, но добавляет римские цифры вместо вертикальных форм. Сравните строку 5 KS X 1001 , в которой греческие буквы смещены, чтобы сначала были включены римские цифры.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | А 0391 |
Б 0392 |
С 0393 |
Д 0394 |
Э 0395 |
г 0396 |
ТО 0397 |
че 0398 |
я 0399 |
К 039А |
л 039Б |
М 039С |
Н 039D |
Икс 039E |
ТО 039F | |
3x/Вх | Пи 03A0 |
р 03А1 |
С 03А3 |
Т 03А4 |
Да 03А5 |
Фи 03А6 |
Икс 03А7 |
P.S. 03А8 |
Ой 03А9 |
|||||||
4x/Сх | а 03B1 |
б 03Б2 |
с 03B3 |
д 03B4 |
е 03B5 |
г 03Б6 |
тот 03Б7 |
я 03Б8 |
я 03B9 |
К 03БА |
л 03BB |
м 03BC |
н 03BD |
Икс 03BE |
ο 03БФ | |
5x/Дх | Пи 03C0 |
р 03C1 |
п 03C3 |
т 03C4 |
ты 03C5 |
Фи 03C6 |
час 03C7 |
п 03C8 |
ой 03C9 |
︐ [д] FE10 |
︒ [д] FE12 |
︑ [д] FE11 |
︓ [д] FE13 |
︔ [д] FE14 |
︕ [д] FE15 |
︖ [д] FE16 |
6x/Ex | ︵ FE35 |
︶ FE36 |
︹ FE39 |
︺ FE3A |
︿ FE3F |
﹀ FE40 |
︽ FE3D |
︾ FE3E |
﹁ FE41 |
﹂ FE42 |
﹃ FE43 |
﹄ FE44 |
︗ [д] FE17 |
︘ [д] FE18 |
︻ FE3B |
︼ FE3C |
7x/FX | ︷ FE37 |
︸ FE38 |
︱ FE31 |
︙ [д] FE19 |
︳ FE33 |
︴ FE34 |
Набор символов 0x27/0xA7 (строка 7: кириллица) [ править ]
В этот набор входят оба корпуса по 33 буквы кириллицы , достаточные для написания современного русского алфавита и болгарского алфавита , хотя другие формы кириллицы требуют дополнительных букв. [27]
Сравните со строкой 7 JIS X 0208 , которой соответствует эта строка, а также со строкой 12 из KS X 1001 и строкой 5 из KPS 9566 , которые используют ту же компоновку, но в разных строках.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | А 0410 |
Б 0411 |
В 0412 |
Г 0413 |
Д 0414 |
Хорошо 0415 |
Или 0401 |
Же 0416 |
С 0417 |
И 0418 |
И 0419 |
К 041А |
л 041Б |
М 041С |
Н 041D | |
3x/Вх | О 041E |
П 041F |
Р 0420 |
С 0421 |
Т 0422 |
У 0423 |
Ф 0424 |
Х 0425 |
Ц 0426 |
Ч 0427 |
Ш 0428 |
Щ 0429 |
Ъ 042А |
Да 042Б |
Ь 042C |
Э 042D |
4x/Сх | Ю 042E |
Я 042F |
||||||||||||||
5x/Дх | а 0430 |
б 0431 |
в 0432 |
г 0433 |
д 0434 |
является 0435 |
или 0451 |
же 0436 |
с 0437 |
и 0438 |
и 0439 |
к 043А |
л 043Б |
м 043С |
н 043D | |
6x/Ex | о 043E |
п 043F |
р 0440 |
с 0441 |
т 0442 |
у 0443 |
ф 0444 |
х 0445 |
час 0446 |
час 0447 |
ш 0448 |
щ 0449 |
ъ 044А |
й 044Б |
ь 044C |
э 044D |
7x/FX | ю 044E |
я 044F |
Набор символов 0x28/0xA8 (строка 8: чжуинь и пиньинь, не входящая в ASCII) [ править ]
Эта строка содержит символы бопомофо и пиньинь , за исключением букв ASCII (которые находятся в строке 3). Выделенные символы — это те символы, которых нет в базовом наборе GB 2312, но добавлены GB 6345.1 . [19] а также включен в GB/T 12345, [1] [6] Кодовая страница Windows 936 , [22] Mac OS Упрощенный китайский [19] и ГБ 18030. [20] Они рассматриваются как «стандартные расширения GB 2312». [19]
GB 6345.1 рассматривает пиньинь в этой строке как полную ширину и включает аналоги половинной ширины как строку 11; [1] GB 18030 этого не делает.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | и 0101 |
на 00E1 |
ώ 01CE |
имеет 00E0 |
Был 0113 |
Это 00E9 |
Э 011Б |
И 00E8 |
я 012Б |
в 00ED |
ϐ 01D0 |
я 00EC |
ой 014D |
от 00F3 |
ϒ 01D2 | |
3x/Вх | ò 00F2 |
Эм-м-м 016Б |
ты 00FA |
ϔ 01D4 |
ты 00F9 |
ٖ 01D6 |
٘ 01D8 |
ٚ 01 ДА |
Ɯ 01DC |
ты 00FC |
ага 00ЕА |
ɑ 0251 |
ḿ [Это] 1E3F |
является 0144 |
нет 0148 |
н [ф] 01F9 |
4x/Сх | ɡ / g [г] | ㄅ 3105 |
ㄆ 3106 |
ㄇ 3107 |
ㄈ 3108 |
ㄉ 3109 |
ㄊ 310А |
ㄋ 310Б |
ㄌ 310С |
ㄍ 310Д |
ㄎ 310Э |
ㄏ 310Ф | ||||
5x/Дх | ㄐ 3110 |
ㄑ 3111 |
ㄒ 3112 |
ㄓ 3113 |
ㄔ 3114 |
ㄕ 3115 |
ㄖ 3116 |
ㄗ 3117 |
ㄘ 3118 |
ㄙ 3119 |
ㄚ 311А |
ㄛ 311Б |
ㄜ 311С |
ㄝ 311Д |
ㄞ 311Э |
ㄟ 311Ф |
6x/Ex | ㄠ 3120 |
ㄡ 3121 |
ㄢ 3122 |
ㄣ 3123 |
ㄤ 3124 |
ㄥ 3125 |
ㄦ 3126 |
ㄧ 3127 |
ㄨ 3128 |
ㄩ 3129 |
||||||
7x/FX |
Набор символов 0x29/0xA9 (строка 9: рисунок рамки) [ править ]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
2x/топор | ─ 2500 |
━ 2501 |
│ 2502 |
┃ 2503 |
┄ 2504 |
┅ 2505 |
┆ 2506 |
┇ 2507 |
┈ 2508 |
┉ 2509 |
┊ 250А |
┋ 250Б | ||||
3x/Вх | ┌ 250С |
┍ 250Д |
┎ 250E |
┏ 250Ф |
┐ 2510 |
┑ 2511 |
┒ 2512 |
┓ 2513 |
└ 2514 |
┕ 2515 |
┖ 2516 |
┗ 2517 |
┘ 2518 |
┙ 2519 |
┚ 251А |
┛ 251Б |
4x/Сх | ├ 251С |
┝ 251Д |
┞ 251Э |
┟ 251F |
┠ 2520 |
┡ 2521 |
┢ 2522 |
┣ 2523 |
┤ 2524 |
┥ 2525 |
┦ 2526 |
┧ 2527 |
┨ 2528 |
┩ 2529 |
┪ 252А |
┫ 252Б |
5x/Дх | ┬ 252С |
┭ 252Д |
┮ 252Э |
┯ 252Ф |
┰ 2530 |
┱ 2531 |
┲ 2532 |
┳ 2533 |
┴ 2534 |
┵ 2535 |
┶ 2536 |
┷ 2537 |
┸ 2538 |
┹ 2539 |
┺ 253А |
┻ 253Б |
6x/Ex | ┼ 253С |
┽ 253Д |
┾ 253Э |
┿ 253F |
╀ 2540 |
╁ 2541 |
╂ 2542 |
╃ 2543 |
╄ 2544 |
╅ 2545 |
╆ 2546 |
╇ 2547 |
╈ 2548 |
╉ 2549 |
╊ 254А |
╋ 254Б |
7x/FX |
Ханзи ряды [ править ]
Исправления [ править ]
GB 5007.1-85 24x24 Набор растровых шрифтов китайских иероглифов для обмена информацией шаблон шрифта — это ранний самый , основанный на GB/T 2312, который содержит исправления и расширения, включая:
- изменение формы глифа латинского алфавита «g»
- добавление 6 символов Ханью Пиньинь : ɑ , ḿ , ń , ň , ǹ , ɡ [примечание 1]
- изменил " 鍾 " на " 锺 "
- включало 94 глифа половинной ширины в строку 10 (форма половинной ширины строки 3, эквивалентная GB 1988–80).
- включена полуширина из 32 символов Ханью Пиньинь из строки 8 в строке 11.
В GB/T 2312 исправлений не было, но эти исправления включены в шаблоны шрифтов, основанные на GB/T 2312, включая GB/T 12345; его суперсеты GBK и GB 18030 также включали эти исправления. GB/T 2312 также используется в ISO-IR-165 .
См. также [ править ]
- Код Гобяо
- Персонажи CJK
- Кодировка китайских символов
- Юникод
- Big5 – стандарт, используемый в Тайване и Гонконге.
- GB 18030 , пришедший на смену GB/T 2312-1980.
- GB/T 12345-1990 , традиционный аналог GB/T 2312-1980, заменен GB18030.
Ссылки [ править ]
- ^ Перейти обратно: а б с д Это Лунде, Кен (2009). Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . стр. 94–111. ISBN 978-0-596-51447-1 .
- ^ «Бюллетень национального стандарта Китая за 2017 год, № 7» Проверено . 3 июля 2018 года .
- ^ «Распространение кодировок символов между веб-сайтами, использующими Китай и территории» . w3techs.com . Проверено 4 сентября 2022 г.
- ^ «Исторические тенденции статистики использования кодировок символов для веб-сайтов, октябрь 2022 г.» . w3techs.com . Проверено 1 октября 2022 г.
- ^ «Кодирование: Обобщенные результаты испытаний» . www.w3.org . Проверено 15 ноября 2019 г.
- ^ Перейти обратно: а б с д Лунде, Кен (1998). Приложение F: GB/T 12345 (PDF) . О'Рейли Медиа . ISBN 9781565922242 .
{{cite book}}
:|work=
игнорируется ( помогите ) - ^ GB12345-80 в таблицу Юникода . Консорциум Юникод . 06.12.1993. Архивировано из оригинала 17 июня 2004 г.
- ^ Ханнас, Уильям К. (1997). Орфографическая дилемма Азии . Гавайский университет Press. п. 264. ИСБН 9780824818920 .
комплект обеспечивает более 99,99 процентов всего использования. Тем не менее дизайнеры сочли необходимым добавить 14 276 символов «специального использования» на случай непредвиденных обстоятельств!
- ^ «GB 2312-1980: Информационные технологии — набор символов, закодированный китайской идеограммой для обмена информацией (базовый набор)» . Май 1981 года.
- ^ «Юникод в таблицу GB2312 или GBK» . cs.nyu.edu . Архивировано из оригинала 3 марта 2016 года . Проверено 11 января 2022 г.
- ^ Перейти обратно: а б Лунде, Кен Роджер (декабрь 2008 г.). Обработка информации CJKV (2-е изд.). О'Рейли . ISBN 978-0-596-51447-1 .
- ^ «GB 2312-1980: Информационные технологии — набор символов, закодированный китайской идеограммой для обмена информацией (базовый набор)» . Май 1981 года . Проверено 2 октября 2016 г.
- ^ Перейти обратно: а б Хайбле, Бруно. «GB2312 (Таблицы преобразования)» . Проверено 29 сентября 2016 г.
- ^ «Readme – MAPPINGS/OSOLETE/EASTASIA» . 9 августа 2001 года . Проверено 29 сентября 2016 г.
- ^ "java-EUC_CN-1.3_P.ucm" . Проверено 29 сентября 2016 г. [ постоянная мертвая ссылка ]
- ^ "libiconv:lib/gb2312.h" . ГНУ Саванна . Проверено 29 сентября 2016 г.
- ^ «Выпуск 24036» . Трекер ошибок Python .
- ^ «Кодировка § Имена и метки» . W3C . Проверено 29 сентября 2016 г.
- ^ Перейти обратно: а б с д Это ж г час я дж «Сопоставление (внешняя версия) упрощенной китайской кодировки Mac OS с Unicode 3.0 и более поздних версий» . Apple, Inc.
- ^ Перейти обратно: а б с д Это ж г час я дж Управление стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии — набор китайских кодированных символов .
- ^ Китайская ассоциация по стандартизации . Набор китайских графических символов для обмена информацией (PDF) . ITSCJ/ IPSJ . ИСО-ИК -58.
- ^ Перейти обратно: а б с д Это ж Майкрософт . «КОДОВАЯ СТРАНИЦА 936: КНР ГБК (XGB) — ANSI, OEM» . Консорциум Юникод .
- ^ Перейти обратно: а б Вишванадха, Рагурам (30 августа 2000 г.). «Таблица Unicode в ISO-IR-165» . Международные компоненты для Unicode . ИБМ .
- ^ Лунде, Кен (2009). «Кажется, пропавшие персонажи». Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . п. 180. ИСБН 978-0-596-51447-1 .
- ^ Перейти обратно: а б МКИТТ (13 июля 1992 г.). Коды китайского графического набора символов для связи (PDF) . ITSCJ/ IPSJ . ИСО-ИК -165.
- ^ Лунде, доктор Кен (4 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 7 августа 2022 г.
- ^ Чиборра, Роман (30 ноября 1998 г.) [25 мая 1998 г.]. «Суп с кириллицей» . Архивировано из оригинала 3 декабря 2016 г. Проверено 3 декабря 2016 г.
- ^ «Политика стабильности кодировки символов Юникода» . Консорциум Юникод. 23.06.2017.
Примечания [ править ]
- ^ Только для иероглифов, предусмотренных GB/T 2312, все из которых соответствуют Unicode BMP.
- ^ Перейти обратно: а б Совместимость с ISO 2022 94 н -набор символов, простой пробел и символ удаления доступны в виде однобайтовых кодов по адресам 0x20 и 0x7F (не 0xA0 и 0xFF) соответственно.
- ^ Используется для U+FF47 в большинстве реализаций на основе GB 6345.1 , включая реализацию Apple и GB 18030 (которые используют 8-32 для U+0261), [20] но для U+0261 по ISO-IR-165 . [23]
- ^ Перейти обратно: а б с д Это ж г час я дж Эти символы из блока «Вертикальные формы» . Некоторые используемые сопоставления были разработаны, когда единственными формами вертикального представления, существовавшими в Unicode, были формы в блоке CJK Compatibility Forms . В частности, они сопоставляются Windows-936 и ранее GB 18030 с областью частного использования , но с определенным глифом, [22] [20] и Apple к обычному полноширинному символу с добавленным символом частного использования. U+F87E как маркер вариации. [19] В обновлении GB 18030-2022 эти сопоставления областей частного использования были удалены и теперь сопоставлены со стандартными кодовыми точками Unicode. [26]
- ^ Сопоставлено с зоной частного использования. U+E7C7 в первой (2000 г.) редакции GB 18030 , а также в Windows-936; [22] в это были внесены поправки, внесенные в издание GB 18030 2005 года. [20]
- ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот символ был сопоставлен с его композиционной последовательностью (т. е. U+006E+0300 ) от Apple. [19] Это изменение предшествовало стабилизации форм нормализации Unicode , которая была введена в Unicode 3.1. [28] Он сопоставлен с зоной частного использования. U+E7C8 от Windows-936. [22]
- ^ Сопоставлено с U + 0261 в ГБ 18030 [20] и большинство других реализаций на основе GB 6345.1. [19] (которые используют 3-71 для U+FF47), но чтобы U+FF47 в ISO-IR-165. [23] [25]
- ^ ɑ (U + 0251)
ḿ (U+1E3F; представлено в Unicode 3.0, поэтому CP936 не включал этот символ [1] [ постоянная мертвая ссылка ] )
(U + 0144)
ň (U+0148)
ǹ (U+01F9; представлено в Юникоде 3.0, поэтому CP936 не включал этот символ [2] [ постоянная мертвая ссылка ] )
ɡ (U + 0261)
Дальнейшее чтение [ править ]
- Лунде, Кен (2009). «Стандарты китайского набора символов — Китай» . Обработка информации CJKV (2-е изд.). О'Рейли. ISBN 978-0-596-51447-1 .
Внешние ссылки [ править ]
- Графическое представление GB2312 в Converter Explorer ICU
- Юникод в таблицу GB2312 или GBK
- Коды китайских символов
- Эволюция GBK и GB2312 в GB18030
- GB2312 Набор символов для китайских иероглифов
- Кодированный набор китайских графических символов для обмена информацией ISO-IR 58
- Код C генерирует 6763 основных символа с выводом
- Стандарт GB2312-80 на China-Language.gov.cn