~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 7C6175A44CF0E289675EE10596231DD2__1709169900 ✰
Заголовок документа оригинал.:
✰ GB 2312 - Wikipedia ✰
Заголовок документа перевод.:
✰ ГБ 2312 — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/GB_2312 ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/7c/d2/7c6175a44cf0e289675ee10596231dd2.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/7c/d2/7c6175a44cf0e289675ee10596231dd2__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 21:29:41 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 29 February 2024, at 04:25 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

ГБ 2312 — Википедия Jump to content

ГБ 2312

Из Википедии, бесплатной энциклопедии
ГБ 2312
МИМ / IANA GB_2312-80 ( GB2312 для обычной формы EUC)
Псевдоним(а) iso-ir-58, китайский, csGB2312, csISO58GB231280
Язык(и) Упрощенный китайский , английский
Частичная поддержка:
Традиционный китайский , русский , болгарский , греческий , японский , итальянский , ирландский , маори.
Стандартный ГБ/Т 2312-1980
Классификация ISO-2022 Совместимость с DBCS , CJK кодировка
Расширения ИСО-ИР-165
Форматы кодирования
Предшествует Китайский телеграфный код
Преемник ГБК , ГБ 18030
Другая связанная кодировка(и) ДЖИС С 0208 , КС С 1001

GB/T 2312-1980 — ключевой официальный набор символов , Китайской Народной Республики используемый для символов упрощенного китайского языка . GB2312 — это зарегистрированное интернет-имя EUC-CN , которое представляет собой его обычную закодированную форму. GB относится к стандартам Гобяо (国家标准), тогда как суффикс T ( 推荐 ; tuījiàn ; «рекомендация») обозначает необязательный стандарт. [1]

GB/T 2312-1980 изначально был обязательным национальным стандартом, получившим обозначение GB 2312-1980 . Однако после выхода Национального стандартного бюллетеня Китайской Народной Республики в 2017 году GB 2312 больше не является обязательным, а его стандартный код изменен на GB/T 2312-1980 . [2] GB/T 2312-1980 был заменен GBK и GB 18030 , которые включают дополнительные символы, но GB/T 2312 по-прежнему широко используется как подмножество этих кодировок.

По состоянию на сентябрь 2022 г. GB2312 — вторая по популярности кодировка, обслуживаемая в Китае и других регионах (после UTF-8 ), при этом 5,5% веб-серверов обслуживают страницы, объявляющие ее. [3] Во всем мире GB2312 заявлен на 0,1% всех веб-страниц. [4] Однако все основные веб-браузеры декодируют документы с пометкой GB2312, как если бы они были помечены расширенной кодировкой GBK, за исключением Safari и Edge на этикетке. GB_2312. [5]

Существует аналогичный набор символов, известный как GB/T 12345 Код китайского набора иероглифов для дополнительного набора обмена информацией , который дополняет GB/T 2312 традиционными формами символов путем замены упрощенных форм в их коде qūwèi и некоторых дополнительных 62 дополнительных символов. [6] [7] Шрифты в кодировке GB часто поставляются парами: один с набором символов GB/T 2312 (упрощенный), а другой с набором символов GB/T 12345 (традиционный). Существует больше наборов дополнительных кодировок GB, дополняющих GB/T 2312, в том числе GB/T 7589 Кодекс китайских иеограмм, набор для обмена информацией — 2-й дополнительный набор и GB/T 7590 Код китайских иеограмм, набор для обмена информацией — 4-й дополнительный набор. который предоставляет дополнительные [варианты китайских символов | варианты символов] в том же формате кодировки qūwèi (позже использованном в ISO-2022-CN), но не имеет никакого отношения к символам, закодированным в GB/T 2312.

Диапазон символов в строках [ править ]

GB/T 2312 охватывает более 99,99% использования современного текста на китайском языке. [8] исторические тексты и многие имена остаются за рамками рассмотрения. Старый стандарт GB 2312 включает 6763 китайских иероглифа (на двух уровнях: первый упорядочен по чтению, второй по радикалу , а затем по количеству штрихов), а также символы и знаки препинания, японскую кану , греческий и кириллический алфавиты , чжуинь и двойной символ. -байтовый набор букв пиньинь со знаками тона. В более поздней версии GB/T 2312-1980 имеется 7445 букв.

Символы в GB/T 2312 расположены в сетке 94×94 (как в ISO 2022 ), а двухбайтовая кодовая точка каждого символа выражается в форме qūwèi ( 区位 ), которая определяет строку ( ; ). и положение символа в строке (ячейка; ; wèi ). (Эта структура такая же, как и в других , основанных на ISO-2022 национальных CJK стандартах набора символов ; сравните kuten .) Например, символ «外» (означающий: иностранный) расположен в строке 45, позиции 66, [9] таким образом, его код кувей — 45–66.

Строки (с номерами от 1 до 94) содержат следующие символы:

Строки 10–15 и 88–94 не назначены.

Для GB/T 2312-1980 он содержит 682 знака и 6763 китайских иероглифа.

Кодировки GB/T 2312 [ править ]

EUC-CN [ править ]

EUC-CN часто используется в качестве кодировки символов (т. е. для внешнего хранилища) в программах, работающих с GB/T 2312, что обеспечивает совместимость с ASCII . Два байта используются для представления каждого символа, не найденного в ASCII . Значение первого байта от 0xA1–0xF7 (161–247), а значение второго байта от 0xA1–0xFE(161–254). Поскольку все эти диапазоны выходят за рамки ASCII, например UTF-8, при использовании EUC-CN можно проверить, является ли байт частью многобайтовой конструкции, но не является ли байт первым или последним.

По сравнению с UTF-8 , GB/T 2312 (как собственный, так и закодированный в EUC-CN) более эффективен для хранения: тогда как UTF-8 использует три байта. [а] на каждый иероглиф CJK в GB/T 2312 используется только два. Однако GB/T 2312 не охватывает столько иероглифов, как Unicode.

Чтобы сопоставить кодовые точки qūwei с байтами EUC, добавьте 160 ( 0xA0) как к номеру строки (или qū, 区), так и к номеру ячейки/столбца ( десять или вэй, 位). Результат сложения с номером строки кодовой точки сформирует старший байт, а результат сложения с номером ячейки кодовой точки сформирует младший байт.

Например, чтобы закодировать символ «外» в ячейке qūwèi 45–66, старший байт будет использовать номер строки 45: 45+160=205= 0xCD, а младший байт будет из ячейки с номером 66: 66+160=226= 0xE2. Итак, полная кодировка <CD E2>. [10] [11]

ISO-2022-CN [ править ]

ISO-2022-CN — это еще одна форма кодировки GB/T 2312, которая также является кодировкой, указанной в официальной документации. Эта кодировка ссылается на стандарт ISO-2022 , который также использует два байта для кодирования символов, отсутствующих в ASCII. Однако вместо использования расширенной области ASCII в ISO-2022 используется тот же диапазон байтов, что и в ASCII: значение первого байта составляет от 0x21–0x77 (33–119), а значение второго байта от 0x21–0x7E(33–126). Поскольку диапазон байтов значительно перекрывает ASCII, необходимы специальные символы, чтобы указать, находится ли символ в диапазоне ASCII или является частью двухбайтовой последовательности расширенной области, а именно функции Shift Out и Shift In . Это создает риск неправильного кодирования, поскольку неправильная обработка текста может привести к потере информации.

Чтобы сопоставить кодовые точки qūwèi с байтами ISO-2022, добавьте 32 ( 0x20) как к номеру строки (или qū, 区), так и к номеру ячейки/столбца (или wèi, 位). Результат добавления к номеру строки кодовой точки сформирует старший байт, а результат добавления к номеру ячейки кодовой точки сформирует младший байт, аналогично кодированию EUC.

Например, чтобы закодировать символ «外» в ячейке qūwèi 45–66, старший байт будет использовать номер строки 45: 45+32=77= 0x4D, а младший байт будет из ячейки с номером 66: 66+32=98= 0x62. Итак, полная кодировка <4D 62>. [11]

ХЗ [ править ]

HZ — это еще одна кодировка GB/T 2312, которая используется в основном для в Usenet публикаций ; символы представлены теми же парами байтов, что и в ISO-2022-CN, но последовательности байтов, обозначающие начало и конец диапазона текста GB 2312, различаются.

Таблицы кодов [ править ]

21-0x7E) используется меньшее (с неустановленным или недоступным восьмым битом) В таблицах ниже, где для префиксного байта или кодового байта указана пара шестнадцатеричных чисел, при кодировании через GL ( 0x , как в ISO- 2022-CN или HZ-GB-2312 , а больший (с установленным восьмым битом) используется в более типичном случае его кодирования через GR (0xA1-0xFE), как в EUC-CN , GBK или GB 18030 . Числа Цювэй даны в десятичном формате.

Когда GB/T 2312 кодируется через GR, в обоих байтах установлен восьмой бит (т. е. они больше 0x7F). GBK и GB 18030 также используют двухбайтовые коды, в которых только первый байт имеет восьмой бит, установленный для целей расширения: такие коды находятся за пределами плоскости GB/T 2312 и здесь не приводятся в таблице.

Ведущий байт [ править ]

На этой диаграмме подробно описана общая компоновка основной плоскости набора символов GB/T 2312 по ведущим байтам. Для ведущих байтов, используемых для символов, отличных от hanzi , предоставляются ссылки на таблицы на этой странице, в которых перечислены символы, закодированные под этим ведущим байтом. Для ведущих байтов, используемых для ханзи, предоставляются ссылки на соответствующий раздел . индекса ханзи Викисловаря

ГБ 2312 (ведущие байты)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор СП [б] 1-_ 2-_ 3-_ 4-_ 5-_ 6-_ 7-_ 8-_ 9-_ 10-_ 11-_ 12-_ 13-_ 14-_ 15-_
3x/Вх 16-_ 17-_ 18-_ 19-_ 20-_ 21-_ 22-_ 23-_ 24-_ 25-_ 26-_ 27-_ 28-_ 29-_ 30-_ 31-_
4x/Сх 32-_ 33-_ 34-_ 35-_ 36-_ 37-_ 38-_ 39-_ 40-_ 41-_ 42-_ 43-_ 44-_ 45-_ 46-_ 47-_
5x/Дх 48-_ 49-_ 50-_ 51-_ 52-_ 53-_ 54-_ 55-_ 56-_ 57-_ 58-_ 59-_ 60-_ 61-_ 62-_ 63-_
6x/Ex 64-_ 65-_ 66-_ 67-_ 68-_ 69-_ 70-_ 71-_ 72-_ 73-_ 74-_ 75-_ 76-_ 77-_ 78-_ 79-_
7x/FX 80-_ 81-_ 82-_ 83-_ 84-_ 85-_ 86-_ 87-_ 88-_ 89-_ 90-_ 91-_ 92-_ 93-_ 94-_ ПРИНАДЛЕЖАЩИЙ [б]
  Ведущий байт
  Неиспользованный ведущий байт

Строки, не относящиеся к Ханзи [ править ]

В следующих таблицах перечислены символы, не относящиеся к ханзи, доступные в GB/T 2312, GB/T 12345 и в двухбайтовой области 1 GB 18030 (что примерно соответствует области не-ханзи в GB/T 2312). Делаются примечания там, где они отличаются, а также где GB 6345.1 и ISO-IR-165 отличаются от них. Для сравнения сделаны перекрестные ссылки на статьи о других наборах национальных символов CJK.

Две реализации GB2312 [ править ]

EUC-CN Подмножество GBK/GB18030 GB2312.TXT Название характера [12] : 3 
А1А4 U+00B7 · СРЕДНЯЯ ТОЧКА U+30FB КАТАКАНА СРЕДНЯЯ ТОЧКА разделительная ' точка ' ;
А1АА U+2014 ЭМ ДЭШ U+2015 ГОРИЗОНТАЛЬНАЯ ПОЛОСКА ; ' Эм тире '

Сопоставления Unicode интерпункта ( китайский : 间隔 ; букв. «точка-разделитель») и длинного тире ( китайский : 破折号 ) в подмножестве GBK и GB 18030, соответствующем GB/T 2312 ( U+00B7 · СРЕДНЯЯ ТОЧКА и U+2014 EM DASH ) отличаются от тех, которые указаны в GB2312.TXT ( U+30FB КАТАКАНА СРЕДНЯЯ ТОЧКА и U+2015 HORIZONTAL BAR ), который представляет собой файл данных, ранее предоставленный Консорциумом Unicode , [13] хотя с августа 2011 года он признан устаревшим [14] и больше не размещается по состоянию на сентябрь 2016 года.

По состоянию на 2015 год Microsoft .Net Framework следует сопоставлениям GB 18030 при сопоставлении этих двух символов в данных, помеченных как gb2312, тогда как отделение интенсивной терапии , [15] значок v-1.14, [16] php-5.6, ActivePerl-5.20, Java 1.7 и Python 3.4. [17] следуйте GB2312.TXT в ответ на gb2312этикетка. Ruby 2.2 совместим с обеими реализациями; он внутренне преобразует конфликтующие символы в подмножество GB 18030. Техническая рекомендация W3C меткой / WHATWG для использования с HTML5 определяет кодировку GBK, которая должна быть выведена для потоков с gb2312, который, в свою очередь, использует декодер GB18030. [18]

Другие различные сопоставления были определены и использованы отдельными поставщиками. [13] включая один от Apple . [19]

Набор символов 0x21/0xA1 (строка 1: знаки препинания и символы) [ править ]

Эта строка содержит знаки препинания, математические операторы и другие символы. В следующей таблице показаны сопоставления GB 18030. [20] сначала для этих символов GB/T 2312, а затем любых других документированных сопоставлений.

GB 2312 (с префиксом 0x21/0xA1)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор ИДСП
3001

3002
· / ˉ
02C9
ˇ
02C7
¨
00A8

3003
люди
3005
/ / / /
2018

2019
3x/Вх
201С

201Д

3014

3015

3008

3009

300А

300Б

300С

300Д

300Э

300Ф

3016

3017

3010

3011
4x/Сх ±
00B1
×
00D7
÷
00F7

2236

2227

2228

2211

220F

222А

2229

2208

2237

221А

22А5

2225

2220
5x/Дх
2312

2299

222Б

222Э

2261

224С

2248

223D

221Д

2260

226Э

226Ф

2264

2265

221Э

2235
6x/Ex
2234

2642

2640
°
00B0

2032

2033

2103

FF04
¤
00А4
/ ¢ / £
2030
§
00A7

2116

2606

2605
7x/FX
25КБ

25CF

25 год н. э.

25С7

25С6

25А1

25А0

25Б3

25Б2

203Б

2192

2190

2191

2193

3013

Набор символов 0x22/0xA2 (строка 2: маркеры списка) [ изменить ]

Эта строка содержит различные типы маркеров списка. Строчные формы римских цифр не были включены в исходный GB/T 2312. [21] ни в GB/T 12345, [6] но включены в кодовую страницу Windows 936. [22] и ГБ 18030 . [20] Знак евро также был добавлен в GB 18030. [20]

ГБ 2312 (с префиксом 0x22/0xA2)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор
2170

2171

2172

2173

2174

2175

2176

2177

2178

2179
3x/Вх
2488

2489

248А

248Б

248С

248Д

248Э

248F

2490

2491

2492

2493

2494

2495

2496
4x/Сх
2497

2498

2499

249А

249Б

2474

2475

2476

2477

2478

2479

247А

247Б

247С

247Д

247Э
5x/Дх
247F

2480

2481

2482

2483

2484

2485

2486

2487

2460

2461

2462

2463

2464

2465

2466
6x/Ex
2467

2468

2469

20AC

3220

3221

3222

3223

3224

3225

3226

3227

3228

3229
7x/FX
2160

2161

2162

2163

2164

2165

2166

2167

2168

2169

216А

216Б

Набор символов 0x23/0xA3 (строка 3: ISO 646-CN) [ править ]

Эта строка содержит ISO 646-CN (GB/T 1988-80), национальный аналог ASCII . Сравните строку 3 KS X 1001 , которая делает то же самое с Южной Кореи версией ISO 646 для , и строку 3 JIS X 0208 и KPS 9566 , которые включают только буквенно-цифровой подмножество, но в том же макете. В следующей таблице указан ISO 646-CN.

ИСО 646-CN; отображения неполной ширины
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор !
0021
"
0022
#
0023
¥
00А5
%
0025
&
0026
'
0027
(
0028
)
0029
*
002А
+
002Б
,
002C
-
002D
.
002E
/
002F
3x/Вх 0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003А
;
003Б
<
003C
=
003D
>
003E
?
003F
4x/Сх @
0040
А
0041
Б
0042
С
0043
Д
0044
И
0045
Ф
0046
г
0047
ЧАС
0048
я
0049
Дж
004А
К
004Б
л
004C
М
004D
Н
004E
О
004F
5x/Дх п
0050
вопрос
0051
р
0052
С
0053
Т
0054
В
0055
V
0056
В
0057
Икс
0058
И
0059
С
005А
[
005Б
\
005C
]
005D
^
005E
_
005F
6x/Ex `
0060
а
0061
б
0062
с
0063
д
0064
Это
0065
ж
0066
г
0067
час
0068
я
0069
дж
006А
к
006Б
л
006C
м
006D
н
006E
О
006F
7x/FX п
0070
д
0071
р
0072
с
0073
т
0074
в
0075
v
0076
В
0077
Икс
0078
и
0079
С
007А
{
007Б
|
007C
}
007D

203E

При использовании в кодировке, допускающей комбинацию с ASCII, такой как EUC-CN (и его расширенный набор GB 18030 ), эти символы обычно реализуются как полной ширины символы форм половинной и полной ширины, , поэтому используются сопоставления с блоками как показано ниже. GB 6345.1 также обрабатывает эту строку как полную ширину и добавляет формы половинной ширины (как указано выше) как строку 10. [1] Apple в основном сопоставляет эту строку с кодовыми точками полной ширины, как показано ниже, но использует сопоставления не полной ширины для надстрочной линии и знака юаня, как указано выше. [19]

GB 2312 (с префиксом 0x23/0xA3); полноширинные сопоставления
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор
FF01

FF02

FF03

ФФЭ5

FF05

FF06

FF07

FF08

FF09

FF0A

FF0B

FF0C

ФФ0Д

ФФ0Е

ФФ0Ф
3x/Вх
ФФ10

ФФ11

ФФ12

ФФ13

ФФ14

ФФ15

ФФ16

ФФ17

ФФ18

ФФ19

ФФ1А

FF1B

FF1C

ФФ1Д

ФФ1Е

ФФ1Ф
4x/Сх
ФФ20

ФФ21

ФФ22

ФФ23

ФФ24

ФФ25

ФФ26

ФФ27

ФФ28

ФФ29

ФФ2А

ФФ2Б

ФФ2С

ФФ2Д

ФФ2Е

ФФ2Ф
5x/Дх
ФФ30

ФФ31

ФФ32

ФФ33

ФФ34

ФФ35

ФФ36

ФФ37

ФФ38

ФФ39

ФФ3А

ФФ3Б

FF3C

ФФ3D

ФФ3Е
_
ФФ3Ф
6x/Ex
ФФ40

ФФ41

ФФ42

ФФ43

ФФ44

ФФ45

ФФ46
/ ɡ [с]
ФФ48

ФФ49

ФФ4А

FF4B

FF4C

ФФ4Д

ФФ4Е

ФФ4Ф
7x/FX
ФФ50

ФФ51

ФФ52

ФФ53

ФФ54

ФФ55

ФФ56

ФФ57

ФФ58

ФФ59

ФФ5А

ФФ5Б

FF5C

ФФ5Д

ФФЭ3

Набор символов 0x24/0xA4 (строка 4: Хирагана) [ править ]

Этот набор содержит хирагану для письма на японском языке .

Сравните со строкой 4 JIS X 0208 , которой соответствует эта строка, и со строкой 10 из KS X 1001 и KPS 9566 , которые используют ту же компоновку, но в другой строке.

GB 2312 (с префиксом 0x24/0xA4)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор ах
3041
а
3042
я
3043
желудок
3044
Эм-м-м
3045
баклан
3046
Эх
3047
картина
3048
Мм
3049
ой
304А
комар
304Б
но
304С
дерево
304D
Ги
304Э
Ку
304F
3x/Вх ингредиент
3050
волосы
3051
Ге
3052
ребенок
3053
Идти
3054
разница
3055

3056
смерть
3057
характер
3058
уксус
3059
фигура
305А
высота
305Б
Зе
305С
Так
305Д
Ух ты
305Э
Та
305Ф
4x/Сх является
3060
Чи
3061
Ди
3062
Ух ты
3063
Один
3064
Зу
3065
рука
3066
в
3067
и
3068
степень
3069
На
306А
к
306Б
Ню
306С
привет
306D
из
306Э
зубы
306F
5x/Дх Ба
3070
Па
3071
огонь
3072
Красота
3073
Пи
3074
долг
3075
Бу
3076
Пу
3077
пердеть
3078
Быть
3079
Пе
307А
Хо
307Б
Бо
307С
По
307Д
Ма
307Э
фрукты
307F
6x/Ex ничего
3080
глаз
3081
слишком
3082
Да
3083
или
3084
ты
3085
горячая вода
3086
Эй
3087
Эй
3088
и другие
3089
закон природы
308А
RU
308Б
Ре
308С
реактор
308Д

308Э
круг
308F
7x/FX
3090
Э
3091
из
3092
ага
3093

Набор символов 0x25/0xA5 (строка 5: катакана) [ править ]

В этот набор входит катакана для письма на японском языке . Однако японский знак долгой гласной , который используется в тексте катаканы и включен в строку 1 JIS X 0208 , не включен в GB/T 2312, хотя он добавлен в GBK и GB 18030 за пределами основного GB/T 2312. самолет, [24] по адресу 0xA960. [20]

Сравните со строкой 5 JIS X 0208 , которой соответствует эта строка, и со строкой 11 из KS X 1001 и KPS 9566 , которые используют ту же компоновку, но в другой строке.

ГБ 2312 (с префиксом 0x25/0xA5)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор А
30А1
а
30А2
я
30А3
желудок
30А4
ты
30А5
баклан
30А6
Э
30А7
рабочий
30А8
Ой
30А9
О
30АА
комар
30АБ
Га
30AC
дерево
30 год нашей эры
Ги
30АЭ
девять
30АФ
3x/Вх Группа
30B0
Ке
30Б1
Игра
30Б2
Ко
30Б3
Идти
30Б4
са
30Б5

30Б6
С
30Б7
Джи
30Б8
уксус
30Б9
З
30БА
Се
30ББ
Зе
30 г. до н. э.
Так
30BD
Зо
30 лет назад
Та
30БФ
4x/Сх да
30C0
кровь
30С1

30С2
Ух ты
30С3
цу
30С4

30С5
Те
30С6
де
30С7
к
30С8
де
30С9
На
30КА
Д
30CB
Ню
30CC
Не
30CD
из
30 год н.э.
С
30CF
5x/Дх Ба
30D0
год
30Д1
Привет
30Д2
Би
30Д3
Пи
30Д4
центр
30Д5
Бу
30Д6
п
30Д7
Ф
30Д8
Быть
30Д9
Пе
30ДА
Хо
30ДБ
Бо
30DC
По
30ДД
Ма
30DE
Ми
30ДФ
6x/Ex Му
30E0
Почта
30Е1
Мо
30Е2
Ча
30Е3
Да
30Е4
ты
30Е5
Ю
30Е6
Эй
30Е7
Эй
30Е8
Ла
30E9
Ли
30EA
ле
30ЭБ
Ре
30ЕС
Б
30ЭД

30EE
Ва
30EF
7x/FX
30F0

30Ф1
горе
30Ф2
хм
30Ф3
В
30F4
Ка
30F5
га
30Ф6

Набор символов 0x26/0xA6 (строка 6: греческое и вертикальное расширения) [ править ]

Эта строка содержит базовую поддержку современного греческого алфавита без диакритических знаков и последней сигмы .

Выделенные символы представляют собой формы представления знаков препинания для вертикального письма и не включены в собственно GB/T 2312, но включены в этот ряд GB/T 12345, [1] [6] Кодовая страница Windows 936 , [22] Mac OS, упрощенный китайский, [19] и ГБ 18030. [20] Они рассматриваются как «стандартные расширения GB 2312». [19] И наоборот, ISO-IR-165 включает в эту строку узорчатые полуграфические символы (в основном без точных аналогов в Юникоде), что противоречит позициям кода, используемым для вертикальных расширений. [25]

Сравните со строкой 6 JIS X 0208 , которой эта строка соответствует, если не включены вертикальные формы, и со строкой 6 KPS 9566 , которая включает те же греческие буквы в той же раскладке, но добавляет римские цифры вместо вертикальных форм. Сравните строку 5 KS X 1001 , в которой греческие буквы смещены, чтобы сначала были включены римские цифры.

ГБ 2312 (с префиксом 0x26/0xA6)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор А
0391
Б
0392
С
0393
Д
0394
Э
0395
г
0396
ТО
0397
че
0398
я
0399
К
039А
л
039Б
М
039С
Н
039D
Икс
039E
ТО
039F
3x/Вх Пи
03A0
р
03А1
С
03А3
Т
03А4
Да
03А5
Фи
03А6
Икс
03А7
P.S.
03А8
Ой
03А9
4x/Сх а
03B1
б
03Б2
с
03B3
д
03B4
е
03B5
г
03Б6
тот
03Б7
я
03Б8
я
03B9
К
03БА
л
03BB
м
03BC
н
03BD
Икс
03BE
ο
03БФ
5x/Дх Пи
03C0
р
03C1
п
03C3
т
03C4
ты
03C5
Фи
03C6
час
03C7
п
03C8
ой
03C9
[д]
FE10
[д]
FE12
[д]
FE11
[д]
FE13
[д]
FE14
[д]
FE15
[д]
FE16
6x/Ex
FE35

FE36

FE39

FE3A
︿
FE3F

FE40

FE3D

FE3E

FE41

FE42

FE43

FE44
[д]
FE17
[д]
FE18

FE3B

FE3C
7x/FX
FE37

FE38

FE31
[д]
FE19

FE33

FE34

Набор символов 0x27/0xA7 (строка 7: кириллица) [ править ]

В этот набор входят оба корпуса по 33 буквы кириллицы , достаточные для написания современного русского алфавита и болгарского алфавита , хотя другие формы кириллицы требуют дополнительных букв. [27]

Сравните со строкой 7 JIS X 0208 , которой соответствует эта строка, а также со строкой 12 из KS X 1001 и строкой 5 из KPS 9566 , которые используют ту же компоновку, но в разных строках.

ГБ 2312 (с префиксом 0x27/0xA7)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор А
0410
Б
0411
В
0412
Г
0413
Д
0414
Хорошо
0415
Или
0401
Же
0416
С
0417
И
0418
И
0419
К
041А
л
041Б
М
041С
Н
041D
3x/Вх О
041E
П
041F
Р
0420
С
0421
Т
0422
У
0423
Ф
0424
Х
0425
Ц
0426
Ч
0427
Ш
0428
Щ
0429
Ъ
042А
Да
042Б
Ь
042C
Э
042D
4x/Сх Ю
042E
Я
042F
5x/Дх а
0430
б
0431
в
0432
г
0433
д
0434
является
0435
или
0451
же
0436
с
0437
и
0438
и
0439
к
043А
л
043Б
м
043С
н
043D
6x/Ex о
043E
п
043F
р
0440
с
0441
т
0442
у
0443
ф
0444
х
0445
час
0446
час
0447
ш
0448
щ
0449
ъ
044А
й
044Б
ь
044C
э
044D
7x/FX ю
044E
я
044F

Набор символов 0x28/0xA8 (строка 8: чжуинь и пиньинь, не входящая в ASCII) [ править ]

Эта строка содержит символы бопомофо и пиньинь , за исключением букв ASCII (которые находятся в строке 3). Выделенные символы — это те символы, которых нет в базовом наборе GB 2312, но добавлены GB 6345.1 . [19] а также включен в GB/T 12345, [1] [6] Кодовая страница Windows 936 , [22] Mac OS Упрощенный китайский [19] и ГБ 18030. [20] Они рассматриваются как «стандартные расширения GB 2312». [19]

GB 6345.1 рассматривает пиньинь в этой строке как полную ширину и включает аналоги половинной ширины как строку 11; [1] GB 18030 этого не делает.

ГБ 2312 (с префиксом 0x28/0xA8)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор и
0101
на
00E1
ώ
01CE
имеет
00E0
Был
0113
Это
00E9
Э
011Б
И
00E8
я
012Б
в
00ED
ϐ
01D0
я
00EC
ой
014D
от
00F3
ϒ
01D2
3x/Вх ò
00F2
Эм-м-м
016Б
ты
00FA
ϔ
01D4
ты
00F9
ٖ
01D6
٘
01D8
ٚ
01 ДА
Ɯ
01DC
ты
00FC
ага
00ЕА
ɑ
0251
ḿ [Это]
1E3F
является
0144
нет
0148
н [ф]
01F9
4x/Сх ɡ / [г]
3105

3106

3107

3108

3109

310А

310Б

310С

310Д

310Э

310Ф
5x/Дх
3110

3111

3112

3113

3114

3115

3116

3117

3118

3119

311А

311Б

311С

311Д

311Э

311Ф
6x/Ex
3120

3121

3122

3123

3124

3125

3126

3127

3128

3129
7x/FX

Набор символов 0x29/0xA9 (строка 9: рисунок рамки) [ править ]

ГБ 2312 (с префиксом 0x29/0xA9)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
2x/топор
2500

2501

2502

2503

2504

2505

2506

2507

2508

2509

250А

250Б
3x/Вх
250С

250Д

250E

250Ф

2510

2511

2512

2513

2514

2515

2516

2517

2518

2519

251А

251Б
4x/Сх
251С

251Д

251Э

251F

2520

2521

2522

2523

2524

2525

2526

2527

2528

2529

252А

252Б
5x/Дх
252С

252Д

252Э

252Ф

2530

2531

2532

2533

2534

2535

2536

2537

2538

2539

253А

253Б
6x/Ex
253С

253Д

253Э

253F

2540

2541

2542

2543

2544

2545

2546

2547

2548

2549

254А

254Б
7x/FX

Ханзи ряды [ править ]

Исправления [ править ]

GB 5007.1-85 24x24 Набор растровых шрифтов китайских иероглифов для обмена информацией шаблон шрифта — это ранний самый , основанный на GB/T 2312, который содержит исправления и расширения, включая:

В GB/T 2312 исправлений не было, но эти исправления включены в шаблоны шрифтов, основанные на GB/T 2312, включая GB/T 12345; его суперсеты GBK и GB 18030 также включали эти исправления. GB/T 2312 также используется в ISO-IR-165 .

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б с д Это Лунде, Кен (2009). Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . стр. 94–111. ISBN  978-0-596-51447-1 .
  2. ^ «Бюллетень национального стандарта Китая за 2017 год, № 7» Проверено . 3 июля 2018 года .
  3. ^ «Распространение кодировок символов между веб-сайтами, использующими Китай и территории» . w3techs.com . Проверено 4 сентября 2022 г.
  4. ^ «Исторические тенденции статистики использования кодировок символов для веб-сайтов, октябрь 2022 г.» . w3techs.com . Проверено 1 октября 2022 г.
  5. ^ «Кодирование: Обобщенные результаты испытаний» . www.w3.org . Проверено 15 ноября 2019 г.
  6. ^ Перейти обратно: а б с д Лунде, Кен (1998). Приложение F: GB/T 12345 (PDF) . О'Рейли Медиа . ISBN  9781565922242 . {{cite book}}: |work= игнорируется ( помогите )
  7. ^ GB12345-80 в таблицу Юникода . Консорциум Юникод . 06.12.1993. Архивировано из оригинала 17 июня 2004 г.
  8. ^ Ханнас, Уильям К. (1997). Орфографическая дилемма Азии . Гавайский университет Press. п. 264. ИСБН  9780824818920 . комплект обеспечивает более 99,99 процентов всего использования. Тем не менее дизайнеры сочли необходимым добавить 14 276 символов «специального использования» на случай непредвиденных обстоятельств!
  9. ^ «GB 2312-1980: Информационные технологии — набор символов, закодированный китайской идеограммой для обмена информацией (базовый набор)» . Май 1981 года.
  10. ^ «Юникод в таблицу GB2312 или GBK» . cs.nyu.edu . Архивировано из оригинала 3 марта 2016 года . Проверено 11 января 2022 г.
  11. ^ Перейти обратно: а б Лунде, Кен Роджер (декабрь 2008 г.). Обработка информации CJKV (2-е изд.). О'Рейли . ISBN  978-0-596-51447-1 .
  12. ^ «GB 2312-1980: Информационные технологии — набор символов, закодированный китайской идеограммой для обмена информацией (базовый набор)» . Май 1981 года . Проверено 2 октября 2016 г.
  13. ^ Перейти обратно: а б Хайбле, Бруно. «GB2312 (Таблицы преобразования)» . Проверено 29 сентября 2016 г.
  14. ^ «Readme – MAPPINGS/OSOLETE/EASTASIA» . 9 августа 2001 года . Проверено 29 сентября 2016 г.
  15. ^ "java-EUC_CN-1.3_P.ucm" . Проверено 29 сентября 2016 г. [ постоянная мертвая ссылка ]
  16. ^ "libiconv:lib/gb2312.h" . ГНУ Саванна . Проверено 29 сентября 2016 г.
  17. ^ «Выпуск 24036» . Трекер ошибок Python .
  18. ^ «Кодировка § Имена и метки» . W3C . Проверено 29 сентября 2016 г.
  19. ^ Перейти обратно: а б с д Это ж г час я дж «Сопоставление (внешняя версия) упрощенной китайской кодировки Mac OS с Unicode 3.0 и более поздних версий» . Apple, Inc.
  20. ^ Перейти обратно: а б с д Это ж г час я дж Управление стандартизации Китая (SAC) (18 ноября 2005 г.). GB 18030-2005: Информационные технологии — набор китайских кодированных символов .
  21. ^ Китайская ассоциация по стандартизации . Набор китайских графических символов для обмена информацией (PDF) . ITSCJ/ IPSJ . ИСО-ИК -58.
  22. ^ Перейти обратно: а б с д Это ж Майкрософт . «КОДОВАЯ СТРАНИЦА 936: КНР ГБК (XGB) — ANSI, OEM» . Консорциум Юникод .
  23. ^ Перейти обратно: а б Вишванадха, Рагурам (30 августа 2000 г.). «Таблица Unicode в ISO-IR-165» . Международные компоненты для Unicode . ИБМ .
  24. ^ Лунде, Кен (2009). «Кажется, пропавшие персонажи». Обработка информации CJKV: китайские, японские, корейские и вьетнамские вычисления (2-е изд.). Севастополь, Калифорния : О'Рейли . п. 180. ИСБН  978-0-596-51447-1 .
  25. ^ Перейти обратно: а б МКИТТ (13 июля 1992 г.). Коды китайского графического набора символов для связи (PDF) . ITSCJ/ IPSJ . ИСО-ИК -165.
  26. ^ Лунде, доктор Кен (4 августа 2022 г.). «Стандарт ГБ 18030-2022» . Середина . Проверено 7 августа 2022 г.
  27. ^ Чиборра, Роман (30 ноября 1998 г.) [25 мая 1998 г.]. «Суп с кириллицей» . Архивировано из оригинала 3 декабря 2016 г. Проверено 3 декабря 2016 г.
  28. ^ «Политика стабильности кодировки символов Юникода» . Консорциум Юникод. 23.06.2017.

Примечания [ править ]

  1. ^ Только для иероглифов, предусмотренных GB/T 2312, все из которых соответствуют Unicode BMP.
  2. ^ Перейти обратно: а б Совместимость с ISO 2022 94 н -набор символов, простой пробел и символ удаления доступны в виде однобайтовых кодов по адресам 0x20 и 0x7F (не 0xA0 и 0xFF) соответственно.
  3. ^ Используется для U+FF47 в большинстве реализаций на основе GB 6345.1 , включая реализацию Apple и GB 18030 (которые используют 8-32 для U+0261), [20] но для U+0261 по ISO-IR-165 . [23]
  4. ^ Перейти обратно: а б с д Это ж г час я дж Эти символы из блока «Вертикальные формы» . Некоторые используемые сопоставления были разработаны, когда единственными формами вертикального представления, существовавшими в Unicode, были формы в блоке CJK Compatibility Forms . В частности, они сопоставляются Windows-936 и ранее GB 18030 с областью частного использования , но с определенным глифом, [22] [20] и Apple к обычному полноширинному символу с добавленным символом частного использования. U+F87E как маркер вариации. [19] В обновлении GB 18030-2022 эти сопоставления областей частного использования были удалены и теперь сопоставлены со стандартными кодовыми точками Unicode. [26]
  5. ^ Сопоставлено с зоной частного использования. U+E7C7 в первой (2000 г.) редакции GB 18030 , а также в Windows-936; [22] в это были внесены поправки, внесенные в издание GB 18030 2005 года. [20]
  6. ^ Этот составной символ был добавлен в Unicode 3.0. До этого этот символ был сопоставлен с его композиционной последовательностью (т. е. U+006E+0300 ) от Apple. [19] Это изменение предшествовало стабилизации форм нормализации Unicode , которая была введена в Unicode 3.1. [28] Он сопоставлен с зоной частного использования. U+E7C8 от Windows-936. [22]
  7. ^ Сопоставлено с U + 0261 в ГБ 18030 [20] и большинство других реализаций на основе GB 6345.1. [19] (которые используют 3-71 для U+FF47), но чтобы U+FF47 в ISO-IR-165. [23] [25]
  1. ^ ɑ (U + 0251)
    ḿ (U+1E3F; представлено в Unicode 3.0, поэтому CP936 не включал этот символ [1] [ постоянная мертвая ссылка ] )
    (U + 0144)
    ň (U+0148)
    ǹ (U+01F9; представлено в Юникоде 3.0, поэтому CP936 не включал этот символ [2] [ постоянная мертвая ссылка ] )
    ɡ (U + 0261)

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 7C6175A44CF0E289675EE10596231DD2__1709169900
URL1:https://en.wikipedia.org/wiki/GB_2312
Заголовок, (Title) документа по адресу, URL1:
GB 2312 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)