Jump to content

Единые иероглифы CJK

(Перенаправлено с иероглифов CJK )
Символ CJKV в традиционных и упрощенных формах китайского, корейского, вьетнамского и японского языков.

Китайские, японские и корейские ( CJK ) сценарии имеют общую основу, известную как символы CJK . В ходе процесса, называемого объединением Хань , общие (общие) символы были идентифицированы и названы унифицированными иероглифами CJK . Начиная с версии Unicode 15.1, Unicode определяет в общей сложности 97 680 символов. [1]

Термин «идеографы» является неправильным, поскольку китайское письмо является не идеографическим , а скорее логографическим .

До начала 20 века во Вьетнаме также использовались китайские иероглифы ( Chữ Nôm аббревиатура CJKV ), поэтому иногда используется .

Источники

[ редактировать ]

Группа идеографических исследований (IRG) отвечает за разработку расширений закодированных репертуаров унифицированных иероглифов CJK. IRG обрабатывает предложения по новым унифицированным иероглифам CJK, представленные организациями-членами, и после нескольких раундов экспертной проверки IRG представляет консолидированный набор символов в ISO/IEC JTC 1/SC 2 рабочую группу 2 (WG2) и в Технический комитет Unicode. (UTC) на рассмотрение для включения в стандарты ISO/IEC 10646 и Unicode . Следующие организации-члены IRG участвовали в стандартизации унифицированных иероглифов CJK:

Иероглифы, представленные UTC и Соединенным Королевством, не относятся к какому-либо конкретному региону, а представляют собой символы, предложенные для кодирования отдельными экспертами. Иероглифы, представленные SAT, необходимы для текстовой базы данных SAT Daizōkyō .

В таблице ниже указано количество закодированных унифицированных иероглифов CJK для каждого источника IRG для Unicode 15.1. [2] Общее количество символов (224 891) намного превышает количество закодированных унифицированных иероглифов CJK (97 680), поскольку многие символы имеют более одного источника.

CJK унифицировал иероглифы по источникам
Страна или регион Количество символов
 Китай 66,563
 Гонконг 17,665
 Макао 348
 Тайвань (TCA) 59,137
 Япония 16,148
 Южная Корея 20,740
 Северная Корея 24,025
 Вьетнам 13,284
 Великобритания 2,503
СБ 3,455
универсальное глобальное время 1,023
Общий 224,891

Источники UTC

[ редактировать ]

Большинство символов, представленных UTC в IRG, взяты из документов Технического комитета Unicode (UTC). [3] Другие источники включают:

Блоки унифицированных иероглифов CJK

[ редактировать ]

Единые иероглифы CJK

[ редактировать ]

Базовый блок под названием CJK Unified Ideographs (4E00–9FFF) содержит 20 992 основных китайских иероглифа в диапазоне от U+4E00 до U+9FFF. Блок включает не только символы, используемые в китайской системе письма , но также кандзи, используемые в японской системе письма , ханджа в Корее и символы тхо Ном во вьетнамском языке. Многие символы этого блока используются во всех трёх системах письма , тогда как другие присутствуют только в одной-двух из трёх. Первые 20 902 символа блока расположены в соответствии с в словаре Канси порядком радикалов . В этой системе первыми перечисляются символы, написанные наименьшим количеством штрихов. Остальные символы были добавлены позже, поэтому они расположены не в радикальном порядке.

Блок является результатом объединения Хань , [4] что вызвало некоторые споры в Восточной Азии. [5] Поскольку китайские, японские и корейские символы были закодированы в одном и том же месте, внешний вид выбранного глифа мог зависеть от конкретного используемого шрифта. Однако правило разделения исходных кодов гласит, что символы, закодированные отдельно в более раннем наборе символов, останутся отдельными в новой кодировке Unicode. [6]

Используя селекторы вариантов , можно указать определенные варианты идеограмм CJK в Юникоде. [7] Adobe-Japan1 Набор символов , содержащий 14 684 последовательности идеографических вариаций, [8] является крайним примером использования селекторов вариантов. [9]

4Э00-62ФФ , 6300-77ФФ , 7800-8CFF , 8Д00-9ФФФ .

Источники

[ редактировать ]

Примечание. Большинство символов встречаются в нескольких источниках, поэтому сумма количества отдельных символов (102 795) намного превышает количество закодированных символов (20 992). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай G0 ГБ 2312-80 6,763 20,933
Г1 ГБ 12345-90 2,202
G3 ГБ 7589-87 традиционной формы 4,834
G5 ГБ 7590-87 традиционной формы 2,841
G7 Общая таблица символов современного китайского языка ( Упрощенный китайский : Общая таблица символов современного китайского языка) 42
G8 ГБ 8565-88 199
ГЦЭ Национальная академия образовательных исследований 4
ГДМ Символы географических названий из Управления общественного порядка Министерства общественной безопасности Китайской Народной Республики. 2
GE ГБ16500-95 3,772
GFC Стандартный словарь современного китайского языка (второе издание Стандартного словаря современного китайского языка) 2
ГГФЗ Tongyong Guifan Hanzi Zidian (Общий стандартный китайский словарь) 1
ГХ ГБ/Т 15564-1995 59
ГХЗ Ханьюй Да Цзыдянь (Китайский словарь) 1
ГХЗР Ханью Да Цзыдянь, 2-е изд. (Китайский словарь, второе издание) 1
ГК ГБ 12052-89 89
ГКЖ Условия в области науки и технологий (科技用字), одобренные Китайским национальным комитетом по науке и технологиям (CNCTST) 16
ГКХ Словарь Канси (Словарь Канси) 3
ГЛК Лункан Шоуцзянь (Справочник Храма Дракона) 1
ГТ Стандартная телеграфная кодовая книга (пересмотренная), 1983 г. 8
ГУ Нет источника (возможно, ссылка на исходный источник была перемещена) 92
ГЗФИ Ханью Фангян Дацидиан (Словарь китайских диалектов) 1
 Гонконг ЧАС Дополнительный набор символов Гонконга , 2008 г. 2,292 15,376
HB0 Таблица сопоставления компьютерных китайских глифов и кодов символов, технический отчет C-26
(Сравнительная таблица китайских шрифтов и кодов символов для компьютеров, Технический бюллетень C-26)
9
HB1 Большая-5 , Уровень 1 5,401
HB2 Большая-5, Уровень 2 7,650
HD Дополнительный набор символов Гонконга, 2016 г. 24
 Япония J0 ДЖИС Х 0208-1990 6,356 12,565
J1 ДЖИС Х 0212-1990 3,058
J13 JIS X 0213:2004 символы уровня 3 заменяют символы J1 1,037
J13A Дополнение к символу уровня 3 JIS X 0213:2004 из JIS X 0213:2000 уровня 3, заменяющее символ J1 2
J14 JIS X 0213:2004 символы уровня 4 заменяют символы J1 1,704
J3 JIS X 0213:2004 Уровень 3 95
J3A JIS X 0213:2004 Уровень 3 будет добавлен 7
J4 JIS X 0213:2004 Уровень 4 301
ДЖАРИБ АРИБ СТД-B24 3
ВДМ Проект разработки и обслуживания информации о персонажах для электронного правительства «Проект MojiJoho-Kiban» 2
 Южная Корея К0 КС С 5601-87 (теперь КС Х 1001:2004 ) 4,620 15,442
К1 КС С 5657-91 (теперь КС Х 1002:2001 ) 2,855
К2 ПКС С 5700-1:1994 7,911
К3 ПКС С 5700-2:1994 1
К4 МСС 5700-3:1998 4
К6 КС Х 1027-5:2014 49
КС История Кореи онлайн (интегрированная информационная система по истории Кореи) 1
КУ Нет источника (возможно, ссылка на исходный источник была перемещена) 1
 Северная Корея КП0 КПС 9566-97 4,652 15,010
КП1 КПС 10721-2000 10,358
 Макао И ХКСКС-2008 29 200
МБ1 Большая пятерка 10
МБ2 Большая пятерка 7
МК Справочник MCSCS 3
доктор медицинских наук Горизонтальные расширения MCSCS 127
МДХ Горизонтальные расширения MCSCS 24
 Тайвань Т1 ЦНС 11643-1992 самолет 1 5,413 18,384
Т2 ЦНС 11643-1992 самолет 2 7,651
Т3 ЦНС 11643-1992 самолет 3 4,144
Т4 ЦНС 11643-1992 самолет 4 894
Т5 ЦНС 11643-1992 самолет 5 64
Т6 ЦНС 11643-1992 самолет 6 31
Т7 ЦНС 11643-1992 самолет 7 16
туберкулез ЦНС 11643-2007 самолет 11 2
ТК ЦНС 11643-2007 самолет 12 2
ТО ЦНС 11643-2007 самолет 14 9
ТФ ЦНС 11643-2007 самолет 15 158
 Вьетнам В0 ТКВН 5773:1993 599 4,808
V1 ТКВН 6056:1995. 3,305
V2 ВХН, январь 1998 г. 759
V3 ВХН, февраль 1998 г. 91
V4 Репертуар кодированных персонажей Хан Нома (Репертуар кодированных персонажей Хан Нома) 19
ВН Вьетнамские горизонтальные растяжки 35
н/д универсальное глобальное время Источники UTC 77 77

В Unicode 4.1 14 символов HKSCS-2004 и 8 символов GB 18030 были назначены между кодовыми точками U+9FA6 и U+9FBB. С тех пор по разным причинам в этот блок были добавлены и другие дополнения, все они обобщены в разделе истории версий ниже.

Расширение A унифицированных идеографов CJK

[ редактировать ]

Блок под названием CJK Unified Ideographs Extension A (3400–4DBF) содержит 6592 дополнительных символа в диапазоне от U+3400 до U+4DBF.

3400-4ДБФ .

Источники

[ редактировать ]

Примечание. Большинство символов встречаются более чем в одном источнике, поэтому сумма количества отдельных символов (18 835) намного превышает количество закодированных символов (6 592). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай G3 ГБ 7589-87 традиционной формы 2,391 6,197
G5 ГБ 7590-87 традиционной формы 1,226
G7 Общая таблица символов современного китайского языка 120
ГГФЗ Tongyong Guifan Hanzi Zidian (Общий стандартный китайский словарь) 2
ГХЗ Ханьюй Да Цзыдянь (Китайский словарь) 340
ГКЖ Условия в области науки и технологий (科技用字), одобренные Китайским национальным комитетом по науке и технологиям (CNCTST) 3
ГКХ Словарь Канси (Словарь Канси) 1,889
GS Сингапурские китайские иероглифы [примечание 1] 226
 Гонконг ЧАС Дополнительный набор символов Гонконга , 2008 г. 572 572
 Япония J3 JIS X 0213:2004 Уровень 3 2 738
J4 JIS X 0213:2004 Уровень 4 78
И Современные иероглифы японских поставщиков информационных технологий, 1 993 г. 574
JA3 JIS X 0213:2004 символы уровня 3 заменяют символы JA 17
JA4 JIS X 0213:2004 символы уровня 4 заменяют символы JA 67
 Южная Корея К3 ПКС С 5700-2:1994 1,833 1,866
К4 МСС 5700-3:1998 2
К6 КС Х 1027-5:2014 28
КС История Кореи онлайн (интегрированная информационная система по истории Кореи) 3
 Северная Корея КП0 КПС 9566-97 1 3,191
КП1 КПС 10721-2000 3,190
 Макао И ХКСКС-2008 4 12
доктор медицинских наук Горизонтальные расширения MCSCS 8
 Тайвань Т3 ЦНС 11643-1992 самолет 3 2,179 5,916
Т4 ЦНС 11643-1992 самолет 4 2,919
Т5 ЦНС 11643-1992 самолет 5 399
Т6 ЦНС 11643-1992 самолет 6 200
Т7 ЦНС 11643-1992 самолет 7 133
ТО ЦНС 11643-2007 самолет 14 1
ТФ ЦНС 11643-2007 самолет 15 85
 Великобритания Великобритания ИРГ N2107R2 3 3
 Вьетнам В0 ТКВН 5773:1993 140 319
V2 ВХН, январь 1998 г. 149
V3 ВХН, февраль 1998 г. 19
V4 Репертуар кодированных персонажей Хан Нома (Репертуар кодированных персонажей Хан Нома) 5
ВН Вьетнамские горизонтальные растяжки 6
н/д универсальное глобальное время Источники UTC 21 21

Расширение B унифицированных иероглифов CJK

[ редактировать ]

Блок под названием CJK Unified Ideographs Extension B (20000–2A6DF) содержит 42 720 символов в диапазоне от U+20000 до U+2A6DF. К ним относятся большинство символов, используемых в словаре Канси , которых нет в базовом блоке унифицированных иероглифов CJK, а также многие символы Хан-Ном , которые раньше использовались для написания вьетнамского языка.

20000-215ФФ , 21600-230ФФ , 23100-245ФФ , 24600-260ФФ , 26100-275ФФ , 27600-290ФФ , 29100-2А6ДФ .

Источники

[ редактировать ]

Примечание. Многие символы встречаются более чем в одном источнике, поэтому сумма количества отдельных символов (74 208) намного превышает количество закодированных символов (42 720). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай G3 ГБ 7589-87 традиционной формы 1 30,550
Г4К Сику Цюаньшу (四库全书) 477
ГБК Энциклопедия Китая (Энциклопедия Китая) 86
ГЧ Чихай (джихай) 247
GCY Циюань (Циюань) 66
ГФЗ Основатель Пресс-системы 65
ГГФЗ Tongyong Guifan Hanzi Zidian (Общий стандартный китайский словарь) 5
ГХК Ханьюй Да Сидиан (Китайский словарь) 553
ГФФ Ханьвэнь фодянь инан сузи хуиши юй яньцзю (Интерпретация и изучение сложных и распространенных слов в китайских буддийских писаниях) 1
ГХЗ Ханьюй Да Цзыдянь (Китайский словарь) 10,508
ГХЗР Ханью Да Цзыдянь, 2-е изд. (Китайский словарь, второе издание) 1
ГКЖ Условия в области науки и технологий (科技用字), одобренные Китайским национальным комитетом по науке и технологиям (CNCTST) 17
ГКХ Словарь Канси (Словарь Канси) 18,471
ГУ Нет источника (возможно, ссылка на исходный источник была перемещена) 52
 Гонконг ЧАС Дополнительный набор символов Гонконга , 2008 г. 1,703 1,703
 Япония J3 JIS X 0213:2004 Уровень 3 25 303
J3A JIS X 0213:2004 Уровень 3 будет добавлен 1
J4 JIS X 0213:2004 Уровень 4 277
 Южная Корея К1 КС С 5657-91 (теперь КС Х 1002:2001 ) 1 261
К4 МСС 5700-3:1998 166
К6 КС Х 1027-5:2014 80
КС История Кореи онлайн (интегрированная информационная система по истории Кореи) 14
 Северная Корея КП1 КПС 10721-2000 5,765 5,765
 Макао И ХКСКС-2008 9 38
МК Справочник MCSCS 2
доктор медицинских наук Горизонтальные расширения MCSCS 27
 Тайвань Т3 ЦНС 11643-1992 самолет 3 25 30,193
Т4 ЦНС 11643-1992 самолет 4 3,408
Т5 ЦНС 11643-1992 самолет 5 8,111
Т6 ЦНС 11643-1992 самолет 6 5,934
Т7 ЦНС 11643-1992 самолет 7 6,299
ОБЛИЦОВКА ЦНС 11643-2007 самолет 10 8
туберкулез ЦНС 11643-2007 самолет 11 6
ТК ЦНС 11643-2007 самолет 12 1
ТФ ЦНС 11643-2007 самолет 15 6,401
 Великобритания Великобритания ИРГ N2107R2 12 12
 Вьетнам В0 ТКВН 5773:1993 1,570 5,299
V1 ТКВН 6056:1995. 1
V2 ВХН, январь 1998 г. 2,286
V3 ВХН, февраль 1998 г. 422
V4 Репертуар кодированных персонажей Хан Нома (Репертуар кодированных персонажей Хан Нома) 33
ВН Вьетнамские горизонтальные растяжки 987
н/д СБ Текстовая база данных SAT Daizōkyō 1 84
универсальное глобальное время Источники UTC 83

Расширение CJK для унифицированных идеографов C

[ редактировать ]

Блок под названием CJK Unified Ideographs Extension C (2A700–2B73F) содержит 4154 символа в диапазоне от U+2A700 до U+2B739. Первоначально он был добавлен в Unicode 5.2 (2009 г.).

2А700-2Б73Ф .

Источники

[ редактировать ]

Примечание. Некоторые символы встречаются более чем в одном источнике, поэтому сумма количества отдельных символов (4570) превышает количество закодированных символов (4154). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай ГБК Энциклопедия Китая (Энциклопедия Китая) 74 1,130
ГЧ Чихай (джихай) 264
GCY Циюань (Циюань) 1
GCYY Иероглифы Китайской академии геодезии и картографии 55
ГДМ Символы географических названий из Управления общественного порядка Министерства общественной безопасности Китайской Народной Республики. 1
ГФЗ Основатель Пресс-системы 1
ГГФЗ Tongyong Guifan Hanzi Zidian (Общий стандартный китайский словарь) 2
ГГХ Гудай Ханью Сидиан (Древнекитайский словарь) 51
ГХК Ханьюй Да Сидиан (Китайский словарь) 14
ГХЗ Ханьюй Да Цзыдянь (Китайский словарь) 1
ГХЗР Ханью Да Цзыдянь, 2-е изд. (Китайский словарь, второе издание) 1
ГЖЗ коммерческой прессы Идеографии 61
ГКЖ Условия в области науки и технологий (科技用字), одобренные Китайским национальным комитетом по науке и технологиям (CNCTST) 6
ГКХ Словарь Канси (Словарь Канси) 6
GXC Сяндай Ханью Сидиан (Современный китайский словарь) 25
ГЗФИ Ханью Фангян Дацидиан (Словарь китайских диалектов) 202
ГЗВВ Инь Чжоу Цзиньвэнь Цзичэн Иньдэ (Комплексные надписи на Инь Чжоу Цзиньвэнь) 365
 Гонконг ЧАС Дополнительный набор символов Гонконга , 2008 г. 1 1
 Япония Дж.К. Японская Кокудзи коллекция 367 367
 Южная Корея К5 Корейский IRG Hanja набор символов 404 406
К6 КС Х 1027-5:2014 1
КС История Кореи онлайн (интегрированная информационная система по истории Кореи) 1
 Северная Корея КП1 КПС 10721-2000 8 8
 Макао МК Справочник MCSCS 17 21
доктор медицинских наук Горизонтальные расширения MCSCS 4
 Тайвань Т5 ЦНС 11643-1992 самолет 5 1 1,752
ТК ЦНС 11643-2007 самолет 12 634
ТД ЦНС 11643-2007 самолет 13 766
ТО ЦНС 11643-2007 самолет 14 350
ТУ Нет источника (возможно, ссылка на исходный источник была перемещена) 1
 Великобритания Великобритания ИРГ N2107R2 1 1
 Вьетнам В0 ТКВН 5773:1993 4 795
V1 ТКВН 6056:1995. 2
V2 ВХН, январь 1998 г. 1
V4 Репертуар кодированных персонажей Хан Нома (Репертуар кодированных персонажей Хан Нома) 782
ВН Вьетнамские горизонтальные растяжки 6
н/д универсальное глобальное время Источники UTC 89 89

Расширение D унифицированных иероглифов CJK

[ редактировать ]

Блок под названием CJK Unified Ideographs Extension D (2B740–2B81F) содержит 222 символа в диапазоне от U+2B740 до U+2B81D, которые были добавлены в Unicode 6.0 (2010 г.).

2Б740–2Б81Ф .

Источники

[ редактировать ]

Примечание. Некоторые символы встречаются более чем в одном источнике, поэтому сумма количества отдельных символов (229) превышает количество закодированных символов (222). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай ГЧ Чихай (джихай) 1 78
GIDC Система идентификации Министерства общественной безопасности Китая 32
ГКЖ Условия в области науки и технологий (科技用字), одобренные Китайским национальным комитетом по науке и технологиям (CNCTST) 2
GXC Сяндай Ханью Сидиан (Современный китайский словарь) 4
ГЖ Чжунхуа Цзыхай (中华字海) 39
 Япония Дж.Х. Программа Hanyo-Denshi (Программа улучшения среды электронного обмена информацией общего назначения) 107 107
 Тайвань туберкулез ЦНС 11643-2007 самолет 11 24 24
н/д универсальное глобальное время Источники UTC 20 20

Расширение E унифицированных иероглифов CJK

[ редактировать ]

Блок под названием CJK Unified Ideographs Extension E (2B820–2CEAF) содержит 5762 символа в диапазоне от U+2B820 до U+2CEA1, которые были добавлены в Unicode 8.0 (2015 г.).

2Б820–2СЕАФ .

Источники

[ редактировать ]

Примечание. Некоторые символы встречаются более чем в одном источнике, поэтому сумма количества отдельных символов (5830) превышает количество закодированных символов (5762). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай ГБК Энциклопедия Китая (Энциклопедия Китая) 15 2,821
ГЧ Чихай (джихай) 112
GCY Циюань (Циюань) 3
GCYY Иероглифы Китайской академии геодезии и картографии 98
GDZ Идеографии геологической прессы 1
ГГФЗ Tongyong Guifan Hanzi Zidian (Общий стандартный китайский словарь) 4
ГГХ Гудай Ханью Сидиан (Древнекитайский словарь) 175
ГХК Ханьюй Да Сидиан (Китайский словарь) 7
GIDC Система идентификации Министерства общественной безопасности Китая 36
ГЖЗ коммерческой прессы Идеографии 147
ГКЖ Условия в области науки и технологий (科技用字), одобренные Китайским национальным комитетом по науке и технологиям (CNCTST) 2
ГКХ Словарь Канси (Словарь Канси) 22
ГРМ People's Daily Иероглифы 3
ГУ Нет источника (возможно, ссылка на исходный источник была перемещена) 1
ГВЗ Иероглифы Ханью Да Сидиан Пресс 12
GXC Сяндай Ханью Сидиан (Современный китайский словарь) 57
ГХХ Синьхуа Цзыдянь (Словарь Синьхуа) 4
ГЗФИ Ханью Фангян Дацидиан (Словарь китайских диалектов) 712
ГЗВВ Инь Чжоу Цзиньвэнь Цзичэн Иньдэ (Комплексные надписи на Инь Чжоу Цзиньвэнь) 1,410
 Гонконг HD Дополнительный набор символов Гонконга, 2016 г. 1 1
 Япония Дж.К. Японская Кокудзи коллекция 415 415
 Южная Корея КС История Кореи онлайн (интегрированная информационная система по истории Кореи) 7 7
 Макао МК Справочник MCSCS 48 51
доктор медицинских наук Горизонтальные расширения MCSCS 3
 Тайвань Т3 ЦНС 11643-1992 самолет 3 2 1,261
туберкулез ЦНС 11643-2007 самолет 11 2
ТК ЦНС 11643-2007 самолет 12 323
ТД ЦНС 11643-2007 самолет 13 595
ТО ЦНС 11643-2007 самолет 14 339
 Великобритания Великобритания ИРГ N2107R2 2 2
 Вьетнам В0 ТКВН 5773:1993 6 1,036
V2 ВХН, январь 1998 г. 1
V4 Репертуар кодированных персонажей Хан Нома (Репертуар кодированных персонажей Хан Нома) 1,023
ВН Вьетнамские горизонтальные растяжки 6
н/д универсальное глобальное время Источники UTC 236 236

Расширение унифицированных идеографов CJK F

[ редактировать ]

Блок под названием CJK Unified Ideographs Extension F (2CEB0–2EBEF) содержит 7473 символа в диапазоне от U+2CEB0 до 2EBE0, которые были добавлены в Unicode 10.0 (2017 г.). Он включает в себя более 1000 Sawndip символов для Zhuang .

2CEB0–2EBEF .

Источники

[ редактировать ]

Примечание. Некоторые символы встречаются более чем в одном источнике, поэтому сумма количества отдельных символов (7774) превышает количество закодированных символов (7473). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай GCY Циюань (Циюань) 122 1,309
GFC Стандартный словарь современного китайского языка (второе издание Стандартного словаря современного китайского языка) 27
GIDC Система идентификации Министерства общественной безопасности Китая 1
ГКЖ Условия в области науки и технологий (科技用字), одобренные Китайским национальным комитетом по науке и технологиям (CNCTST) 5
GLGYJ Исследование песен Чжуан Ляо (Исследование песен Чжуан Ляо) 1
ГОКР Оксфордский англо-китайский китайско-английский словарь (Оксфордский англо-китайский китайско-английский словарь) 2
ГПГЛГ Серия «Чжуанская народная песенная культура» - «Песни Ляо округа Пинго» (Серия «Чжуанская народная песенная культура · Песни Пинго Ляо») 70
ГХХЗ Синьхуа да Цзыдянь (Словарь Синьхуа) 51
ГЗ персонажей Древнего Чжуана Словарь 995
ГЗВВ Инь Чжоу Цзиньвэнь Цзичэн Иньдэ (Комплексные надписи на Инь Чжоу Цзиньвэнь) 33
ГЗИС Исследование древних китайских этнических персонажей (Исследование древних китайских этнических персонажей) 2
 Гонконг HD Дополнительный набор символов Гонконга, 2016 г. 1 1
 Япония ВДМ Проект разработки и обслуживания информации о персонажах для электронного правительства «Проект MojiJoho-Kiban» 1,645 1,645
 Южная Корея КС История Кореи онлайн (интегрированная информационная система по истории Кореи) 1,810 1,810
 Макао МК Справочник MCSCS 22 22
 Тайвань Т3 ЦНС 11643-1992 самолет 3 1 3
Т6 ЦНС 11643-1992 самолет 6 1
ТК ЦНС 11643-2007 самолет 12 1
 Великобритания Великобритания ИРГ N2107R2 2 2
 Вьетнам В0 ТКВН 5773:1993 1 17
V4 Репертуар кодированных персонажей Хан Нома (Репертуар кодированных персонажей Хан Нома) 8
ВН Вьетнамские горизонтальные растяжки 8
н/д СБ Текстовая база данных SAT Daizōkyō 2,884 2,965
универсальное глобальное время Источники UTC 81

Расширение унифицированных иероглифов CJK G

[ редактировать ]

Блок под названием CJK Unified Ideographs Extension G был добавлен как часть Unicode 13.0 к третичной идеографической плоскости в диапазоне от U+30000 до U+3134F, содержащей 4939 символов. [13]

30000–3134Ф .

Источники

[ редактировать ]

Примечание. Некоторые символы встречаются более чем в одном источнике, поэтому сумма количества отдельных символов (5081) превышает количество закодированных символов (4939). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай ГХЗР Ханью Да Цзыдянь, 2-е изд. (Китайский словарь, второе издание) 878 2,082
ГПГЛГ Серия «Чжуанская народная песенная культура» - «Песни Ляо округа Пинго» (Серия «Чжуанская народная песенная культура · Песни Пинго Ляо») 13
ГЗ персонажей Древнего Чжуана Словарь 1,191
 Южная Корея КС История Кореи онлайн (интегрированная информационная система по истории Кореи) 435 435
 Тайвань Т13 CNS 11643 (ожидается новая версия) самолет 19 347 353
туберкулез ЦНС 11643-2007 самолет 11 3
ТК ЦНС 11643-2007 самолет 12 2
ТД ЦНС 11643-2007 самолет 13 1
 Великобритания Великобритания ИРГ N2107R2 1,566 1,566
 Вьетнам V4 Репертуар кодированных персонажей Хан Нома (Репертуар кодированных персонажей Хан Нома) 6 76
ВН Вьетнамские горизонтальные растяжки 70
н/д СБ Текстовая база данных SAT Daizōkyō 329 569
универсальное глобальное время Источники UTC 240

Расширение унифицированных иероглифов CJK H

[ редактировать ]

Блок под названием CJK Unified Ideographs Extension H был добавлен как часть Unicode 15.0 к третичной идеографической плоскости в диапазоне от U+31350 до U+323AF, содержащей 4192 символа. [14]

31350–323АФ .

Источники

[ редактировать ]

Примечание. Некоторые символы встречаются более чем в одном источнике, поэтому сумма количества отдельных символов (4306) превышает количество закодированных символов (4192). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай ГДМ Символы географических названий из Управления общественного порядка Министерства общественной безопасности Китайской Народной Республики. 128 829
ГХК Ханьюй Да Сидиан (Китайский словарь) 27
ГКЖ Условия в области науки и технологий (科技用字), одобренные Китайским национальным комитетом по науке и технологиям (CNCTST) 30
GLGYJ Исследование песен Чжуан Ляо (Исследование песен Чжуан Ляо) 11
ГПГЛГ Серия «Чжуанская народная песенная культура» - «Песни Ляо округа Пинго» (Серия «Чжуанская народная песенная культура · Песни Пинго Ляо») 14
ГУ Нет источника (возможно, ссылка на исходный источник была перемещена) 1
ГХМ Символы для использования в личных именах в Китае от Управления общественного порядка Министерства общественной безопасности Китайской Народной Республики. 216
ГЗ персонажей Древнего Чжуана Словарь 285
ГЗА-1 Яркая и непрерывная передача — сыновняя почтительность и похоронные песни Чжуана (исследование сыновней почтительности и похоронных песен Чжуана) 6
ГЗА-2 Аннотированные песни о морали Лун Чжуана (Аннотированные песни о морали Лун Чжуана) 38
ГЗА-3 Сборник текстов старых чжуанских народных песен - Ухаживающие песни, том 1 - Песни Ляо. 2
ГЗА-4 Сборник текстов старых чжуанских народных песен - Ухаживающие песни , том 1 - Фвен Нганкс. 11
ГЗА-6 Чжуанские пословицы из Китая (Китайские чжуанские пословицы) 59
ГЗА-7 воспоминания — песни-мифы о сотворении мира Чжуана Древние 1
 Южная Корея КС История Кореи онлайн (интегрированная информационная система по истории Кореи) 512 512
 Северная Корея КП1 КПС 10721-2000 1 1
 Тайвань Т12 CNS 11643 (ожидается новая версия) самолет 18 7 714
Т13 CNS 11643 (ожидается новая версия) самолет 19 696
Т4 ЦНС 11643-1992 самолет 4 1
Т6 ЦНС 11643-1992 самолет 6 1
туберкулез ЦНС 11643-2007 самолет 11 5
ТК ЦНС 11643-2007 самолет 12 3
ТО ЦНС 11643-2007 самолет 14 1
 Великобритания Великобритания ИРГ N2232R 917 917
 Вьетнам В0 ТКВН 5773:1993 6 931
V4 Репертуар кодированных персонажей Хан Нома (Репертуар кодированных персонажей Хан Нома) 74
ВН Вьетнамские горизонтальные растяжки 851
н/д СБ Текстовая база данных SAT Daizōkyō 241 402
универсальное глобальное время Источники UTC 161

Расширение унифицированных идеографов CJK I

[ редактировать ]

Блок под названием CJK Unified Ideographs Extension I был добавлен как часть Unicode 15.1 к дополнительной идеографической плоскости в диапазоне от U+2EBF0 до U+2EE5F, содержащей 622 символа. [15]

2EBF0–2EE5F .

Источники

[ редактировать ]
Страна или регион Код Источник [11] Количество символов Общий
 Китай GIDC23 Система идентификации Министерства общественной безопасности Китая, 2023 г. 622 622

Иероглифы совместимости CJK

[ редактировать ]

Блок под названием «Идеографы совместимости CJK» (F900–FAFF) был создан для обеспечения полной совместимости с другими стандартами.

Однако двенадцать символов в этом блоке на самом деле обладают свойством «Единый идеограф»: U+FA0E 﨎, U+FA0F 﨏, U+FA11 﨑, U+FA13 﨓, U+FA14 﨔, U+FA1F 﨟, U+FA21 﨡, U+FA23 﨣, U+FA24 﨤, U+FA27 﨧, U+FA28 﨨 и U+FA29 﨩. [1] Ни один из других символов в этом и других блоках «Совместимость» не имеет отношения к объединению CJK.

Хотя 龜 и 亀 не считаются объединяемыми, неясно, почему U+FA20 ИДЕОГРАФ СОВМЕСТИМОСТИ CJK-FA20 считается эквивалентом U+8612 CJK ЕДИНАЯ ИДЕОГРАФИЯ-8612 .

F900–ФАФФ .

Источники

[ редактировать ]

Примечание. Все символы встречаются более чем в одном источнике, поэтому сумма количества отдельных символов (36) больше, чем количество закодированных символов (12). [10]

Страна или регион Код Источник [11] Количество символов Общий
 Китай ГУ Нет источника (возможно, ссылка на исходный источник была перемещена) 12 12
 Япония J3 JIS X 0213:2004 Уровень 3 3 8
J4 JIS X 0213:2004 Уровень 4 3
И Современные иероглифы японских поставщиков информационных технологий, 1 993 г. 1
JA3 JIS X 0213:2004 символы уровня 3 заменяют символы JA 1
 Тайвань ТФ ЦНС 11643-2007 самолет 15 1 1
 Вьетнам В0 ТКВН 5773:1993 3 3
н/д универсальное глобальное время Источники UTC 12 12

Известные проблемы

[ редактировать ]

Разъединение

[ редактировать ]

Символ U+4039 (䀹) представлял собой объединение двух разных символов (один с фонетическим jiā夾 и один с фонетическим сён 㚒) до Unicode 5.0. Однако это были лексически разные символы, которые не следовало объединять; они имеют разное произношение и разное значение.

Предложение о разъединении U+4039. [16] был принят в Unicode 5.1, закодировав новый символ U+9FC3 (鿃) для обозначения сюна.

Еще 3 глифа в расширении B.

[ редактировать ]

В расширении B унифицированных идеографов CJK некоторые символы неправильно объединены с другими. К этим символам относятся U+2017B (𠅻), U+204AF (𠒯) ​​и U+24CB2 (𤲲). Первые два символа содержали неправильное объединение материкового Китая и вьетнамского источника их глифа, а последний объединяет материковый Китай и Тайвань. [17]

Унифицируемые варианты и точные дубликаты

[ редактировать ]

Также в CJK Unified Ideographs Extension B сотни вариантов глифов были закодированы по ошибке. [18] Кроме того, в отчете ISO/IEC JTC 1/SC 2 обнаружено шесть точных дубликатов (где один и тот же символ был случайно закодирован дважды) и два полудубликата (где символ CJK-B представляет собой фактическое разъединение двух форм глифа). унифицированы в соответствующем символе BMP) были закодированы по ошибке: [19]

  • U + 34A8 㒨 = U + 20457 𠑗 : U + 20457 совпадает с символом китайского источника для U + 34A8, но он значительно отличается от глифа тайваньского происхождения для U + 34A8.
  • U+3DB7 㶷 = U+2420E 𤈎: те же формы глифов.
  • U + 8641 虁 = U + 27144 𧅄 : U + 27144 — это то же самое, что и символ корейского происхождения для U + 8641, но он значительно отличается от символов материкового Китая, Тайваня и Японии для U + 8641.
  • U+204F2 𠓲 = U+23515 𣔕: те же формы глифов, но упорядоченные под разными радикалами.
  • U+249BC 𤦼 = U+249E9 𤧩: одинаковые формы глифов.
  • U+24BD2 𤯒 = U+2A415 𪐕: те же формы глифов, но упорядочены под разными радикалами.
  • U+26842 𦡂 = U+26866 𦡦: одинаковые формы глифов
  • U+FA23 﨣 = U+27EAF 𧺯: одинаковые формы глифов (U+FA23 﨣 — это единый иероглиф CJK, несмотря на его название «ИДЕОГРАФ СОВМЕСТИМОСТИ CJK-FA23».)

Другие иероглифы CJK в Unicode, кроме Unified

[ редактировать ]

Помимо десяти блоков «Единых иероглифов», в Юникоде имеется еще около дюжины блоков с неунифицированными CJK-символами. В основном это радикалы CJK, штрихи, знаки препинания, знаки, символы и символы совместимости. Хотя некоторые символы имеют свои (разлагаемые) аналоги в других блоках, их использование может быть другим. Пример неунифицированного CJK-символа: U + 3007 ИДЕОГРАФИЧЕСКИЙ НОМЕР НОЛЬ в блоке символов и пунктуации CJK . Хотя он не подпадает под «унифицированные иероглифы CJK», для всех остальных намерений и целей он рассматривается как символ CJK. [20]

Для совместимости с устаревшими системами обработки текста и старыми наборами символов включены четыре блока символов совместимости:

Они включают в себя формы символов для вертикального расположения текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами. Поэтому их использование не рекомендуется.

Поддержка шрифтов

[ редактировать ]

Блоки CJK Unified Ideographs и CJK Unified Ideographs Extension A, являющиеся частями Basic Multilingual Plane , поддерживаются большинством шрифтов CJK . Однако японские и корейские шрифты обычно содержат меньше символов (около 13 000 и 8 000 соответственно), чем китайские. Расширения B, C, D поддерживаются дополнительными шрифтами MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB, SimSun-ExtB, включенными в Microsoft Windows начиная с Vista. [21]

История версий Юникода

[ редактировать ]
Добавления унифицированных иероглифов CJK для каждой версии Unicode
Версия Юникод Добавление Самолет Добавлены персонажи Всего символов
1.0 (1991) Единые иероглифы CJK Базовый многоязычный самолет (BMP) 20,902 20,914
Иероглифы совместимости CJK БМП 12
3.0 (1999) Расширение A унифицированных идеографов CJK БМП 6,582 27,496
3.1 (2001) Расширение B унифицированных иероглифов CJK Дополнительная идеографическая плоскость (SIP) 42,711 70,207
4.1 (2005) Унифицированные идеограммы CJK: иероглифы из HKSCS-2004 и GB 18030-2000, не входящие в ISO 10646. БМП 22 70,229
5.1 (2008) Унифицированные иероглифы CJK: иероглифы Adobe Japan и разъединение U + 4039. БМП 8 70,237
5.2 (2009) Расширение CJK для унифицированных идеографов C ГЛОТОК 4,149 74,394
Еще 8 персонажей из ARIB № 47, № 95, № 93 и HKSCS. БМП 8
6.0 (2010) Расширение D унифицированных иероглифов CJK ГЛОТОК 222 74,616
6.1 (2012) 1 символ, соответствующий Adobe-Japan1-6 CID+20156. БМП 1 74,617
8.0 (2015) Расширение E унифицированных иероглифов CJK ГЛОТОК 5,762 80,388
еще 9 персонажей БМП 9
10.0 (2017) Расширение унифицированных идеографов CJK F ГЛОТОК 7,473 87,882
еще 21 персонаж БМП 21
11.0 (2018) Единые иероглифы CJK БМП 5 87,887
13.0 (2020) Единые иероглифы CJK БМП 13 92,856
Расширение A унифицированных идеографов CJK БМП 10
Расширение B унифицированных иероглифов CJK ГЛОТОК 7
Расширение унифицированных иероглифов CJK G Третичная идеографическая плоскость (ТИП) 4,939
14.0 (2021) Единые иероглифы CJK БМП 3 92,865
Расширение B унифицированных иероглифов CJK ГЛОТОК 2
Расширение CJK для унифицированных идеографов C ГЛОТОК 4
15.0 (2022) Расширение CJK для унифицированных идеографов C ГЛОТОК 1 97,058
Расширение унифицированных иероглифов CJK H КОНЧИК 4,192
15.1 (2023) Расширение унифицированных идеографов CJK I ГЛОТОК 622 97,680

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Специальные символы, не имеющие отношения к Сингапуру или его китайским иероглифам . [12]
  1. ^ Перейти обратно: а б «Unicode 15.1 UCD: PropList.txt» . 01.08.2023 . Проверено 12 сентября 2023 г.
  2. ^ «Unicode 15.1 UCD: Unihan: Unihan_IRGSources.txt» . 15 июля 2023 г. Проверено 24 января 2024 г.
  3. ^ Лунде, Кен (17 июля 2023 г.). «UAX № 45: Идеограммы U-источника» . Консорциум Юникод.
  4. ^ Стандарт Unicode 4.0, Приложение A - История объединения Хань
  5. ^ Сюзанна Топпинг, «Тайная жизнь Юникода» . Архивировано из оригинала 14 ноября 2007 г. Проверено 12 мая 2010 г. {{cite web}}: CS1 maint: bot: исходный статус URL неизвестен ( ссылка )
  6. ^ « Глава 11 — Восточноазиатские сценарии », Стандарт Unicode, 4.0 .
  7. ^ «База данных идеографических вариаций» . 13 сентября 2022 г. Проверено 20 сентября 2022 г.
  8. ^ «Статистика ИВД» . 13 сентября 2022 г. Проверено 20 сентября 2022 г.
  9. ^ PRI 108: Комбинированная регистрация коллекции Adobe Japan1 и последовательностей в этой коллекции.
  10. ^ Перейти обратно: а б с д и ж г час я дж «Unihan_IRGSources.txt (из Unihan.zip)» . 15 июля 2023 г. Проверено 12 сентября 2023 г.
  11. ^ Перейти обратно: а б с д и ж г час я дж к «UAX № 38: База данных Unicode Han (Unihan)» . Консорциум Юникод. 01.09.2023.
  12. ^ Лунде, Кен (2009). Обработка информации CJKV (2-е изд.). Севастополь, Калифорния: ISBN O'Reilly Media, Inc.  978-0-596-15611-4 . OCLC   317878469 .
  13. ^ «Юникод 13.0.0» . 10 марта 2020 г. Проверено 10 марта 2020 г.
  14. ^ «Юникод 15.0.0» . 13 сентября 2022 г. Проверено 14 сентября 2022 г.
  15. ^ «Юникод 15.1.0» . 12 сентября 2023 г. Проверено 12 сентября 2023 г.
  16. ^ Эндрю Уэст и Джон Дженкинс, предложение о разъединении U + 4039
  17. ^ Эйсо Чан (陈永聪), Комментарии к четырем глифам ошибок в унифицированных идеографах CJK Ext B & E. [1]
  18. ^ Тайчи Кавабата. «IRGN1155 Возможные дубликаты» (.zip) . Проверено 22 июня 2019 г.
  19. ^ Кук, Ричард (6 октября 2003 г.). «Отчет о дефектах в повторяющихся закодированных формах CJK» (PDF) . ISO/IEC JTC1/SC2/WG2 . Проверено 28 марта 2012 г.
  20. ^ GB/T 15835-2011 «Использование чисел в публикациях». Китай Гоцзя Бяочжунь https://journals.usst.edu.cn/uploadfile/file/GBT%2015835-2011%E3%80%8A%E5%87 . %BA%E7%89%88%E7%89%A9%E4%B8%8A%E6%95%B0%E5%AD%97%E7%94%A8%E6%B3%95%E3%80%8B .pdf
  21. ^ Лунде, Кен (2009). Обработка информации CJKV . О'Рейли. стр. 633–634. ISBN  978-0-596-51447-1 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c0488f361efb5a615910ae78c5f94e96__1711433820
URL1:https://arc.ask3.ru/arc/aa/c0/96/c0488f361efb5a615910ae78c5f94e96.html
Заголовок, (Title) документа по адресу, URL1:
CJK Unified Ideographs - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)