Ханьское объединение

Различия для одного и того же кода Юникода (U+8FD4) в региональных версиях Source Han Sans

Эта статья содержит специальные символы . Без надлежащей поддержки рендеринга вы можете увидеть вопросительные знаки, прямоугольники и другие символы .

Унификация хань — это попытка авторов Юникода и универсального набора символов сопоставить несколько наборов символов так хань называемых языков CJK в единый набор унифицированных символов . Ханьские символы — это общая черта письменности китайского ( ханзи ), японского ( кандзи ), корейского ( ханджа ) и вьетнамского языков ( чо хан ).

В современных китайских, японских и корейских шрифтах обычно используются региональные или исторические варианты данного ханьского символа . При разработке Юникода была предпринята попытка объединить эти варианты, рассматривая их как аллографы — разные глифы, представляющие одну и ту же «графему» или орфографическую единицу — отсюда и «унификация Хань», в результате чего репертуар символов иногда сокращается до Унихана . ^[1]^[а]

Тем не менее, многие символы имеют региональные варианты, присвоенные разным кодовым точкам , например традиционный 個 (U+500B) и упрощенный 个 (U+4E2A).

Обоснование и противоречия

Стандарт Unicode подробно описывает принципы объединения Хань. ^[5]^[6] За этот процесс отвечает Группа идеографических исследований (IRG), состоящая из экспертов из китайскоязычных стран, Северной и Южной Кореи, Японии, Вьетнама и других стран.

Одним из объяснений было желание ограничить размер полного набора символов Юникода, где символы CJK, представленные дискретными идеограммами, могут приближаться к 100 000 или превышать их. ^[б] персонажи. Версия 1 Unicode была разработана с учетом 16 бит, и только 20 940 символов (32%) из возможных 65 536 были зарезервированы для этих унифицированных иероглифов CJK . Позже Unicode был расширен до 21 бита, что позволило использовать гораздо больше символов CJK (назначено 97 680, есть место для большего количества).

Статья, размещенная IBM, пытается проиллюстрировать часть мотивации объединения Хань: ^[7]

Проблема связана с тем, что Unicode кодирует символы, а не «глифы», которые являются визуальным представлением символов. Существует четыре основные традиции восточноазиатских форм иероглифов: традиционный китайский, упрощенный китайский, японский и корейский. Хотя корневой символ хань может быть одинаковым для языков CJK, общеупотребительные глифы для одних и тех же символов могут быть разными.Например, традиционный китайский иероглиф «трава» использует четыре штриха для радикала «трава» [ ⺿ ], тогда как упрощенные китайские, японские и корейские глифы [ ⺾ ] используют три. Но для символа травы есть только одна точка Unicode (U + 8349) [ 草 ], независимо от системы письма. Другой пример — иероглиф «один», который различается в китайском, японском и корейском языках. Многие думают, что эти три версии должны быть закодированы по-разному.

Фактически, три идеограммы «одного» ( 一 , 壹 или 壱 ) кодируются в Юникоде отдельно, поскольку они не считаются национальными вариантами. Первая форма является общей во всех трех странах, а вторая и третья используются в финансовых инструментах для предотвращения фальсификации (их можно рассматривать как варианты).

Однако объединение Хань также вызвало серьезные споры, особенно среди японской общественности, которая, как и литераторы страны, имеет историю протеста против исключения исторически и культурно значимых вариантов. ^[8]^[9] (См. Кандзи § Орфографическая реформа и списки кандзи . Сегодня список символов, официально признанных для использования в именах собственных, продолжает расширяться скромными темпами.)

В 1993 году Японская ассоциация развития электронной промышленности (JEIDA) опубликовала брошюру под названием « Мы с нетерпением ждем будущей системы кодирования символов». JPNO 20985671 ), обобщающий основную критику подхода Ханьской унификации, принятого в Unicode.

Графемы против глифов

Латинская строчная буква « а » имеет совершенно разные глифы, которые представляют собой конкретные экземпляры одной и той же абстрактной графемы. Хотя носитель языка, использующего латиницу, воспринимает эти два глифа как одну и ту же графему, другим они могут показаться совершенно несвязанными.

Графема — это наименьшая абстрактная единица значения в системе письма. Любая графема имеет множество возможных выражений глифов, но все они признаются одной и той же графемой теми, кто умеет читать и писать в определенной системе письма. Хотя Unicode обычно присваивает символы кодовым точкам для выражения графем в системе письма, стандарт Unicode ( раздел 3.4 D7 ) предупреждает:

Абстрактный символ не обязательно соответствует тому, что пользователь считает «символом», и его не следует путать с графемой .
— Стандарт Unicode® версии 15.0 – Основная спецификация §3.4 Символы и кодировка

Однако эта цитата относится к тому факту, что некоторые графемы состоят из нескольких графических элементов или «символов». Так, например, персонаж U+0061 ЛАТИНСКАЯ СТРОЧНАЯ БУКВА A в сочетании с U + 030A ◌̊ КОМБИНИРОВАННОЕ КОЛЬЦО ВЫШЕ (генерирующее комбинацию «å») может быть понято пользователем как одна графема, состоящая из нескольких абстрактных символов Юникода. Кроме того, Unicode также присваивает некоторые кодовые точки небольшому количеству (за исключением соображений совместимости) символов форматирования, символов пробелов и других абстрактных символов, которые не являются графемами, но вместо этого используются для управления разрывами между строками, словами, графемами и графемные кластеры. Благодаря унифицированным иероглифам Хань стандарт Юникода отходит от прежней практики присвоения абстрактных символов не как графем, а в соответствии с основным значением графемы: то, что лингвисты иногда называют семемами . Таким образом, это отклонение объясняется не просто часто цитируемым различием между абстрактным символом и глифом, но в большей степени коренится в различии между абстрактным символом, назначенным как графема, и абстрактным символом, назначенным как семема. Напротив, рассмотрим ASCII Объединение знаков препинания и диакритических знаков , при котором графемы с совершенно разными значениями (например, апостроф и одинарная кавычка) объединены, поскольку глифы одинаковы. Для Унихана персонажи едины не по внешнему виду, а по определению или значению.

Представление графемы различными глифами означает, что графема имеет варианты глифов, которые обычно определяются путем выбора того или иного шрифта или использования функций замены глифов, когда несколько глифов включены в один шрифт. Такие варианты глифов рассматриваются в Unicode как особенность протоколов форматированного текста и не учитываются должным образом в целях обычного текста Unicode. Однако, когда переход от одного глифа к другому представляет собой переход от одной графемы к другой - когда глиф не может, например, по-прежнему означать ту же самую графему, понимаемую как строчную букву «а», - Unicode разделяет их на отдельные кодовые точки. Для Унихана то же самое делается всякий раз, когда меняется абстрактное значение, однако вместо того, чтобы говорить об абстрактном значении графемы (буквы «а»), унификация ханьских иероглифов присваивает новую кодовую точку каждому различному значению - даже если это Значение выражается различными графемами на разных языках. Хотя такая графема, как «ö», может означать в английском языке нечто иное (как используется в слове «координированный»), чем в немецком (как используется в слове «schön»), это по-прежнему одна и та же графема, и ее можно легко унифицированы, так что английский и немецкий языки могут использовать общую абстрактную латинскую систему письма (наряду с самой латынью). Этот пример также указывает на другую причину, по которой «абстрактный символ» и графема как абстрактная единица письменного языка не обязательно соответствуют друг другу. На английском языке сочетание диэрезиса , «¨» и изменяемой им «о» можно рассматривать как две отдельные графемы, тогда как в таких языках, как шведский, буква «ö» может рассматриваться как одна графема. Точно так же в английском языке точка на букве «i» понимается как часть графемы «i», тогда как в других языках, например, в турецком, точку можно рассматривать как отдельную графему, добавленную к лишенной точки «ı» .

Чтобы справиться с использованием разных графем для одной и той же семемы Унихана, Unicode использовал несколько механизмов: особенно в том, что касается рендеринга текста. Один из них заключался в том, чтобы рассматривать это просто как проблему со шрифтами, чтобы можно было использовать разные шрифты для отображения китайского, японского или корейского языка. Кроме того, такие форматы шрифтов, как OpenType, позволяют отображать альтернативные глифы в зависимости от языка, чтобы система рендеринга текста могла учитывать настройки среды пользователя, чтобы определить, какой глиф использовать. Проблема с этими подходами заключается в том, что они не соответствуют целям Unicode по определению последовательного способа кодирования многоязычного текста. ^[10]

Поэтому вместо того, чтобы рассматривать эту проблему как проблему форматированного текста с альтернативными глифами, Unicode добавил концепцию селекторов вариантов , впервые представленную в версии 3.2 и дополненную в версии 4.0. ^[11] Хотя селекторы вариантов рассматриваются как комбинированные символы, они не имеют связанного диакритического знака или знака. Вместо этого, объединяясь с базовым символом, они сигнализируют, что последовательность двух символов выбирает вариант (обычно с точки зрения графемы, но также и с точки зрения основного значения, как в случае названия места или другого имени собственного) базового символа. Тогда это не выбор альтернативного глифа, а выбор вариации графемы или вариации базового абстрактного символа. Однако такую последовательность двух символов можно легко сопоставить с отдельным глифом в современных шрифтах. Поскольку Unicode назначил 256 отдельных селекторов вариантов, он способен назначить 256 вариантов для любого иероглифа Хань. Такие варианты могут быть специфичными для того или иного языка и позволяют кодировать простой текст, включающий такие варианты графем.

Унихан «абстрактные персонажи»

Поскольку стандарт Unihan кодирует «абстрактные символы», а не «глифы», графические артефакты, создаваемые Unicode, считаются временными техническими препятствиями и, в лучшем случае, косметическими. Однако, опять же, особенно в Японии, отчасти из-за того, как исторически китайские иероглифы были включены в японские системы письма, невозможность указать конкретный вариант считалась серьезным препятствием для использования Unicode в научной работе. Например, объединение слова «трава» (объясненное выше) означает, что исторический текст не может быть закодирован так, чтобы сохранить его особую орфографию. Вместо этого, например, ученому придется найти нужный глиф в определенном шрифте, чтобы передать текст в том виде, в каком он написан, что противоречит цели единого набора символов. Unicode отреагировал на эти потребности, назначив селекторы вариантов, чтобы авторы могли выбирать варианты графем определенных иероглифов (или даже других символов). ^[11]

Небольшие различия в графическом представлении также создают проблемы, когда они влияют на разборчивость или принадлежат к неправильной культурной традиции. Помимо того, что некоторые шрифты Unicode станут непригодными для использования в текстах, включающих несколько «языков Unihan», имена или другая орфографически чувствительная терминология может отображаться неправильно. (Имена собственные, как правило, особенно орфографически консервативны — сравните это с изменением написания имени в соответствии с языковой реформой в США или Великобритании.) Хотя это можно рассматривать в первую очередь как проблему графического представления или рендеринга, которую необходимо преодолеть с помощью более искусных шрифтов. , широкое использование Unicode затруднит сохранение таких различий. Проблема одного символа, обозначающего семантически разные понятия, присутствует и в латинской части Юникода. Символ Юникода для изогнутого апострофа аналогичен символу правой одинарной кавычки ('). С другой стороны, заглавная латинская буква А не унифицирована с греческой буквой А или с Кириллическая А. буква Это, конечно, желательно из соображений совместимости и касается гораздо меньшего набора буквенных символов.

Хотя аспект унификации Unicode вызывает споры в некоторых кругах по причинам, указанным выше, сам Unicode теперь кодирует огромное количество редко используемых символов более или менее антикварного характера.

Некоторые разногласия возникают из-за того, что само решение об объединении Хань было принято первоначальным Консорциумом Unicode, который в то время представлял собой консорциум североамериканских компаний и организаций (большинство из них в Калифорнии). ^[12] но в него не вошли представители правительств Восточной Азии. Первоначальной целью разработки было создание 16-битного стандарта. ^[13] Таким образом, объединение Хань было решающим шагом во избежание десятков тысяч дублирования символов. Позднее от этого 16-битного требования отказались, благодаря чему размер набора символов сегодня не является проблемой.

Позже спор распространился на международный стандарт ISO: первоначальная Объединенная исследовательская группа CJK (CJK-JRG) поддержала предложение (DIS 10646) о неунифицированном наборе символов, «которое было отвергнуто в пользу унификации с унифицированным набором символов Консорциума Unicode». характер, установленный голосами американских и европейских членов ИСО» (хотя позиция Японии была неясна). ^[14] Одобрение объединения Unicode Han было необходимым шагом для бурного слияния ISO 10646 и Unicode.

Большая часть споров вокруг объединения Хань основана на различии между глифами , как они определены в Юникоде, и связанной с ними, но отличной идеей графем. Юникод назначает абстрактные символы (графемы) в отличие от глифов, которые представляют собой определенные визуальные представления символа в определенной гарнитуре . Один символ может быть представлен множеством различных глифов, например «g» или «a», оба из которых могут иметь одну петлю ( ɑ , ɡ ) или две ( a , g ). Тем не менее, для читателя языков, основанных на латинице, оба варианта символа «а» воспринимаются как одна и та же графема. Графемы, присутствующие в национальных стандартах кодировки символов, были добавлены в Unicode, как того требует правило разделения исходных кодов Unicode, даже если они могут состоять из уже доступных символов. Национальные стандарты кодирования символов, существующие в языках CJK, значительно более сложны, учитывая технологические ограничения, в условиях которых они развивались, и поэтому официальные участники CJK в объединении Хань вполне могли поддаться реформированию.

В отличие от европейских версий, шрифты CJK Unicode из-за унификации Хань имеют большие, но нерегулярные узоры перекрытия, что требует использования шрифтов, специфичных для языка. К сожалению, шрифты, специфичные для языка, также затрудняют доступ к варианту, который, как и в случае с «травой», чаще встречается в другом языковом стиле. (То есть было бы трудно получить доступ к «траве» с помощью четырехстрочного радикала, более типичного для традиционного китайского языка в японской среде, где шрифты обычно изображают трехстрочный радикал.) Сторонники унихана склонны отдавать предпочтение языкам разметки. для определения языковых строк, но это не гарантирует использование определенного варианта в данном случае, а только шрифт, специфичный для языка, с большей вероятностью будет отображать символ как этот вариант. (На этом этапе имеют место лишь стилистические различия, поскольку некоторые японские и китайские шрифты вряд ли будут визуально совместимы.)

Китайские пользователи, похоже, имеют меньше возражений против объединения ханьских символов, главным образом потому, что Unicode не пытался объединить иероглифы упрощенного китайского языка с иероглифами традиционного китайского языка . (Упрощенные китайские иероглифы используются носителями китайского языка в Китайской Народной Республике , Сингапуре и Малайзии . Традиционные китайские иероглифы используются в Гонконге и Тайване ( большая пятерка ), и они, с некоторыми отличиями, более знакомы корейским и японским пользователям. ) Юникод считается нейтральным по отношению к этому политически окрашенному вопросу и кодирует глифы упрощенного и традиционного китайского языка отдельно (например, иероглиф «выбросить» — 丟 U+4E1F для традиционного китайского Big5 #A5E1 и 丢 U+4E22 для упрощенного китайского языка). ГБ № 2210). Также отмечается, что традиционные и упрощенные символы должны кодироваться отдельно в соответствии с правилами Unicode Han Unification, поскольку они различаются в уже существующих наборах символов PRC. Более того, как и в других вариантах, символы от традиционного к упрощенному не являются однозначными.

Альтернативы

Существует несколько альтернативных наборов символов, которые не кодируются по принципу Ханьской унификации и, следовательно, свободны от его ограничений:

Эти зависящие от региона наборы символов также считаются не затронутыми Ханьским объединением из-за их специфичной для региона природы:

ISO/IEC 2022 (на основе кодов последовательности для переключения между наборами символов китайского, японского и корейского языков, следовательно, без унификации)
Расширения Big5
GCCS и его преемник HKSCS

Однако ни один из этих альтернативных стандартов не получил такого широкого распространения, как Unicode , который в настоящее время является базовым набором символов для многих новых стандартов и протоколов, принятых на международном уровне и встроен в архитектуру операционных систем ( Microsoft Windows , Apple macOS и многих других). Unix-подобные системы), языки программирования ( Perl , Python , C# , Java , Common Lisp , APL , C , C++ ) и библиотеки (IBM International Components for Unicode (ICU), а также Pango , Graphite , Scribe , Uniscribe и Механизмы рендеринга ATSUI ), форматы шрифтов ( TrueType и OpenType ) и так далее.

В марте 1989 года система на основе (B)TRON была принята японской правительственной организацией «Центр образовательных вычислений» в качестве системы выбора для школьного образования, включая обязательное образование . ^[15] Однако в апреле в отчете Управления торгового представителя США под названием «Национальный торговый оценочный отчет о барьерах внешней торговли за 1989 год» эта система конкретно была указана как торговый барьер в Японии. В отчете утверждается, что принятие японским правительством системы на основе TRON выгодно японским производителям и, таким образом, исключает операционные системы США из огромного нового рынка; в частности, в отчете в качестве примеров приводятся MS-DOS, OS/2 и UNIX. Управление USTR предположительно находилось под влиянием Microsoft, поскольку Microsoft предложила его бывшему сотруднику Тому Робертсону прибыльную должность. ^[16] Хотя сама система TRON была впоследствии исключена из списка санкций разделом 301 Закона о торговле 1974 года после протестов организации в мае 1989 года, торговый спор заставил Министерство международной торговли и промышленности принять запрос Масаеси Сона на отменить выбор Центром образовательных вычислений системы на базе TRON для использования учебных компьютеров. ^[17] Этот инцидент считается символическим событием потери импульса и возможного упадка системы BTRON, что привело к широкому распространению MS-DOS в Японии и возможному принятию Unicode с его преемницей Windows.

Объединение всех эквивалентных символов

Не было никакого стремления к полной семантической унификации всех семантически связанных символов, хотя эта идея будет относиться к соответствующим пользователям восточноазиатских языков одинаково, независимо от того, пишут ли они на корейском, упрощенном китайском, традиционном китайском, японском кюдзитай , японском синдзитае или вьетнамском языке. . Вместо того, чтобы некоторые варианты получали отдельные кодовые точки, в то время как другие группы вариантов должны иметь общие кодовые точки, все варианты могут быть надежно выражены только с помощью тегов метаданных (например, форматирование CSS на веб-страницах). Бремя ляжет на всех тех, кто использует разные версии 直 , 別 , 兩 , 兔 , независимо от того, вызвана ли эта разница упрощением, международными различиями или внутринациональными различиями. Однако на некоторых платформах (например, смартфонах) устройство может поставляться с предустановленным только одним шрифтом. Системный шрифт должен выбрать глиф по умолчанию для каждой кодовой точки, и эти глифы могут сильно различаться, указывая на разные основные графемы.

Следовательно, использование повсеместной языковой разметки сталкивается с двумя основными проблемами. Во-первых, существуют контексты, в которых языковая разметка недоступна (фиксация кода, простой текст). Во-вторых, любое решение потребует, чтобы в каждой операционной системе было предустановлено множество глифов для семантически идентичных символов, имеющих множество вариантов. Помимо стандартных наборов символов упрощенного китайского, традиционного китайского, корейского, вьетнамского, японского языка Кюдзитай и японского языка Синдзитай, существуют также «древние» формы символов, представляющие интерес для историков, лингвистов и филологов.

База данных Unicode Unihan уже установила связи между многими символами. База данных Unicode уже каталогизирует связи между вариантами символов с отдельными кодовыми точками. Однако для символов с общим кодом изображение эталонного глифа обычно смещено в сторону традиционной китайской версии. Кроме того, решение о том, классифицировать ли пары как семантические варианты или z-варианты, не всегда является последовательным и ясным, несмотря на объяснения в справочнике. ^[18]

Так называемые семантические варианты 丟 (U+4E1F) и 丢 (U+4E22) являются примерами, которые Unicode приводит как существенно отличающиеся по своим абстрактным формам, в то время как Unicode перечисляет 佛 и 仏 как z-варианты, отличающиеся только шрифтом. стиль. Парадоксально, но Unicode считает 兩 и 両 почти идентичными z-вариантами, в то же время классифицируя их как существенно разные семантические варианты. Встречаются также случаи, когда некоторые пары символов являются одновременно смысловыми вариантами, специализированными смысловыми вариантами и упрощенными вариантами: 個 (U+500B) и 个 (U+4E2A). Встречаются случаи невзаимной эквивалентности. Например, запись базы данных Unihan для 亀 (U+4E80) считает 龜 (U+9F9C) своим z-вариантом, но запись для 龜 не указывает 亀 как z-вариант, хотя 龜, очевидно, уже был в базу данных на момент записи для亀 записи .

Некоторые технические ошибки привели к дублированию полностью идентичных символов, таких как 﨣 (U+FA23) и 𧺯 (U+27EAF). Если в шрифте есть глифы, закодированные для обеих точек, так что для обеих точек используется один шрифт, они должны выглядеть одинаково. Эти случаи указаны как z-варианты, несмотря на отсутствие дисперсии. были добавлены намеренно дублированные символы Для облегчения побитового двустороннего преобразования . Поскольку двустороннее преобразование было одним из первых преимуществ Unicode, это означало, что если используемый национальный стандарт без необходимости дублировал символ, Unicode должен был сделать то же самое. Unicode называет эти преднамеренные дублирования « вариантами совместимости », как и 漢 (U+FA9A), который называет 漢 (U+6F22) своим вариантом совместимости. Пока приложение использует один и тот же шрифт для обоих, они должны выглядеть одинаково. Иногда, как в случае с 車 с U+8ECA и U+F902, добавленный символ совместимости указывает уже существующую версию 車 как вариант совместимости и как z-вариант. Поле варианта совместимости переопределяет поле z-варианта, вызывая нормализацию во всех формах, включая каноническую эквивалентность. Несмотря на название, варианты совместимости на самом деле канонически эквивалентны и объединяются в любой схеме нормализации Unicode, а не только в нормализации совместимости. Это похоже на то, как U+212B Å ЗНАК АНГСТРОМ канонически эквивалентен заранее составленному U+00C5 Å ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A С КОЛЬЦОМ НАВЕРХУ . Большая часть программного обеспечения (например, программное обеспечение MediaWiki, на котором размещена Arc.Ask3.Ru) заменяет все канонически эквивалентные символы, которые не рекомендуются (например, символ ангстрема), на рекомендуемый эквивалент. Несмотря на название, «варианты совместимости» CJK являются канонически эквивалентными символами, а не символами совместимости.

漢 (U+FA9A) был добавлен в базу данных позже, чем 漢 (U+6F22), и его запись информирует пользователя о совместимости. С другой стороны, 漢 (U+6F22) не имеет такого эквивалента, указанного в этой записи. Юникод требует, чтобы все записи после их допуска не могли изменить совместимость или эквивалентность, чтобы правила нормализации для уже существующих символов не менялись.

Некоторые пары Традиционного и Упрощенного также считаются смысловыми вариантами. Согласно определениям Unicode, имеет смысл, что все упрощения (которые не приводят к объединению совершенно разных символов для их гомофонии) будут формой семантического варианта. Юникод классифицирует 丟 и 丢 как соответствующие традиционные и упрощенные варианты друг друга, а также как семантические варианты друг друга. Однако, хотя Unicode классифицирует 億 (U+5104) и 亿 (U+4EBF) как соответствующие традиционные и упрощенные варианты друг друга, Unicode не считает 億 и 亿 семантическими вариантами друг друга.

Unicode утверждает, что «в идеале в стандарте Unicode не должно быть пар z-вариантов». ^[18] Может показаться, что цель состоит в том, чтобы, по крайней мере, унифицировать все второстепенные варианты, избыточность совместимости и случайную избыточность, оставив дифференциацию шрифтам и языковым тегам. Это противоречит заявленной цели Unicode — устранить эти накладные расходы и позволить любому количеству любых мировых скриптов находиться в одном документе с одной системой кодирования. ^{[ неправильный синтез? ]} В первой главе руководства говорится: «С помощью Unicode индустрия информационных технологий заменила быстрорастущие наборы символов стабильностью данных, глобальной функциональной совместимостью и обменом данными, упрощенным программным обеспечением и снижением затрат на разработку. Приняв набор символов ASCII в качестве отправной точки, Стандарт Unicode выходит далеко за рамки ограниченной способности ASCII кодировать только прописные и строчные буквы от A до Z. Он обеспечивает возможность кодирования всех символов, используемых в письменных языках мира - можно закодировать более 1 миллиона символов. Без escape-последовательности. или управляющий код требуется для указания любого символа на любом языке. Кодировка символов Unicode одинаково обрабатывает алфавитные символы, идеографические символы и символы, что означает, что они могут использоваться в любой комбинации и с одинаковой легкостью». ^[10]

Это оставляет возможность остановиться на одной единой эталонной графеме для всех z-вариантов, что является спорным, поскольку немногие за пределами Японии признают 佛 и 仏 эквивалентными. Даже в самой Японии эти варианты находятся по разные стороны большого упрощения, называемого Синдзитай. принятое в КНР По сравнению с ним, Unicode фактически сделал бы упрощение侣 (U+4FA3) и 侶 (U+4FB6), . Такой план также устранил бы очень визуально различимые вариации таких символов, как 直 (U+76F4) и 雇 (U+96C7).

Можно было бы ожидать, что все упрощенные символы одновременно будут z-вариантами или семантическими вариантами своих традиционных аналогов, но многие из них не являются ни тем, ни другим. Легче объяснить тот странный случай, когда семантические варианты могут быть одновременно и семантическими вариантами, и специализированными вариантами, когда определение Unicode заключается в том, что специализированные семантические варианты имеют одно и то же значение только в определенных контекстах. Языки используют их по-разному. Пара, персонажи которой на 100% заменяют друг друга на японском языке, может быть не такой гибкой на китайском. Таким образом, любое комплексное объединение рекомендуемых кодовых точек должно будет поддерживать некоторые варианты, которые лишь незначительно отличаются по внешнему виду, даже если значение на 100% одинаково для всех контекстов на одном языке, поскольку на другом языке эти два символа не могут быть на 100% одинаковыми. -в заменах.

Примеры языково-зависимых глифов

В каждой строке следующей таблицы один и тот же символ повторяется во всех шести столбцах. Однако каждый столбец помечен (значком lang атрибут) как на другом языке: китайском ( упрощенном и двух типах традиционного ), японском , корейском или вьетнамском . Браузер . должен выбрать для каждого символа глиф (из шрифта), подходящий для указанного языка (Помимо реальных вариаций символов — обратите внимание на различия в порядке, количестве или направлении штрихов — гарнитуры могут также отражать разные типографские стили, как в случае с алфавитами с засечками и без засечек.) Это работает только для выбора резервного глифа, если у вас установлены шрифты CJK. в вашей системе, и шрифт, выбранный для отображения этой статьи, не содержит глифов для этих символов.

Кодовая точка	китайский (упрощенный)	китайский (традиционный)	китайский (традиционный, Гонконг)	японский	корейский	вьетнамский	Английский
Кодовая точка	`zh-Hans`	`zh-Hant`	`zh-Hant-HK`	`ja`	`ko`	`vi-Hani`	Английский
U+ 4ECA	сейчас	сейчас	сейчас	сейчас	сейчас	сейчас	сейчас
U + 4EE4	делать	делать	делать	делать	делать	делать	причина/команда
U + 514D	отказался	отказался	отказался	отказался	отказался	отказался	освобожденный/запасной
U+5165	входить	входить	входить	входить	входить	входить	входить
U + 5168	Полный	Полный	Полный	Полный	Полный	Полный	все/всего
U+5173	закрывать	закрывать	закрывать	закрывать	закрывать	закрывать	близко (упрощенно) / смеяться (традиционно)
U+5177	Инструмент	Инструмент	Инструмент	Инструмент	Инструмент	Инструмент	инструмент
U + 5203	лезвие	лезвие	лезвие	лезвие	лезвие	лезвие	край ножа
U + 5316	изменять	изменять	изменять	изменять	изменять	изменять	трансформировать/изменить
U + 5916	снаружи	снаружи	снаружи	снаружи	снаружи	снаружи	снаружи
U + 60C5	Привязанность	Привязанность	Привязанность	Привязанность	Привязанность	Привязанность	чувство
U+624D	талант	талант	талант	талант	талант	талант	талант
U + 62B5	приезжать	приезжать	приезжать	приезжать	приезжать	приезжать	прибыть/сопротивляться
U + 6B21	Второсортный	Второсортный	Второсортный	Второсортный	Второсортный	Второсортный	второстепенный/следующий
U + 6D77	море	море	море	море	море	море	море
U + 753B	рисование	рисование	рисование	рисование	рисование	рисование	картина
U + 76F4	прямой	прямой	прямой	прямой	прямой	прямой	прямой/прямой
U + 771F	настоящий	настоящий	настоящий	настоящий	Шин	настоящий	истинный
U + 793а	Показывать	Показывать	Показывать	Показывать	Показывать	Показывать	показывать
U+795E	бог	бог	бог	бог	бог	бог	бог
U + 7A7A	нулевой	нулевой	нулевой	нулевой	нулевой	нулевой	пустой/воздушный
U+8005	ВОЗ	ВОЗ	ВОЗ	ВОЗ	ВОЗ	ВОЗ	тот, кто делает/-есть/-есть
U + 8349	Трава	Трава	Трава	Трава	Трава	Трава	трава
U+8525	лук	лук	лук	лук	лук	лук	лук
U + 89D2	рог	рог	рог	рог	рог	рог	край/рог
U + 9053	дорога	дорога	дорога	дорога	дорога	дорога	путь/тропа/дорога
U + 96C7	нанимать	нанимать	нанимать	нанимать	нанимать	нанимать	нанимать
U + 9AA8	кость	кость	кость	кость	кость	кость	кость

Ни один вариант символов, который является эксклюзивным для корейского или вьетнамского языка, не получил своего собственного кодового знака, тогда как почти все японские варианты Синдзитай или варианты упрощенного китайского языка имеют отдельные кодовые точки и однозначные ссылочные глифы в стандарте Unicode.

В двадцатом веке страны Восточной Азии разработали свои собственные стандарты кодирования. В каждом стандарте сосуществовали варианты с разными кодовыми точками, отсюда и разные кодовые точки в Unicode для определенных наборов вариантов. Если взять в качестве примера упрощенный китайский язык, то два варианта символов 內 (U+5167) и 内 (U+5185) отличаются точно так же, как корейский и некорейский варианты 全 (U+5168). Каждый соответствующий вариант первого символа имеет либо 入 (U+5165), либо 人 (U+4EBA). Каждый соответствующий вариант второго символа имеет либо 入 (U+5165), либо 人 (U+4EBA). Оба варианта первого символа получили свои отдельные кодовые точки. Однако два варианта второго символа должны были иметь один и тот же код.

Обоснование Unicode заключается в том, что национальный орган по стандартизации КНР установил отдельные кодовые точки для двух вариантов первого символа 內 / 内 , тогда как Корея никогда не создавала отдельные кодовые точки для разных вариантов 全 . Для этого есть причина, не имеющая ничего общего с тем, как домашние воспринимают самих персонажей. В двадцатом веке Китай пережил процесс, который изменил (если не упростил) несколько персонажей. Во время этого перехода возникла необходимость иметь возможность кодировать оба варианта в одном документе. Корейский всегда использовал вариант 全 с радикалом入 (U+5165) вверху. Следовательно, у него не было смысла кодировать оба варианта. В документах на корейском языке, созданных в двадцатом веке, не было особых оснований представлять обе версии в одном документе.

Почти все варианты, разработанные или стандартизированные КНР, получили отдельные кодовые точки просто благодаря удачному переходу от упрощенного китайского языка к компьютерной эпохе. Однако эта привилегия, по-видимому, применяется непоследовательно, тогда как большинство упрощений, выполненных в Японии и материковом Китае с помощью кодовых точек в национальных стандартах, включая символы, упрощенные по-разному в каждой стране, действительно вошли в Unicode как отдельные кодовые точки.

Шестьдесят два «упрощенных» символа Синдзитай с различными кодовыми точками в Японии были объединены со своими традиционными эквивалентами Кюдзитай, такими как 海 . ^{[ нужна ссылка ]} Это может вызвать проблемы со стратегией языковых тегов. Для традиционных и «упрощенных» версий японского языка не существует универсального тега, как для китайского. Таким образом, любому японскому писателю, желающему отобразить форму Кюдзитай 海 , возможно, придется пометить символ как «Традиционный китайский» или поверить, что японский шрифт получателя использует только глифы Кюдзитай, но для отображения могут потребоваться теги традиционного китайского и упрощенного китайского языка. две формы рядом в японском учебнике. Однако это не позволит использовать один и тот же шрифт для всего документа. В Юникоде есть две отдельные кодовые точки для 海 , но только по «причинам совместимости». Любой шрифт, совместимый с Unicode, должен отображать эквивалентные кодовые точки версий Kyūjitai и Shinjitai в Unicode одинаково. Неофициально шрифт может отображаться 海 по-разному: 海 (U+6D77) как версия Синдзитай и 海 (U+FA45) как версия Кюдзитай (которая идентична традиционной версии в письменном китайском и корейском языках).

Радикал 糸 (U+7CF8) используется в таких символах, как 紅 / 红 , в двух вариантах, причем вторая форма представляет собой просто курсив. Радикальные компоненты 紅 (U+7D05) и 红 (U+7EA2) семантически идентичны, а глифы различаются только в последнем, используя курсивную версию компонента 糸 . Однако в материковом Китае органы по стандартизации хотели стандартизировать форму скорописи при использовании в таких символах, как 红 . Поскольку это изменение произошло относительно недавно, наступил переходный период. И 紅 (U+7D05), и 红 (U+7EA2) получили отдельные кодовые точки в органах стандартов кодирования текста КНР, поэтому в документах на китайском языке можно использовать обе версии. Эти два варианта также получили разные кодовые точки в Юникоде.

Случай с радикалом 艸 (U+8278) доказывает, насколько произвольно положение дел. При составлении таких символов, как 草 (U+8349), радикал располагался вверху, но имел две разные формы. Традиционные китайцы и корейцы используют четырехтактную версию. Вверху 草 должно быть что-то похожее на два знака плюс ( ⺿ ). Упрощенный китайский, японский кюдзитай и японский синдзитай используют трехстрочную версию, например, два знака плюс, разделяющие горизонтальные штрихи ( ⺾ , т. е. 草 ). Органы кодирования текста КНР не кодировали эти два варианта по-разному. Тот факт, что почти каждое другое изменение, внесенное КНР, независимо от того, насколько оно незначительное, действительно требовало своего собственного кода, позволяет предположить, что это исключение могло быть непреднамеренным. Unicode скопировал существующие стандарты как есть, сохранив такие нарушения.

Консорциум Unicode признавал ошибки и в других случаях. Множество блоков Юникода для идеографов CJK Han имеют избыточность в исходных стандартах, избыточность, вызванную ошибочным импортом исходных стандартов, а также случайные слияния, которые позже исправляются, создавая прецедент для разъединяющих символов.

Для носителей языка варианты могут быть непонятными или неприемлемыми в образованном контексте. Носители английского языка могут понять рукописную заметку с надписью «4P5 кг» как «495 кг», но написание девяти задом наперед (так что это выглядит как буква «P») может вызвать раздражение и будет считаться неправильным в любой школе. Аналогично, для пользователей одного языка CJK, читающих документ с «иностранными» глифами: варианты 骨 могут отображаться как зеркальные изображения, 者 может отсутствовать штрих/иметь посторонний штрих, а 令 может быть нечитаемым для людей, не являющихся японцами. (В Японии приняты оба варианта).

Примеры некоторых неунифицированных ханьских иероглифов

В некоторых случаях, когда изменения наиболее заметны, в Unicode закодированы варианты символов, что делает ненужным переключение между шрифтами или lang атрибуты. Однако некоторые варианты с, возможно, минимальными различиями получают отдельные кодовые точки, и не каждый вариант с, возможно, существенными изменениями получает уникальный код. В качестве примера возьмем такой символ, как 入 (U+5165), для которого единственный способ отобразить варианты — это изменить шрифт (или lang атрибут), как описано в предыдущей таблице. С другой стороны, для 內 (U+5167) вариант 内 (U+5185) получает уникальный код. Для некоторых символов, например 兌 / 兑 (U+514C/U+5151), для отображения разных глифов можно использовать любой метод. В следующей таблице в каждой строке сравниваются варианты, которым присвоены разные кодовые точки. Для краткости отметим, что варианты синдзитай с разными компонентами обычно (и это неудивительно) имеют уникальные коды (например, 氣/気 ). Здесь не появятся ни они, ни упрощенные китайские иероглифы, состоящие из последовательно упрощенных радикальных компонентов (например, 紅 / 红 , 語 / 语 ). ^[3] Этот список не является исчерпывающим.

Упрощенный	Традиционный	японский	Другой вариант	Английский
U + 4E22 оставлять	U + 4E1F оставлять			потерять
U + 4E24 два	U + 5169 два	U + 4E21 оба	U + 34B3 㒳	два, оба
U + 4E58 брать	U + 4E58 брать	U + 4E57 Квадрат	U + 6909 Камбоджа	кататься
U + 4EA7 Производить	U+7522 Производить	U+7523 производство		рожать
U + 4FA3 компаньон	U + 4FB6 компаньон			компаньон
U+5151 выкупать	U + 514C выкупать			обналичить
U + 5185 Внутри	U+5167 Внутри			внутри
U + 522B Не	U+5225 другой			уйти
U+7985 Дзен	U + 79AA Дзен	U+7985 Дзен		медитация (дзен)
U + 7A0E налог	U + 7A05 Налог			налоги
U + 997F Голодный	U + 9913 Голодный			голодный
U + 9AD8 высокий	U + 9AD8 высокий		U + 9AD9 Така	высокий
U + 9F9F черепаха	U + 9F9C черепаха	U + 4E80 черепаха		черепаха
U+7814 исследовать	U + 784F 珏	U+7814 исследовать		исследовать
Источники : Китайско-английский словарь MDBG.

База данных идеографических вариаций (IVD)

Чтобы решить проблемы, вызванные унификацией Хань, был создан технический стандарт Unicode, известный как База данных идеографических вариаций Unicode, чтобы решить проблему указания конкретного глифа в среде обычного текста. ^[19] Зарегистрировав коллекции глифов в базе данных идеографических вариантов (IVD), можно использовать селекторы идеографических вариантов для формирования последовательности идеографических вариантов (IVS) для указания или ограничения соответствующего глифа при обработке текста в среде Unicode.

Диапазоны Юникода

Идеографические символы, присвоенные Unicode, появляются в следующих блоках:

Унифицированные иероглифы CJK (4E00–9FFF) (также известные как URO, аббревиатура от Unified Repertoire and Ordering) ^[20]
Расширение A унифицированных иероглифов CJK (3400–4DBF)
Расширение B унифицированных иероглифов CJK (20000–2A6DF)
Расширение C унифицированных идеографов CJK (2A700–2B73F)
Расширение D унифицированных иероглифов CJK (2B740–2B81F)
Расширение E унифицированных иероглифов CJK (2B820–2CEAF)
Расширение F унифицированных иероглифов CJK (2CEB0–2EBEF)
Расширение унифицированных иероглифов CJK G (30000–3134F)
Расширение унифицированных идеографов CJK H (31350–323AF)
Расширение I унифицированных иероглифов CJK (2EBF0–2EE5F)
Идеограммы совместимости CJK (F900 – FAFF) (двенадцать символов FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 и FA29 на самом деле являются «унифицированными иероглифами», а не «идеограммами совместимости»)

Unicode включает поддержку радикалов CJKV, штрихов, знаков препинания, знаков и символов в следующих блоках:

Добавка радикалов CJK (2E80–2EFF)
CJK Удары (31C0–31EF)
Символы и пунктуация CJK (3000–303F)
Символы идеографического описания (2FF0–2FFF)

В этих блоках появляются дополнительные символы совместимости (не рекомендуется использовать):

Совместимость с CJK (3300–33FF)
Формы совместимости CJK (FE30–FE4F)
Идеограммы совместимости CJK (F900–FAFF)
Дополнение к иероглифам совместимости CJK (2F800–2FA1F)
Прилагаемые письма и месяцы CJK (3200–32FF)
Закрытое идеографическое приложение (1F200–1F2FF)
Радикалы Канси (2F00–2FDF)

Эти символы совместимости (исключая двенадцать унифицированных иероглифов в блоке «Идеографы совместимости CJK») включены для совместимости с устаревшими системами обработки текста и другими устаревшими наборами символов. Они включают в себя формы символов для вертикального расположения текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами.

Ядро международных идеограмм

Ядро международных идеографов (IICore) — это подмножество 9810 иероглифов, полученное из таблиц унифицированных идеографов CJK, предназначенное для реализации в устройствах с ограниченной памятью, возможностями ввода/вывода и/или в приложениях, где используется полный набор идеографов ISO 10646. не осуществимо. В текущем стандарте 9810 символов. ^[21]

Файлы базы данных Unihan

Проект Unihan всегда старался сделать доступной свою базу данных сборок. ^[2]

Проект libUnihan предоставляет нормализованную базу данных SQLite Unihan и соответствующую библиотеку C. ^[22] Все таблицы в этой базе данных находятся в пятой нормальной форме . libUnihan выпускается под лицензией LGPL , а его база данных UnihanDb — под лицензией MIT .

См. также

GB 18030 – официальная кодировка китайских символов.
Китаизация - ассимиляция ханьской китайской культурой.
Z-вариант – глифы с незначительными типографскими отличиями.
Список шрифтов CJK

Примечания

^ Unihan также может обратиться к базе данных Unihan, поддерживаемой Консорциумом Unicode , которая предоставляет информацию обо всех унифицированных символах хань, закодированных в стандарте Unicode, включая сопоставления с различными национальными и отраслевыми стандартами, индексы в стандартных словарях, закодированные варианты, произношение в различные языки и английское определение. База данных доступна общественности в виде текстовых файлов. ^[2] и через интерактивный веб-сайт. ^[3]^[4] Последний также включает репрезентативные глифы и определения составных слов, взятые из бесплатных проектов словарей японского EDICT и китайского CEDICT (которые предоставлены для удобства и не являются формальной частью стандарта Unicode).
^ Однако большинство из них являются устаревшими символами, поскольку цель Unicode - кодировать каждую систему письма, которая использовалась или когда-либо использовалась; Чтобы считаться грамотным, необходимо набрать от 2000 до 3000 символов.

Ссылки

^ «Стандартное приложение Unicode® № 38 | БАЗА ДАННЫХ UNICODE HAN (UNIHAN)» . Консорциум Юникод . 01.09.2023.
^ Jump up to: ^а ^б "Унихан.zip" . Стандарт Юникод . Консорциум Юникод.
^ Jump up to: ^а ^б «Поиск в базе данных Unihan» . Стандарт Юникод . Консорциум Юникод.
^ «Поиск в базе данных Unihan: пример поиска для 中» . Стандарт Юникод . Консорциум Юникод.
^ «Глава 18: Восточная Азия, принципы объединения Хань» (PDF) . Стандарт Юникод . Консорциум Юникод.
^ Уистлер, Кен (25 октября 2010 г.). «Техническое примечание Unicode 26: О кодировке латиницы, греческого, кириллицы и хань» .
^ «Тайная жизнь Юникода» . ИБМ . 16 декабря 2013 г. Архивировано из оригинала 16 декабря 2013 г. Проверено 30 сентября 2023 г.
^ Возвращение к Unicode Стивену Дж. Сирлу; Веб-мастер, TRON Web
^ «Что такое IVD/IVS? Проект развития текстовой информационной инфраструктуры . mojikiban.ipa.go.jp »
^ Jump up to: ^а ^б «Глава 1: Введение» (PDF) . Стандарт Юникод . Консорциум Юникод.
^ Jump up to: ^а ^б «База данных идеографических вариаций» . Консорциум Юникод.
^ «Ранние годы Unicode» . Консорциум Юникод.
^ Беккер, Джозеф Д. (29 августа 1998 г.). «Юникод 88» (PDF) .
^ «Юникод в Японии: Руководство по технической и психологической борьбе» . Архивировано из оригинала 27 июня 2009 г. {{cite web}}: CS1 maint: неподходящий URL ( ссылка )
^ Нориаки Кобаяши «Плоды Matsushita Electric», Глава 1.
^ Крикке, Январь (15 октября 2003 г.). «Самая популярная операционная система в мире» . LinuxInsider.com .
^ Эйдзи Осита «Сон Масаеши: Молодой лев предпринимательства» ( ISBN 4-06-208718-9 ）стр. 285-294
^ Jump up to: ^а ^б «UAX № 38: База данных Unicode Han (Unihan)» . www.unicode.org .
^ «UTS № 37: База данных идеографических вариантов Юникода» . www.unicode.org .
^ «УРО» . ccjktype.fonts.adobe.com .
^ «OGCIO: Область загрузки: Утилита сравнения международных идеографов (IICORE)» . www.ogcio.gov.hk .
^ Чен, Дин-И. «libUnihan — библиотека для базы данных символов Unihan в пятой нормальной форме» . libunihan.sourceforge.net .

[5] Unihan также может обратиться к базе данных Unihan, поддерживаемой Консорциумом Unicode , которая предоставляет информацию обо всех унифицированных символах хань, закодированных в стандарте Unicode, включая сопоставления с различными национальными и отраслевыми стандартами, индексы в стандартных словарях, закодированные варианты, произношение в различные языки и английское определение. База данных доступна общественности в виде текстовых файлов. ^[2] и через интерактивный веб-сайт. ^[3]^[4] Последний также включает репрезентативные глифы и определения составных слов, взятые из бесплатных проектов словарей японского EDICT и китайского CEDICT (которые предоставлены для удобства и не являются формальной частью стандарта Unicode).

[8] Однако большинство из них являются устаревшими символами, поскольку цель Unicode - кодировать каждую систему письма, которая использовалась или когда-либо использовалась; Чтобы считаться грамотным, необходимо набрать от 2000 до 3000 символов.

[1] «Стандартное приложение Unicode® № 38 | БАЗА ДАННЫХ UNICODE HAN (UNIHAN)» . Консорциум Юникод . 01.09.2023.

[UnihanZip-2] Jump up to: ^а ^б "Унихан.zip" . Стандарт Юникод . Консорциум Юникод.

[UnihanLookup-3] Jump up to: ^а ^б «Поиск в базе данных Unihan» . Стандарт Юникод . Консорциум Юникод.

[4] «Поиск в базе данных Unihan: пример поиска для 中» . Стандарт Юникод . Консорциум Юникод.

[6] «Глава 18: Восточная Азия, принципы объединения Хань» (PDF) . Стандарт Юникод . Консорциум Юникод.

[7] Уистлер, Кен (25 октября 2010 г.). «Техническое примечание Unicode 26: О кодировке латиницы, греческого, кириллицы и хань» .

[9] «Тайная жизнь Юникода» . ИБМ . 16 декабря 2013 г. Архивировано из оригинала 16 декабря 2013 г. Проверено 30 сентября 2023 г.

[10] Возвращение к Unicode Стивену Дж. Сирлу; Веб-мастер, TRON Web

[11] «Что такое IVD/IVS? Проект развития текстовой информационной инфраструктуры . mojikiban.ipa.go.jp »

[tusch01-12] Jump up to: ^а ^б «Глава 1: Введение» (PDF) . Стандарт Юникод . Консорциум Юникод.

[UnicodeVariationSelectors-13] Jump up to: ^а ^б «База данных идеографических вариаций» . Консорциум Юникод.

[14] «Ранние годы Unicode» . Консорциум Юникод.

[15] Беккер, Джозеф Д. (29 августа 1998 г.). «Юникод 88» (PDF) .

[16] «Юникод в Японии: Руководство по технической и психологической борьбе» . Архивировано из оригинала 27 июня 2009 г. {{cite web}}: CS1 maint: неподходящий URL ( ссылка )

[17] Нориаки Кобаяши «Плоды Matsushita Electric», Глава 1.

[18] Крикке, Январь (15 октября 2003 г.). «Самая популярная операционная система в мире» . LinuxInsider.com .

[19] Эйдзи Осита «Сон Масаеши: Молодой лев предпринимательства» ( ISBN 4-06-208718-9 ）стр. 285-294

[uax38-20] Jump up to: ^а ^б «UAX № 38: База данных Unicode Han (Unihan)» . www.unicode.org .

[21] «UTS № 37: База данных идеографических вариантов Юникода» . www.unicode.org .

[22] «УРО» . ccjktype.fonts.adobe.com .

[23] «OGCIO: Область загрузки: Утилита сравнения международных идеографов (IICORE)» . www.ogcio.gov.hk .

[24] Чен, Дин-И. «libUnihan — библиотека для базы данных символов Unihan в пятой нормальной форме» . libunihan.sourceforge.net .

[cnote_a_grp_version] 
As of version 15.1

[1]

[а]

[5]

[6]

[б]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[3]

[19]

[20]

[21]

[2]

[22]

[4]

[а]

v т и Кодировки символов
Early telecommunications	Telegraph code Needle Morse Non-Latin Wabun/Kana Chinese Cyrillic Korean Baudot and Murray Fieldata ASCII ISO/IEC 646 BCDIC Teletex and Videotex/Teletext T.51/ISO/IEC 6937 ITU T.61 ITU T.101 World System Teletext background sets Transcode
ISO/IEC 8859	Approved parts -1 (Western Europe) -2 (Central Europe) -3 (Maltese/Esperanto) -4 (North Europe) -5 (Cyrillic) -6 (Arabic) -7 (Greek) -8 (Hebrew) -9 (Turkish) -10 (Nordic) -11 (Thai) -13 (Baltic) -14 (Celtic) -15 (New Western Europe) -16 (Romanian) Abandoned parts -12 (Devanagari) Proposed but not approved KOI-8 Cyrillic Sámi Adaptations Welsh Barents Cyrillic Estonian Ukrainian Cyrillic
Bibliographic use	MARC-8 ANSEL CCCII/EACC ISO 5426 5426-2 5427 5428 6438 6862
National standards	ArmSCII Big5 BraSCII CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 PASCII Shift JIS SI 960 TIS-620 TSCII VISCII VSCII YUSCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 Extended Unix Code / EUC
Mac OS Code pages ("scripts")	Armenian Arabic Barents Cyrillic Celtic Central European Croatian Cyrillic Devanagari Farsi (Persian) Font X (Kermit) Gaelic Georgian Greek Gujarati Gurmukhi Hebrew Iceland Inuit Keyboard Latin (Kermit) Maltese/Esperanto Ogham Roman Romanian Sámi Turkish Turkic Cyrillic Ukrainian VT100
DOS code pages	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1034 1040 1042 1043 1044 1098 1115 1116 1117 1118 1127 3846 ABICOMP CS Indic CSX Indic CSX+ Indic CWI-2 Iran System Kamenický Mazovia MIK
IBM AIX code pages	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1124 1133
Windows code pages	CER-GS 932 936 (GBK) 950 1169 Extended Latin-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 Cyrillic + Finnish Cyrillic + French Cyrillic + German Polytonic Greek
EBCDIC code pages	Japanese language in EBCDIC DKOI
DEC terminals (VTx)	Multinational (MCS) National Replacement (NRCS) French Canadian Swiss Spanish United Kingdom Dutch Finnish French Norwegian and Danish Swedish Norwegian and Danish (alternative) 8-bit Greek 8-bit Turkish SI 960 Hebrew Special Graphics Technical (TCS)
Platform specific	1052 1053 1054 1055 1056 1057 1058 Acorn RISC OS Amstrad CPC Apple II ATASCII Atari ST BICS Casio calculators CDC Compucolor 8001 Compucolor II CP/M+ DEC RADIX 50 DEC MCS/NRCS DG International Galaksija GEM GSM 03.38 HP Roman HP FOCAL HP RPL SQUOZE LICS LMBCS MSX NEC APC NeXT PETSCII PostScript Standard PostScript Latin 1 SAM Coupé Sega SC-3000 Sharp calculators Sharp MZ Sinclair QL Teletext TI calculators TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX Spectrum
Unicode / ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 DIN 91379 BOCU-1 CESU-8 SCSU TACE16 Comparison of Unicode encodings
TeX typesetting system	Cork LY1 OML OMS OT1
Miscellaneous code pages	ABICOMP ASMO 449 Digital encoding of APL symbols ISO-IR-68 ARIB STD-B24 Fieldata HZ IEC-P27-1 INIS 7-bit 8-bit ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U Mojikyō SEASCII Stanford/ITS Symbol TRON Unified Hangul Code
Control character	Morse prosigns C0 and C1 control codes ISO/IEC 6429 JIS X 0211 Unicode control, format and separator characters Whitespace characters
Related topics	CCSID Character encodings in HTML Charset detection Han unification Hardware code page MICR code Mojibake Variable-length encoding
Character sets