Jump to content

Ханьское объединение

(Перенаправлено из базы данных Unihan )
Различия для одного и того же кода Юникода (U+8FD4) в региональных версиях Source Han Sans

Унификация хань — это попытка авторов Юникода и универсального набора символов сопоставить несколько наборов символов так хань называемых языков CJK в единый набор унифицированных символов . Ханьские символы — это общая черта письменности китайского ( ханзи ), японского ( кандзи ), корейского ( ханджа ) и вьетнамского языков ( чо ​​хан ).

В современных китайских, японских и корейских шрифтах обычно используются региональные или исторические варианты данного ханьского символа . При разработке Юникода была предпринята попытка объединить эти варианты, рассматривая их как аллографы — разные глифы, представляющие одну и ту же «графему» или орфографическую единицу — отсюда и «унификация Хань», в результате чего репертуар символов иногда сокращается до Унихана . [1] [а]

Тем не менее, многие символы имеют региональные варианты, присвоенные разным кодовым точкам , например традиционный (U+500B) и упрощенный (U+4E2A).

Обоснование и противоречия

[ редактировать ]

Стандарт Unicode подробно описывает принципы объединения Хань. [5] [6] За этот процесс отвечает Группа идеографических исследований (IRG), состоящая из экспертов из китайскоязычных стран, Северной и Южной Кореи, Японии, Вьетнама и других стран.

Одним из объяснений было желание ограничить размер полного набора символов Юникода, где символы CJK, представленные дискретными идеограммами, могут приближаться к 100 000 или превышать их. [б] персонажи. Версия 1 Unicode была разработана с учетом 16 бит, и только 20 940 символов (32%) из возможных 65 536 были зарезервированы для этих унифицированных иероглифов CJK . Позже Unicode был расширен до 21 бита, что позволило использовать гораздо больше символов CJK (назначено 97 680, и есть место для большего количества).

Статья, размещенная IBM, пытается проиллюстрировать часть мотивации объединения Хань: [7]

Проблема связана с тем, что Unicode кодирует символы, а не «глифы», которые являются визуальным представлением символов. Существует четыре основные традиции восточноазиатских форм иероглифов: традиционный китайский, упрощенный китайский, японский и корейский. Хотя корневой символ хань может быть одинаковым для языков CJK, общеупотребительные глифы для одних и тех же символов могут быть разными.Например, традиционный китайский иероглиф «трава» использует четыре штриха для радикала «трава» [ ⺿ ], тогда как упрощенные китайские, японские и корейские глифы [ ] используют три. Но для символа травы есть только одна точка Unicode (U + 8349) [ ], независимо от системы письма. Другой пример — иероглиф «один», который различается в китайском, японском и корейском языках. Многие думают, что эти три версии должны быть закодированы по-разному.

Фактически, три идеограммы «одного» ( , или ) кодируются в Юникоде отдельно, поскольку они не считаются национальными вариантами. Первая форма является общей во всех трех странах, а вторая и третья используются в финансовых инструментах для предотвращения фальсификации (их можно рассматривать как варианты).

Однако объединение Хань также вызвало серьезные споры, особенно среди японской общественности, которая, как и литераторы страны, имеет историю протеста против исключения исторически и культурно значимых вариантов. [8] [9] (См. Кандзи § Орфографическая реформа и списки кандзи . Сегодня список символов, официально признанных для использования в именах собственных, продолжает расширяться скромными темпами.)

В 1993 году Японская ассоциация развития электронной промышленности (JEIDA) опубликовала брошюру под названием « Мы с нетерпением ждем будущей системы кодирования символов». JPNO   20985671 ), обобщающий основную критику подхода Ханьской унификации, принятого в Unicode.

Графемы против глифов

[ редактировать ]
Латинская строчная буква « а » имеет совершенно разные глифы, которые представляют собой конкретные экземпляры одной и той же абстрактной графемы. Хотя носитель языка, использующего латиницу, воспринимает эти два глифа как одну и ту же графему, другим они могут показаться совершенно несвязанными.

Графема — это наименьшая абстрактная единица значения в системе письма. Любая графема имеет множество возможных выражений глифов, но все они признаются одной и той же графемой теми, кто умеет читать и писать в определенной системе письма. Хотя Unicode обычно присваивает символы кодовым точкам для выражения графем в системе письма, стандарт Unicode ( раздел 3.4 D7 ) предупреждает:

Абстрактный символ не обязательно соответствует тому, что пользователь считает «символом», и его не следует путать с графемой .

Однако эта цитата относится к тому факту, что некоторые графемы состоят из нескольких графических элементов или «символов». Так, например, персонаж U+0061 ЛАТИНСКАЯ СТРОЧНАЯ БУКВА A в сочетании с U + 030A ◌̊ КОМБИНИРОВАННОЕ КОЛЬЦО ВЫШЕ (генерирующее комбинацию «å») может быть понято пользователем как одна графема, состоящая из нескольких абстрактных символов Юникода. Кроме того, Unicode также присваивает некоторые кодовые точки небольшому количеству (за исключением соображений совместимости) символов форматирования, символов пробелов и других абстрактных символов, которые не являются графемами, но вместо этого используются для управления разрывами между строками, словами, графемами и графемные кластеры. Благодаря унифицированным иероглифам Хань стандарт Юникода отходит от прежней практики присвоения абстрактных символов не как графем, а в соответствии с основным значением графемы: то, что лингвисты иногда называют семемами . Таким образом, это отклонение объясняется не просто часто цитируемым различием между абстрактным символом и глифом, но в большей степени коренится в различии между абстрактным символом, назначенным как графема, и абстрактным символом, назначенным как семема. Напротив, рассмотрим ASCII Объединение знаков препинания и диакритических знаков , при котором графемы с совершенно разными значениями (например, апостроф и одинарная кавычка) объединены, поскольку глифы одинаковы. Для Унихана персонажи едины не по внешнему виду, а по определению или значению.

Представление графемы различными глифами означает, что графема имеет варианты глифов, которые обычно определяются путем выбора того или иного шрифта или использования функций замены глифов, когда несколько глифов включены в один шрифт. Такие варианты глифов рассматриваются в Unicode как особенность протоколов форматированного текста и не учитываются должным образом в целях обычного текста Unicode. Однако, когда переход от одного глифа к другому представляет собой переход от одной графемы к другой - когда глиф не может, например, по-прежнему означать ту же самую графему, понимаемую как строчную букву «а», - Unicode разделяет их на отдельные кодовые точки. Для Унихана то же самое делается всякий раз, когда меняется абстрактное значение, однако вместо того, чтобы говорить об абстрактном значении графемы (буквы «а»), унификация ханьских иероглифов присваивает новую кодовую точку каждому различному значению - даже если это Значение выражается различными графемами на разных языках. Хотя такая графема, как «ö», может означать в английском языке нечто иное (как используется в слове «координированный»), чем в немецком (как используется в слове «schön»), это по-прежнему одна и та же графема, и ее можно легко унифицированы, так что английский и немецкий языки могут использовать общую абстрактную латинскую систему письма (наряду с самой латынью). Этот пример также указывает на другую причину, по которой «абстрактный символ» и графема как абстрактная единица письменного языка не обязательно соответствуют друг другу. На английском языке сочетание диэрезиса , «¨» и изменяемой им «о» можно рассматривать как две отдельные графемы, тогда как в таких языках, как шведский, буква «ö» может рассматриваться как одна графема. Точно так же в английском языке точка на букве «i» понимается как часть графемы «i», тогда как в других языках, например, в турецком, точку можно рассматривать как отдельную графему, добавленную к лишенной точки «ı» .

Чтобы справиться с использованием разных графем для одной и той же семемы Унихана, Unicode использовал несколько механизмов: особенно в том, что касается рендеринга текста. Один из них заключался в том, чтобы рассматривать это просто как проблему со шрифтами, чтобы можно было использовать разные шрифты для отображения китайского, японского или корейского языка. Кроме того, такие форматы шрифтов, как OpenType, позволяют отображать альтернативные глифы в зависимости от языка, чтобы система рендеринга текста могла учитывать настройки среды пользователя, чтобы определить, какой глиф использовать. Проблема с этими подходами заключается в том, что они не соответствуют целям Unicode по определению последовательного способа кодирования многоязычного текста. [10]

Поэтому вместо того, чтобы рассматривать эту проблему как проблему форматированного текста с альтернативными глифами, Unicode добавил концепцию селекторов вариантов , впервые представленную в версии 3.2 и дополненную в версии 4.0. [11] Хотя селекторы вариантов рассматриваются как комбинированные символы, они не имеют связанного диакритического знака или знака. Вместо этого, объединяясь с базовым символом, они сигнализируют, что последовательность двух символов выбирает вариант (обычно с точки зрения графемы, но также и с точки зрения основного значения, как в случае названия места или другого имени собственного) базового символа. Тогда это не выбор альтернативного глифа, а выбор вариации графемы или вариации базового абстрактного символа. Однако такую ​​последовательность двух символов можно легко сопоставить с отдельным глифом в современных шрифтах. Поскольку Unicode назначил 256 отдельных селекторов вариантов, он способен назначить 256 вариантов для любого иероглифа Хань. Такие варианты могут быть специфичными для того или иного языка и позволяют кодировать простой текст, включающий такие варианты графем.

Унихан «абстрактные персонажи»

[ редактировать ]

Поскольку стандарт Unihan кодирует «абстрактные символы», а не «глифы», графические артефакты, создаваемые Unicode, считаются временными техническими препятствиями и, в лучшем случае, косметическими. Однако, опять же, особенно в Японии, отчасти из-за того, как исторически китайские иероглифы были включены в японские системы письма, невозможность указать конкретный вариант считалась серьезным препятствием для использования Unicode в научной работе. Например, объединение слова «трава» (объясненное выше) означает, что исторический текст не может быть закодирован так, чтобы сохранить его особую орфографию. Вместо этого, например, ученому придется найти нужный глиф в определенном шрифте, чтобы передать текст в том виде, в каком он написан, что противоречит цели единого набора символов. Unicode отреагировал на эти потребности, назначив селекторы вариантов, чтобы авторы могли выбирать варианты графем определенных иероглифов (или даже других символов). [11]

Небольшие различия в графическом представлении также создают проблемы, когда они влияют на разборчивость или принадлежат к неправильной культурной традиции. Помимо того, что некоторые шрифты Unicode станут непригодными для использования в текстах, включающих несколько «языков Unihan», имена или другая орфографически чувствительная терминология может отображаться неправильно. (Имена собственные, как правило, особенно орфографически консервативны — сравните это с изменением написания имени в соответствии с языковой реформой в США или Великобритании.) Хотя это можно рассматривать в первую очередь как проблему графического представления или рендеринга, которую необходимо преодолеть с помощью более искусных шрифтов. , широкое использование Unicode затруднит сохранение таких различий. Проблема одного символа, обозначающего семантически разные понятия, присутствует и в латинской части Юникода. Символ Юникода для изогнутого апострофа аналогичен символу правой одинарной кавычки ('). С другой стороны, заглавная латинская буква А не унифицирована с греческой буквой А или с Кириллическая А. буква Это, конечно, желательно из соображений совместимости и касается гораздо меньшего набора буквенных символов.

Хотя аспект унификации Unicode вызывает споры в некоторых кругах по причинам, указанным выше, сам Unicode теперь кодирует огромное количество редко используемых символов более или менее антикварного характера.

Некоторые разногласия возникают из-за того, что само решение об объединении Хань было принято первоначальным Консорциумом Unicode, который в то время представлял собой консорциум североамериканских компаний и организаций (большинство из них в Калифорнии). [12] но в него не вошли представители правительств Восточной Азии. Первоначальной целью разработки было создание 16-битного стандарта. [13] Таким образом, объединение Хань было решающим шагом во избежание десятков тысяч дублирования символов. Позднее от этого 16-битного требования отказались, благодаря чему размер набора символов сегодня не является проблемой.

Позже спор распространился на международный стандарт ISO: первоначальная Объединенная исследовательская группа CJK (CJK-JRG) поддержала предложение (DIS 10646) о неунифицированном наборе символов, «которое было отвергнуто в пользу унификации с унифицированным набором символов Консорциума Unicode». характер, установленный голосами американских и европейских членов ИСО» (хотя позиция Японии была неясна). [14] Одобрение объединения Unicode Han было необходимым шагом для бурного слияния ISO 10646 и Unicode.

Большая часть споров вокруг объединения Хань основана на различии между глифами , как они определены в Юникоде, и связанной с ними, но отличной идеей графем. Юникод назначает абстрактные символы (графемы) в отличие от глифов, которые представляют собой определенные визуальные представления символа в определенной гарнитуре . Один символ может быть представлен множеством различных глифов, например «g» или «a», оба из которых могут иметь одну петлю ( ɑ , ɡ ) или две ( a , g ). Тем не менее, для читателя языков, основанных на латинице, оба варианта символа «а» воспринимаются как одна и та же графема. Графемы, присутствующие в национальных стандартах кодировки символов, были добавлены в Unicode, как того требует правило разделения исходных кодов Unicode, даже если они могут состоять из уже доступных символов. Национальные стандарты кодирования символов, существующие в языках CJK, значительно более сложны, учитывая технологические ограничения, в условиях которых они развивались, и поэтому официальные участники CJK в объединении Хань вполне могли поддаться реформированию.

В отличие от европейских версий, шрифты CJK Unicode из-за унификации Хань имеют большие, но нерегулярные узоры перекрытия, что требует использования шрифтов, специфичных для языка. К сожалению, шрифты, специфичные для языка, также затрудняют доступ к варианту, который, как и в случае с «травой», чаще встречается в другом языковом стиле. (То есть было бы трудно получить доступ к «траве» с помощью четырехстрочного радикала, более типичного для традиционного китайского языка в японской среде, где шрифты обычно изображают трехстрочный радикал.) Сторонники унихана склонны отдавать предпочтение языкам разметки. для определения языковых строк, но это не гарантирует использование определенного варианта в данном случае, а только шрифт, специфичный для языка, с большей вероятностью будет отображать символ как этот вариант. (На этом этапе имеют место лишь стилистические различия, поскольку некоторые японские и китайские шрифты вряд ли будут визуально совместимы.)

Китайские пользователи, похоже, имеют меньше возражений против объединения ханьских символов, главным образом потому, что Unicode не пытался объединить иероглифы упрощенного китайского языка с иероглифами традиционного китайского языка . (Упрощенные китайские иероглифы используются носителями китайского языка в Китайской Народной Республике , Сингапуре и Малайзии . Традиционные китайские иероглифы используются в Гонконге и Тайване ( большая пятерка ), и они, с некоторыми отличиями, более знакомы корейским и японским пользователям. ) Юникод считается нейтральным по отношению к этому политически окрашенному вопросу и кодирует глифы упрощенного и традиционного китайского языка отдельно (например, иероглиф «выбросить» — U+4E1F для традиционного китайского Big5 #A5E1 и U+4E22 для упрощенного китайского языка). ГБ № 2210). Также отмечается, что традиционные и упрощенные символы должны кодироваться отдельно в соответствии с правилами Unicode Han Unification, поскольку они различаются в уже существующих наборах символов PRC. Более того, как и в других вариантах, символы от традиционного к упрощенному не являются однозначными.

Альтернативы

[ редактировать ]

Существует несколько альтернативных наборов символов, которые не кодируются по принципу Ханьской унификации и, следовательно, свободны от его ограничений:

Эти зависящие от региона наборы символов также считаются не затронутыми Ханьским объединением из-за их специфичной для региона природы:

  • ISO/IEC 2022 (на основе кодов последовательности для переключения между наборами символов китайского, японского и корейского языков, следовательно, без унификации)
  • Расширения Big5
  • GCCS и его преемник HKSCS

Однако ни один из этих альтернативных стандартов не получил такого широкого распространения, как Unicode , который в настоящее время является базовым набором символов для многих новых стандартов и протоколов, принятых на международном уровне и встроен в архитектуру операционных систем ( Microsoft Windows , Apple macOS и многих других). Unix-подобные системы), языки программирования ( Perl , Python , C# , Java , Common Lisp , APL , C , C++ ) и библиотеки (IBM International Components for Unicode (ICU), а также Pango , Graphite , Scribe , Uniscribe и Механизмы рендеринга ATSUI ), форматы шрифтов ( TrueType и OpenType ) и так далее.

В марте 1989 года система на основе (B)TRON была принята японской правительственной организацией «Центр образовательных вычислений» в качестве системы выбора для школьного образования, включая обязательное образование . [15] Однако в апреле в отчете Управления торгового представителя США под названием «Национальный торговый оценочный отчет о барьерах внешней торговли за 1989 год» эта система конкретно была указана как торговый барьер в Японии. В отчете утверждается, что принятие японским правительством системы на основе TRON выгодно японским производителям и, таким образом, исключает операционные системы США из огромного нового рынка; в частности, в отчете в качестве примеров приводятся MS-DOS, OS/2 и UNIX. Управление USTR предположительно находилось под влиянием Microsoft, поскольку Microsoft предложила его бывшему сотруднику Тому Робертсону прибыльную должность. [16] Хотя сама система TRON была впоследствии исключена из списка санкций разделом 301 Закона о торговле 1974 года после протестов организации в мае 1989 года, торговый спор заставил Министерство международной торговли и промышленности принять запрос Масаеси Сона на отменить выбор Центром образовательных вычислений системы на базе TRON для использования учебных компьютеров. [17] Этот инцидент считается символическим событием потери импульса и возможного упадка системы BTRON, что привело к широкому распространению MS-DOS в Японии и возможному принятию Unicode с его преемницей Windows.

Объединение всех эквивалентных символов

[ редактировать ]

Не было никакого стремления к полной семантической унификации всех семантически связанных символов, хотя эта идея будет относиться к соответствующим пользователям восточноазиатских языков одинаково, независимо от того, пишут ли они на корейском, упрощенном китайском, традиционном китайском, японском кюдзитай , японском синдзитае или вьетнамском языке. . Вместо того, чтобы некоторые варианты получали отдельные кодовые точки, в то время как другие группы вариантов должны иметь общие кодовые точки, все варианты могут быть надежно выражены только с помощью тегов метаданных (например, форматирование CSS на веб-страницах). Бремя ляжет на всех тех, кто использует разные версии , , , , независимо от того, вызвана ли эта разница упрощением, международными различиями или внутринациональными различиями. Однако на некоторых платформах (например, смартфонах) устройство может поставляться с предустановленным только одним шрифтом. Системный шрифт должен выбрать глиф по умолчанию для каждой кодовой точки, и эти глифы могут сильно различаться, указывая на разные основные графемы.

Следовательно, использование повсеместной языковой разметки сталкивается с двумя основными проблемами. Во-первых, существуют контексты, в которых языковая разметка недоступна (фиксация кода, простой текст). Во-вторых, любое решение потребует, чтобы в каждой операционной системе было предустановлено множество глифов для семантически идентичных символов, имеющих множество вариантов. Помимо стандартных наборов символов упрощенного китайского, традиционного китайского, корейского, вьетнамского, японского языка Кюдзитай и японского языка Синдзитай, существуют также «древние» формы символов, представляющие интерес для историков, лингвистов и филологов.

База данных Unicode Unihan уже установила связи между многими символами. База данных Unicode уже каталогизирует связи между вариантами символов с отдельными кодовыми точками. Однако для символов с общим кодом изображение эталонного глифа обычно смещено в сторону традиционной китайской версии. Кроме того, решение о том, классифицировать ли пары как семантические варианты или z-варианты, не всегда является последовательным и ясным, несмотря на объяснения в справочнике. [18]

Так называемые семантические варианты (U+4E1F) и (U+4E22) являются примерами, которые Unicode приводит как существенно отличающиеся по своим абстрактным формам, в то время как Unicode перечисляет и как z-варианты, отличающиеся только шрифтом. стиль. Парадоксально, но Unicode считает и почти идентичными z-вариантами, в то же время классифицируя их как существенно разные семантические варианты. Встречаются также случаи, когда некоторые пары символов являются одновременно смысловыми вариантами, специализированными смысловыми вариантами и упрощенными вариантами: (U+500B) и (U+4E2A). Встречаются случаи невзаимной эквивалентности. Например, запись базы данных Unihan для (U+4E80) считает (U+9F9C) своим z-вариантом, но запись для не указывает как z-вариант, хотя 龜, очевидно, уже был в базу данных на момент записи для亀 записи .

Некоторые технические ошибки привели к дублированию полностью идентичных символов, таких как (U+FA23) и 𧺯 (U+27EAF). Если в шрифте есть глифы, закодированные для обеих точек, так что для обеих точек используется один шрифт, они должны выглядеть одинаково. Эти случаи указаны как z-варианты, несмотря на отсутствие дисперсии. были добавлены намеренно дублированные символы Для облегчения побитового двустороннего преобразования . Поскольку двустороннее преобразование было одним из первых преимуществ Unicode, это означало, что если используемый национальный стандарт без необходимости дублировал символ, Unicode должен был сделать то же самое. Unicode называет эти преднамеренные дублирования « вариантами совместимости », как и 漢 (U+FA9A), который называет (U+6F22) своим вариантом совместимости. Пока приложение использует один и тот же шрифт для обоих, они должны выглядеть одинаково. Иногда, как в случае с с U+8ECA и U+F902, добавленный символ совместимости указывает уже существующую версию как вариант совместимости и как z-вариант. Поле варианта совместимости переопределяет поле z-варианта, вызывая нормализацию во всех формах, включая каноническую эквивалентность. Несмотря на название, варианты совместимости на самом деле канонически эквивалентны и объединяются в любой схеме нормализации Unicode, а не только в нормализации совместимости. Это похоже на то, как U+212B Å ЗНАК АНГСТРОМ канонически эквивалентен заранее составленному U+00C5 Å ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A С КОЛЬЦОМ НАВЕРХУ . Большая часть программного обеспечения (например, программное обеспечение MediaWiki, на котором размещена Arc.Ask3.Ru) заменяет все канонически эквивалентные символы, которые не рекомендуются (например, символ ангстрема), на рекомендуемый эквивалент. Несмотря на название, «варианты совместимости» CJK являются канонически эквивалентными символами, а не символами совместимости.

漢 (U+FA9A) был добавлен в базу данных позже, чем (U+6F22), и его запись информирует пользователя о совместимости. С другой стороны, (U+6F22) не имеет такого эквивалента, указанного в этой записи. Юникод требует, чтобы все записи после их допуска не могли изменить совместимость или эквивалентность, чтобы правила нормализации для уже существующих символов не менялись.

Некоторые пары Традиционного и Упрощенного также считаются смысловыми вариантами. Согласно определениям Unicode, имеет смысл, что все упрощения (которые не приводят к объединению совершенно разных символов для их гомофонии) будут формой семантического варианта. Юникод классифицирует и как соответствующие традиционные и упрощенные варианты друг друга, а также как семантические варианты друг друга. Однако, хотя Unicode классифицирует (U+5104) и 亿 (U+4EBF) как соответствующие традиционные и упрощенные варианты друг друга, Unicode не считает и 亿 семантическими вариантами друг друга.

Unicode утверждает, что «в идеале в стандарте Unicode не должно быть пар z-вариантов». [18] Может показаться, что цель состоит в том, чтобы, по крайней мере, унифицировать все второстепенные варианты, избыточность совместимости и случайную избыточность, оставив дифференциацию шрифтам и языковым тегам. Это противоречит заявленной цели Unicode — устранить эти накладные расходы и позволить любому количеству любых мировых скриптов находиться в одном документе с одной системой кодирования. [ неправильный синтез? ] В первой главе руководства говорится: «С помощью Unicode индустрия информационных технологий заменила быстрорастущие наборы символов стабильностью данных, глобальной функциональной совместимостью и обменом данными, упрощенным программным обеспечением и снижением затрат на разработку. Приняв набор символов ASCII в качестве отправной точки, Стандарт Unicode выходит далеко за рамки ограниченной способности ASCII кодировать только прописные и строчные буквы от A до Z. Он обеспечивает возможность кодирования всех символов, используемых в письменных языках мира - можно закодировать более 1 миллиона символов. Без escape-последовательности. или управляющий код требуется для указания любого символа на любом языке. Кодировка символов Unicode одинаково обрабатывает алфавитные символы, идеографические символы и символы, что означает, что они могут использоваться в любой комбинации и с одинаковой легкостью». [10]

Это оставляет возможность остановиться на одной единой эталонной графеме для всех z-вариантов, что является спорным, поскольку немногие за пределами Японии признают и эквивалентными. Даже в самой Японии эти варианты находятся по разные стороны большого упрощения, называемого Синдзитай. принятое в КНР По сравнению с ним, Unicode фактически сделал бы упрощение侣 (U+4FA3) и (U+4FB6), . Такой план также устранил бы очень визуально различимые вариации таких символов, как (U+76F4) и (U+96C7).

Можно было бы ожидать, что все упрощенные символы одновременно будут z-вариантами или семантическими вариантами своих традиционных аналогов, но многие из них не являются ни тем, ни другим. Легче объяснить тот странный случай, когда семантические варианты могут быть одновременно и семантическими вариантами, и специализированными вариантами, когда определение Unicode заключается в том, что специализированные семантические варианты имеют одно и то же значение только в определенных контекстах. Языки используют их по-разному. Пара, персонажи которой на 100% заменяют друг друга на японском языке, может быть не такой гибкой на китайском. Таким образом, любое комплексное объединение рекомендуемых кодовых точек должно будет поддерживать некоторые варианты, которые лишь незначительно отличаются по внешнему виду, даже если значение на 100% одинаково для всех контекстов на одном языке, поскольку на другом языке эти два символа не могут быть на 100% одинаковыми. -в заменах.

Примеры языково-зависимых глифов

[ редактировать ]

В каждой строке следующей таблицы один и тот же символ повторяется во всех шести столбцах. Однако каждый столбец помечен (значком lang атрибут) как на другом языке: китайском ( упрощенном и двух типах традиционного ), японском , корейском или вьетнамском . Браузер . должен выбрать для каждого символа глиф (из шрифта), подходящий для указанного языка (Помимо реальных вариаций символов — обратите внимание на различия в порядке, количестве или направлении штрихов — гарнитуры могут также отражать разные типографские стили, как в случае с алфавитами с засечками и без засечек.) Это работает только для выбора резервного глифа, если у вас установлены шрифты CJK. в вашей системе, и шрифт, выбранный для отображения этой статьи, не содержит глифов для этих символов.

Кодовая точка китайский
(упрощенный)
китайский
(традиционный)
китайский
(традиционный,
Гонконг)
японский корейский вьетнамский Английский
zh-Hanszh-Hantzh-Hant-HKjakovi-Hani
U+ 4ECA сейчас сейчас сейчас сейчас сейчас сейчас сейчас
U + 4EE4 делать делать делать делать делать делать причина/команда
U + 514D отказался отказался отказался отказался отказался отказался освобожденный/запасной
U+5165 входить входить входить входить входить входить входить
U + 5168 Полный Полный Полный Полный Полный Полный все/всего
U+5173 закрывать закрывать закрывать закрывать закрывать закрывать близко (упрощенно) / смеяться (традиционно)
U+5177 Инструмент Инструмент Инструмент Инструмент Инструмент Инструмент инструмент
U + 5203 лезвие лезвие лезвие лезвие лезвие лезвие край ножа
U + 5316 изменять изменять изменять изменять изменять изменять трансформировать/изменить
U + 5916 снаружи снаружи снаружи снаружи снаружи снаружи снаружи
U + 60C5 Привязанность Привязанность Привязанность Привязанность Привязанность Привязанность чувство
U+624D талант талант талант талант талант талант талант
U + 62B5 приезжать приезжать приезжать приезжать приезжать приезжать прибыть/сопротивляться
U + 6B21 Второсортный Второсортный Второсортный Второсортный Второсортный Второсортный второстепенный/следующий
U + 6D77 море море море море море море море
U + 753B рисование рисование рисование рисование рисование рисование картина
U + 76F4 прямой прямой прямой прямой прямой прямой прямой/прямой
U + 771F настоящий настоящий настоящий настоящий Шин настоящий истинный
U + 793а Показывать Показывать Показывать Показывать Показывать Показывать показывать
U+795E бог бог бог бог бог бог бог
U + 7A7A нулевой нулевой нулевой нулевой нулевой нулевой пустой/воздушный
U+8005 ВОЗ ВОЗ ВОЗ ВОЗ ВОЗ ВОЗ тот, кто делает/-есть/-есть
U + 8349 Трава Трава Трава Трава Трава Трава трава
U+8525 лук лук лук лук лук лук лук
U + 89D2 рог рог рог рог рог рог край/рог
U + 9053 дорога дорога дорога дорога дорога дорога путь/тропа/дорога
U + 96C7 нанимать нанимать нанимать нанимать нанимать нанимать нанимать
U + 9AA8 кость кость кость кость кость кость кость

Ни один вариант символов, который является эксклюзивным для корейского или вьетнамского языка, не получил своего собственного кодового знака, тогда как почти все японские варианты Синдзитай или варианты упрощенного китайского языка имеют отдельные кодовые точки и однозначные ссылочные глифы в стандарте Unicode.

В двадцатом веке страны Восточной Азии разработали свои собственные стандарты кодирования. В каждом стандарте сосуществовали варианты с разными кодовыми точками, отсюда и разные кодовые точки в Unicode для определенных наборов вариантов. Если взять в качестве примера упрощенный китайский язык, то два варианта символов (U+5167) и (U+5185) отличаются точно так же, как корейский и некорейский варианты (U+5168). Каждый соответствующий вариант первого символа имеет либо (U+5165), либо (U+4EBA). Каждый соответствующий вариант второго символа имеет либо (U+5165), либо (U+4EBA). Оба варианта первого символа получили свои отдельные кодовые точки. Однако два варианта второго символа должны были иметь один и тот же код.

Обоснование Unicode заключается в том, что национальный орган по стандартизации КНР установил отдельные кодовые точки для двух вариантов первого символа / , тогда как Корея никогда не создавала отдельные кодовые точки для разных вариантов . Для этого есть причина, не имеющая ничего общего с тем, как домашние воспринимают самих персонажей. В двадцатом веке Китай пережил процесс, который изменил (если не упростил) несколько персонажей. Во время этого перехода возникла необходимость иметь возможность кодировать оба варианта в одном документе. Корейский всегда использовал вариант с радикалом入 (U+5165) вверху. Следовательно, у него не было смысла кодировать оба варианта. В документах на корейском языке, созданных в двадцатом веке, не было особых оснований представлять обе версии в одном документе.

Почти все варианты, разработанные или стандартизированные КНР, получили отдельные кодовые точки просто благодаря удачному переходу от упрощенного китайского языка к компьютерной эпохе. Однако эта привилегия, по-видимому, применяется непоследовательно, тогда как большинство упрощений, выполненных в Японии и материковом Китае с помощью кодовых точек в национальных стандартах, включая символы, упрощенные по-разному в каждой стране, действительно вошли в Unicode как отдельные кодовые точки.

Шестьдесят два «упрощенных» символа Синдзитай с различными кодовыми точками в Японии были объединены со своими традиционными эквивалентами Кюдзитай, такими как . [ нужна ссылка ] Это может вызвать проблемы со стратегией языковых тегов. Для традиционных и «упрощенных» версий японского языка не существует универсального тега, как для китайского. Таким образом, любому японскому писателю, желающему отобразить форму Кюдзитай , возможно, придется пометить символ как «Традиционный китайский» или поверить, что японский шрифт получателя использует только глифы Кюдзитай, но для отображения могут потребоваться теги традиционного китайского и упрощенного китайского языка. две формы рядом в японском учебнике. Однако это не позволит использовать один и тот же шрифт для всего документа. В Юникоде есть две отдельные кодовые точки для , но только по «причинам совместимости». Любой шрифт, совместимый с Unicode, должен отображать эквивалентные кодовые точки версий Kyūjitai и Shinjitai в Unicode одинаково. Неофициально шрифт может отображаться по-разному: 海 (U+6D77) как версия Синдзитай и 海 (U+FA45) как версия Кюдзитай (которая идентична традиционной версии в письменном китайском и корейском языках).

Радикал (U+7CF8) используется в таких символах, как / , в двух вариантах, причем вторая форма представляет собой просто курсив. Радикальные компоненты (U+7D05) и (U+7EA2) семантически идентичны, а глифы различаются только в последнем, используя курсивную версию компонента . Однако в материковом Китае органы по стандартизации хотели стандартизировать форму скорописи при использовании в таких символах, как . Поскольку это изменение произошло относительно недавно, наступил переходный период. И (U+7D05), и (U+7EA2) получили отдельные кодовые точки в органах стандартов кодирования текста КНР, поэтому в документах на китайском языке можно использовать обе версии. Эти два варианта также получили разные кодовые точки в Юникоде.

Случай с радикалом (U+8278) доказывает, насколько произвольно положение дел. При составлении таких символов, как (U+8349), радикал располагался вверху, но имел две разные формы. Традиционные китайцы и корейцы используют четырехтактную версию. Вверху должно быть что-то похожее на два знака плюс ( ⺿ ). Упрощенный китайский, японский кюдзитай и японский синдзитай используют трехстрочную версию, например, два знака плюс, разделяющие горизонтальные штрихи ( , т. е. ). Органы кодирования текста КНР не кодировали эти два варианта по-разному. Тот факт, что почти каждое другое изменение, внесенное КНР, независимо от того, насколько оно незначительное, действительно требовало своего собственного кода, позволяет предположить, что это исключение могло быть непреднамеренным. Unicode скопировал существующие стандарты как есть, сохранив такие нарушения.

Консорциум Unicode признавал ошибки и в других случаях. Множество блоков Юникода для идеографов CJK Han имеют избыточность в исходных стандартах, избыточность, вызванную ошибочным импортом исходных стандартов, а также случайные слияния, которые позже исправляются, создавая прецедент для разъединяющих символов.

Для носителей языка варианты могут быть непонятными или неприемлемыми в образованном контексте. Носители английского языка могут понять рукописную заметку с надписью «4P5 кг» как «495 кг», но написание девяти задом наперед (так что это выглядит как буква «P») может вызвать раздражение и будет считаться неправильным в любой школе. Аналогично, для пользователей одного языка CJK, читающих документ с «иностранными» глифами: варианты могут отображаться как зеркальные изображения, может отсутствовать штрих/иметь посторонний штрих, а может быть нечитаемым для людей, не являющихся японцами. (В Японии приняты оба варианта).

Примеры некоторых неунифицированных ханьских иероглифов

[ редактировать ]

В некоторых случаях, когда изменения наиболее заметны, в Unicode закодированы варианты символов, что делает ненужным переключение между шрифтами или lang атрибуты. Однако некоторые варианты с, возможно, минимальными различиями получают отдельные кодовые точки, и не каждый вариант с, возможно, существенными изменениями получает уникальный код. В качестве примера возьмем такой символ, как (U+5165), для которого единственный способ отобразить варианты — это изменить шрифт (или lang атрибут), как описано в предыдущей таблице. С другой стороны, для (U+5167) вариант (U+5185) получает уникальный код. Для некоторых символов, например / (U+514C/U+5151), для отображения разных глифов можно использовать любой метод. В следующей таблице в каждой строке сравниваются варианты, которым присвоены разные кодовые точки. Для краткости отметим, что варианты синдзитай с разными компонентами обычно (и это неудивительно) имеют уникальные коды (например, 氣/気 ). Здесь не появятся ни они, ни упрощенные китайские иероглифы, состоящие из последовательно упрощенных радикальных компонентов (например, / , / ). [3] Этот список не является исчерпывающим.

Упрощенный Традиционный японский Другой вариант Английский
U + 4E22
оставлять
U + 4E1F
оставлять
потерять
U + 4E24
два
U + 5169
два
U + 4E21
оба
U + 34B3
два, оба
U + 4E58
брать
U + 4E58
брать
U + 4E57
Квадрат
U + 6909
Камбоджа
кататься
U + 4EA7
Производить
U+7522
Производить
U+7523
производство
рожать
U + 4FA3
компаньон
U + 4FB6
компаньон
компаньон
U+5151
выкупать
U + 514C
выкупать
обналичить
U + 5185
Внутри
U+5167
Внутри
внутри
U + 522B
Не
U+5225
другой
уйти
U+7985
Дзен
U + 79AA
Дзен
U+7985
Дзен
медитация (дзен)
U + 7A0E
налог
U + 7A05
Налог
налоги
U + 997F
Голодный
U + 9913
Голодный
голодный
U + 9AD8
высокий
U + 9AD8
высокий
U + 9AD9
Така
высокий
U + 9F9F
черепаха
U + 9F9C
черепаха
U + 4E80
черепаха
черепаха
U+7814
исследовать
U + 784F
U+7814
исследовать
исследовать
Источники : Китайско-английский словарь MDBG.

База данных идеографических вариаций (IVD)

[ редактировать ]

Чтобы решить проблемы, вызванные унификацией Хань, был создан технический стандарт Unicode, известный как База данных идеографических вариаций Unicode, чтобы решить проблему указания конкретного глифа в среде обычного текста. [19] Зарегистрировав коллекции глифов в базе данных идеографических вариантов (IVD), можно использовать селекторы идеографических вариантов для формирования последовательности идеографических вариантов (IVS) для указания или ограничения соответствующего глифа при обработке текста в среде Unicode.

Диапазоны Юникода

[ редактировать ]

Идеографические символы, присвоенные Unicode, появляются в следующих блоках:

Unicode включает поддержку радикалов CJKV, штрихов, знаков препинания, знаков и символов в следующих блоках:

В этих блоках появляются дополнительные символы совместимости (не рекомендуется использовать):

Эти символы совместимости (исключая двенадцать унифицированных иероглифов в блоке «Идеографы совместимости CJK») включены для совместимости с устаревшими системами обработки текста и другими устаревшими наборами символов. Они включают в себя формы символов для вертикального расположения текста и символы форматированного текста, которые Unicode рекомендует обрабатывать другими способами.

Ядро международных идеограмм

[ редактировать ]

Ядро международных идеографов (IICore) — это подмножество 9810 иероглифов, полученное из таблиц унифицированных идеографов CJK, предназначенное для реализации в устройствах с ограниченной памятью, возможностями ввода/вывода и/или в приложениях, где используется полный набор идеографов ISO 10646. не осуществимо. В текущем стандарте 9810 символов. [21]

Файлы базы данных Unihan

[ редактировать ]

Проект Unihan всегда старался сделать доступной свою базу данных сборок. [2]

Проект libUnihan предоставляет нормализованную базу данных SQLite Unihan и соответствующую библиотеку C. [22] Все таблицы в этой базе данных находятся в пятой нормальной форме . libUnihan выпускается под лицензией LGPL , а его база данных UnihanDb — под лицензией MIT .

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Unihan также может обратиться к базе данных Unihan, поддерживаемой Консорциумом Unicode , которая предоставляет информацию обо всех унифицированных символах хань, закодированных в стандарте Unicode, включая сопоставления с различными национальными и отраслевыми стандартами, индексы в стандартных словарях, закодированные варианты, произношение в различные языки и английское определение. База данных доступна общественности в виде текстовых файлов. [2] и через интерактивный веб-сайт. [3] [4] Последний также включает репрезентативные глифы и определения составных слов, взятые из бесплатных проектов словарей японского EDICT и китайского CEDICT (которые предоставлены для удобства и не являются формальной частью стандарта Unicode).
  2. ^ Однако большинство из них являются устаревшими символами, поскольку цель Unicode - кодировать каждую систему письма, которая использовалась или когда-либо использовалась; Чтобы считаться грамотным, необходимо набрать от 2000 до 3000 символов.
  1. ^ «Стандартное приложение Unicode® № 38 | БАЗА ДАННЫХ UNICODE HAN (UNIHAN)» . Консорциум Юникод . 01.09.2023.
  2. ^ Jump up to: а б "Унихан.zip" . Стандарт Юникод . Консорциум Юникод.
  3. ^ Jump up to: а б «Поиск в базе данных Unihan» . Стандарт Юникод . Консорциум Юникод.
  4. ^ «Поиск в базе данных Unihan: пример поиска для 中» . Стандарт Юникод . Консорциум Юникод.
  5. ^ «Глава 18: Восточная Азия, принципы объединения Хань» (PDF) . Стандарт Юникод . Консорциум Юникод.
  6. ^ Уистлер, Кен (25 октября 2010 г.). «Техническое примечание Unicode 26: О кодировке латиницы, греческого, кириллицы и хань» .
  7. ^ «Тайная жизнь Юникода» . ИБМ . 16 декабря 2013 г. Архивировано из оригинала 16 декабря 2013 г. Проверено 30 сентября 2023 г.
  8. ^ Возвращение к Unicode Стивену Дж. Сирлу; Веб-мастер, TRON Web
  9. ^ «Что такое IVD/IVS? Проект развития текстовой информационной инфраструктуры . mojikiban.ipa.go.jp »
  10. ^ Jump up to: а б «Глава 1: Введение» (PDF) . Стандарт Юникод . Консорциум Юникод.
  11. ^ Jump up to: а б «База данных идеографических вариаций» . Консорциум Юникод.
  12. ^ «Ранние годы Unicode» . Консорциум Юникод.
  13. ^ Беккер, Джозеф Д. (29 августа 1998 г.). «Юникод 88» (PDF) .
  14. ^ «Юникод в Японии: Руководство по технической и психологической борьбе» . Архивировано из оригинала 27 июня 2009 г. {{cite web}}: CS1 maint: неподходящий URL ( ссылка )
  15. ^ Нориаки Кобаяши «Плоды Matsushita Electric», Глава 1.
  16. ^ Крикке, Январь (15 октября 2003 г.). «Самая популярная операционная система в мире» . LinuxInsider.com .
  17. ^ Эйдзи Осита «Сон Масаеши: Молодой лев предпринимательства» ( ISBN   4-06-208718-9 )стр. 285-294
  18. ^ Jump up to: а б «UAX № 38: База данных Unicode Han (Unihan)» . www.unicode.org .
  19. ^ «UTS № 37: База данных идеографических вариантов Юникода» . www.unicode.org .
  20. ^ «УРО» . ccjktype.fonts.adobe.com .
  21. ^ «OGCIO: Область загрузки: Утилита сравнения международных идеографов (IICORE)» . www.ogcio.gov.hk .
  22. ^ Чен, Дин-И. «libUnihan — библиотека для базы данных символов Unihan в пятой нормальной форме» . libunihan.sourceforge.net .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 87c57dbecf93f0f0ce70d4b5432bfc75__1722471000
URL1:https://arc.ask3.ru/arc/aa/87/75/87c57dbecf93f0f0ce70d4b5432bfc75.html
Заголовок, (Title) документа по адресу, URL1:
Han unification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)