Jump to content

Языки описания китайских иероглифов

Было предложено несколько систем для описания внутренней структуры китайских иероглифов , включая их штрихи, компоненты, порядок штрихов и расположение каждого в идеальном квадрате иероглифа. Эта информация полезна для идентификации вариантов символов, которые объединены в одну кодовую точку с помощью Unicode и ISO/IEC 10646 , а также для обеспечения альтернативной формы представления редких символов, которые еще не имеют стандартизированной кодировки в Unicode. Многие стремятся работать с обычным сценарием , а также предоставить внутреннюю структуру персонажа, которую можно использовать для облегчения поиска персонажа путем индексации внутреннего облика персонажа и перекрестных ссылок между похожими персонажами.

Язык описания символов на основе XML, (CDL) — это декларативный язык созданный совместно Томом Бишопом и Ричардом Куком для Института Вэньлинь . Он определяет символы путем расположения компонентов, которые не обязаны отражать семантическую или этимологическую историю персонажа. Чтобы компонент вписался в отведенную часть квадрата всего символа, набор из менее чем 50 штрихов позволяет построить около 1000 компонентов, которые, в свою очередь, могут описывать десятки тысяч символов. [1]

Последовательности идеографического описания

[ редактировать ]

Глава 12 стандарта Unicode определяет синтаксис «Последовательности идеографического описания» (IDS), используемый для описания символов в функциональных терминах путем расположения компонентов с кодовыми точками. Шестнадцать специальных символов в диапазоне U+2FF0..U+2FFF действуют как префиксные операторы для объединения других символов или последовательностей в более крупные символы.

Символы идеографического описания в Юникоде
Характер Номер символа Юникода Полное имя в Юникоде
U + 2FF0 Идеографическое описание персонажа слева направо
U+2FF1 Идеографическое описание символа сверху вниз
U + 2FF2 Символ идеографического описания слева направо и посередине.
U + 2FF3 Символ идеографического описания сверху до середины и снизу
U + 2FF4 Идеографическое описание персонажа в полном объеме
U+2FF5 Идеографическое описание персонажа окружает сверху
U + 2FF6 Идеографическое описание персонажа окружает снизу
U + 2FF7 Идеографическое описание персонажа вокруг слева
U+2FFC Идеографическое описание персонажа вокруг справа
U + 2FF8 Идеографическое описание персонажа вокруг слева вверху
U + 2FF9 Идеографическое описание персонажа вокруг справа вверху
U+2FFA Идеографическое описание персонажа вокруг слева внизу
U + 2FFD Идеографическое описание персонажа вокруг справа внизу
U + 2FFB символ идеографического описания Наложен
U + 2FFE Идеографическое описание персонажа горизонтальное отражение
⿿ U + 2FFF символов идеографического описания Поворот

Два дополнительных символа идеографического описания разбросаны по другим блокам Юникода. U + 303E ИНДИКАТОР ИДЕОГРАФИЧЕСКОГО ВАРИАЦИИ официально не является символом идеографического описания, но иногда используется в последовательностях идеографического описания.

Другие символы идеографического описания в Юникоде
Характер Кодовая точка Блокировать Имя
U + 303E Символы и пунктуация CJK Индикатор идеографического разнообразия
U + 31EF CJK Удары символов идеографического описания Вычитание

Эти последовательности полезны для описания читателю символа, который невозможно напечатать напрямую, либо потому, что он отсутствует в данном шрифте, либо вообще отсутствует в стандарте Unicode. Например, пиломатериала персонаж 𭨡 закодированный в расширении F унифицированных иероглифов CJK как U+2DA21 𭨡, можно описать как ⿰書史 . Другое использование — поиск по словарю, как приблизительный метод ввода запросов.

Эти последовательности можно визуализировать либо путем сохранения отдельных символов отдельно, либо путем анализа последовательности идеографического описания и рисования описанного таким образом иероглифа. Сами по себе они не обеспечивают однозначного рендеринга всех символов. Например, последовательность ⿱十一 представляет собой как «ЗЕМЛЯ» с более узкой средней полосой, так и «УЧЕНЫЙ» с более широкой средней полосой.

Спецификация Unicode для этих последовательностей основана на символах и синтаксисе более ранней кодировки GBK . Дополнительные символы позже кодируются для заполнения недостающих комбинаций.

Пакет бесплатного программного обеспечения IDSgrep, автор Мэтью Скала. [2] [3] расширяет синтаксис IDS Unicode, включая дополнительные функции поиска по словарю; он способен преобразовывать базу данных KanjiVG в собственный расширенный формат IDS или выполнять поиск файлов EIDS, сгенерированных соответствующим семейством шрифтов Tsukurimashou.

См. также

[ редактировать ]
  1. ^ Бишоп и Кук (2003c) , стр. 2, 9.
  2. ^ «IDSgrep» , Проект Цукуримашо , 2024 г., заархивировано из оригинала 7 февраля 2024 г.
  3. ^ Скала, Мэтью (2015), «Структурная система запросов для символов хань» (PDF) , International Journal of Asian Language Processing , vol. 23, нет. 2, стр. 127–159, arXiv : 1404.5585 , заархивировано из оригинала (PDF) 4 марта 2016 г. , получено 13 января 2016 г.

Цитируемые работы

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 75461ffde17d7ea89c57c69a573bf0d7__1720124640
URL1:https://arc.ask3.ru/arc/aa/75/d7/75461ffde17d7ea89c57c69a573bf0d7.html
Заголовок, (Title) документа по адресу, URL1:
Chinese character description languages - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)