Jump to content

Языки описания китайских иероглифов

Было предложено несколько систем для описания внутренней структуры китайских иероглифов , включая их штрихи, компоненты, порядок штрихов иероглифа и расположение каждого в идеальном квадрате . Эта информация полезна для идентификации вариантов символов, которые объединены в одну кодовую точку Unicode и ISO/IEC 10646 , а также для обеспечения альтернативной формы представления редких символов, которые еще не имеют стандартизованной кодировки в Unicode или ISO/ IEC 10646. Многие стремятся работать с обычным шрифтом , а также предоставить внутреннюю структуру символа, которую можно использовать для облегчения поиска символа путем индексации внутреннего состава символа и перекрестных ссылок между похожими символами.

CDL [ править ]

Язык описания символов на основе XML, (CDL) — это декларативный язык созданный совместно Томом Бишопом и Ричардом Куком для Института Вэньлинь . Он определяет символы путем расположения компонентов, которые не обязаны отражать семантическую или этимологическую историю персонажа. Чтобы компонент вписался в отведенную часть квадрата всего символа, набор из менее чем 50 штрихов позволяет построить около 1000 компонентов, которые, в свою очередь, могут описывать десятки тысяч символов. [1]

В Юникоде [ править ]

Глава 12 спецификации Unicode [2] определяет синтаксис «Последовательности идеографического описания» (IDS), используемый для описания символов в функциональных терминах, путем расположения компонентов с кодовыми точками. Шестнадцать специальных символов в диапазоне от U+2FF0 до U+2FFF действуют как префиксные операторы для объединения других символов или последовательностей в более крупные символы.

Символы идеографического описания в Юникоде
Характер Номер символа Юникода Полное имя в Юникоде
U + 2FF0 Идеографическое описание персонажа слева направо
U + 2FF1 Идеографическое описание символа сверху вниз
U + 2FF2 Символ идеографического описания слева направо и посередине.
U + 2FF3 Символ идеографического описания сверху до середины и снизу
U + 2FF4 Идеографическое описание персонажа в полном объеме
U+2FF5 Идеографическое описание персонажа окружает сверху
U + 2FF6 Идеографическое описание персонажа вокруг снизу
U + 2FF7 Идеографическое описание персонажа вокруг слева
U+2FFC Идеографическое описание персонажа вокруг справа
U + 2FF8 Идеографическое описание персонажа вокруг слева вверху
U + 2FF9 Идеографическое описание персонажа вокруг справа вверху
U+2FFA Идеографическое описание персонажа вокруг слева внизу
U + 2FFD Идеографическое описание персонажа вокруг справа внизу
U + 2FFB символ идеографического описания Наложен
U+2FFE Идеографическое описание персонажа горизонтальное отражение
⿿ U + 2FFF символов идеографического описания Поворот

Два дополнительных символа идеографического описания разбросаны по другим блокам Юникода. U + 303E ИНДИКАТОР ИДЕОГРАФИЧЕСКОГО ВАРИАЦИИ официально не является символом идеографического описания, но иногда используется в последовательностях идеографического описания.

Другие связанные символы идеографического описания в Юникоде
Характер Номер символа Юникода Блокировать Полное имя в Юникоде
U + 303E Символы и пунктуация CJK Индикатор идеографического разнообразия
U + 31EF CJK Удары символов идеографического описания Вычитание

Эти последовательности полезны для описания читателю символа, который невозможно напечатать напрямую, либо потому, что он отсутствует в данном шрифте, либо вообще отсутствует в стандарте Unicode. Например, Сондипа персонаж 𭨡 закодированный в расширении F унифицированных идеографов CJK как U+2DA21 𭨡, можно описать как ⿰書史 . Другое использование — поиск по словарю, как приблизительный метод ввода запросов.

Эти последовательности можно визуализировать либо путем сохранения отдельных символов отдельно, либо путем анализа последовательности идеографического описания и рисования описанного таким образом иероглифа. [3] Сами по себе они не обеспечивают однозначного рендеринга всех символов. Например, последовательность ⿱十一 представляет собой как «ЗЕМЛЯ» с более узкой средней полосой, так и «УЧЕНЫЙ» с более широкой средней полосой.

Спецификация Unicode для этих последовательностей основана на символах и синтаксисе более раннего стандарта GBK . Дополнительные символы позже кодируются для заполнения недостающих комбинаций.

Пакет бесплатного программного обеспечения IDSgrep, автор Мэтью Скала. [4] [5] расширяет синтаксис IDS Unicode, включая дополнительные функции поиска по словарю; он способен преобразовывать базу данных KanjiVG в собственный расширенный формат IDS или выполнять поиск файлов EIDS, сгенерированных соответствующим семейством шрифтов Tsukurimashou.

См. также [ править ]

Примечания [ править ]

  1. ^ Бишоп и Кук 31 декабря 2013 г.: стр. 2, 9.
  2. ^ «Идеографическое описание символов» (PDF) . Стандарт Юникод, версия 6.0 (PDF) . Маунтин-Вью, Калифорния: Консорциум Unicode. Февраль 2011. стр. 409–412. Архивировано (PDF) из оригинала 18 января 2024 года.
  3. ^ «Стандарт Unicode® – Версия 12.0 – Основная спецификация» (PDF) . Консорциум Юникод. Март 2019. с. 26. Архивировано (PDF) из оригинала 2 июня 2023 г.
  4. ^ «ИДСгреп» . Проект Цукуримашё . 31 января 2024 г. Архивировано из оригинала 7 февраля 2024 года.
  5. ^ Скала, Мэтью (2015). «Система структурных запросов для персонажей Хань» (PDF) . Международный журнал обработки азиатских языков . 23 (2): 127–159. arXiv : 1404.5585 . Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 13 января 2016 г.

Внешние ссылки [ править ]

Вэньлинь CDL [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3308eab5488ca09b762ce45267164208__1717232460
URL1:https://arc.ask3.ru/arc/aa/33/08/3308eab5488ca09b762ce45267164208.html
Заголовок, (Title) документа по адресу, URL1:
Chinese character description languages - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)