Языки описания китайских иероглифов
Было предложено несколько систем для описания внутренней структуры китайских иероглифов , включая их штрихи, компоненты, порядок штрихов иероглифа и расположение каждого в идеальном квадрате . Эта информация полезна для идентификации вариантов символов, которые объединены в одну кодовую точку Unicode и ISO/IEC 10646 , а также для обеспечения альтернативной формы представления редких символов, которые еще не имеют стандартизованной кодировки в Unicode или ISO/ IEC 10646. Многие стремятся работать с обычным шрифтом , а также предоставить внутреннюю структуру символа, которую можно использовать для облегчения поиска символа путем индексации внутреннего состава символа и перекрестных ссылок между похожими символами.
CDL [ править ]
Язык описания символов на основе XML, (CDL) — это декларативный язык созданный совместно Томом Бишопом и Ричардом Куком для Института Вэньлинь . Он определяет символы путем расположения компонентов, которые не обязаны отражать семантическую или этимологическую историю персонажа. Чтобы компонент вписался в отведенную часть квадрата всего символа, набор из менее чем 50 штрихов позволяет построить около 1000 компонентов, которые, в свою очередь, могут описывать десятки тысяч символов. [1]
В Юникоде [ править ]
Глава 12 спецификации Unicode [2] определяет синтаксис «Последовательности идеографического описания» (IDS), используемый для описания символов в функциональных терминах, путем расположения компонентов с кодовыми точками. Шестнадцать специальных символов в диапазоне от U+2FF0 до U+2FFF действуют как префиксные операторы для объединения других символов или последовательностей в более крупные символы.
Характер | Номер символа Юникода | Полное имя в Юникоде |
---|---|---|
⿰ | U + 2FF0 | Идеографическое описание персонажа слева направо |
⿱ | U + 2FF1 | Идеографическое описание символа сверху вниз |
⿲ | U + 2FF2 | Символ идеографического описания слева направо и посередине. |
⿳ | U + 2FF3 | Символ идеографического описания сверху до середины и снизу |
⿴ | U + 2FF4 | Идеографическое описание персонажа в полном объеме |
⿵ | U+2FF5 | Идеографическое описание персонажа окружает сверху |
⿶ | U + 2FF6 | Идеографическое описание персонажа вокруг снизу |
⿷ | U + 2FF7 | Идеографическое описание персонажа вокруг слева |
| U+2FFC | Идеографическое описание персонажа вокруг справа |
⿸ | U + 2FF8 | Идеографическое описание персонажа вокруг слева вверху |
⿹ | U + 2FF9 | Идеографическое описание персонажа вокруг справа вверху |
⿺ | U+2FFA | Идеографическое описание персонажа вокруг слева внизу |
| U + 2FFD | Идеографическое описание персонажа вокруг справа внизу |
⿻ | U + 2FFB | символ идеографического описания Наложен |
| U+2FFE | Идеографическое описание персонажа горизонтальное отражение |
| U + 2FFF | символов идеографического описания Поворот |
Два дополнительных символа идеографического описания разбросаны по другим блокам Юникода. U + 303E 〾 ИНДИКАТОР ИДЕОГРАФИЧЕСКОГО ВАРИАЦИИ официально не является символом идеографического описания, но иногда используется в последовательностях идеографического описания.
Характер | Номер символа Юникода | Блокировать | Полное имя в Юникоде |
---|---|---|---|
〾 | U + 303E | Символы и пунктуация CJK | Индикатор идеографического разнообразия |
| U + 31EF | CJK Удары | символов идеографического описания Вычитание |
Эти последовательности полезны для описания читателю символа, который невозможно напечатать напрямую, либо потому, что он отсутствует в данном шрифте, либо вообще отсутствует в стандарте Unicode. Например, Сондипа персонаж закодированный в расширении F унифицированных идеографов CJK как U+2DA21 𭨡, можно описать как ⿰書史 . Другое использование — поиск по словарю, как приблизительный метод ввода запросов.
Эти последовательности можно визуализировать либо путем сохранения отдельных символов отдельно, либо путем анализа последовательности идеографического описания и рисования описанного таким образом иероглифа. [3] Сами по себе они не обеспечивают однозначного рендеринга всех символов. Например, последовательность ⿱十一 представляет собой как ⼟ «ЗЕМЛЯ» с более узкой средней полосой, так и ⼠ «УЧЕНЫЙ» с более широкой средней полосой.
Спецификация Unicode для этих последовательностей основана на символах и синтаксисе более раннего стандарта GBK . Дополнительные символы позже кодируются для заполнения недостающих комбинаций.
Пакет бесплатного программного обеспечения IDSgrep, автор Мэтью Скала. [4] [5] расширяет синтаксис IDS Unicode, включая дополнительные функции поиска по словарю; он способен преобразовывать базу данных KanjiVG в собственный расширенный формат IDS или выполнять поиск файлов EIDS, сгенерированных соответствующим семейством шрифтов Tsukurimashou.
См. также [ править ]
- Список радикалов Шуовэнь Цзецзы
- Список радикалов Канси
- Список радикалов Юникода
- Метод ввода Цанцзе
- Радикальный
- Гладить
Примечания [ править ]
- ^ Бишоп и Кук 31 декабря 2013 г.: стр. 2, 9.
- ^ «Идеографическое описание символов» (PDF) . Стандарт Юникод, версия 6.0 (PDF) . Маунтин-Вью, Калифорния: Консорциум Unicode. Февраль 2011. стр. 409–412. Архивировано (PDF) из оригинала 18 января 2024 года.
- ^ «Стандарт Unicode® – Версия 12.0 – Основная спецификация» (PDF) . Консорциум Юникод. Март 2019. с. 26. Архивировано (PDF) из оригинала 2 июня 2023 г.
- ^ «ИДСгреп» . Проект Цукуримашё . 31 января 2024 г. Архивировано из оригинала 7 февраля 2024 года.
- ^ Скала, Мэтью (2015). «Система структурных запросов для персонажей Хань» (PDF) . Международный журнал обработки азиатских языков . 23 (2): 127–159. arXiv : 1404.5585 . Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 13 января 2016 г.
Внешние ссылки [ править ]
Вэньлинь CDL [ править ]
- Институт Вэньлинь (2015), Руководство пользователя Вэньлинь
- Бишоп, Том; Кук, Ричард, спецификация CDL
- Бишоп, Том; Кук, Ричард (2003a), Язык описания символов (CDL): набор базовых унифицированных типов штрихов CJK (PDF)
- Бишоп, Том; Кук, Ричард (2003b), Спецификация языка описания символов CDL (PDF)
- Исправление от 31 декабря 2003 г.: Бишоп, Том; Кук, Ричард (2003c), Спецификация CDL (PDF) , заархивировано из оригинала (PDF) 5 апреля 2016 г. , получено 17 января 2018 г.
- Кук, Ричард (2003), Языки описания китайских символов (PDF)
- Бишоп, Том (2007), Язык описания символов для CJK (PDF) , Многоязычный, № 91, Том 18, выпуск 7, стр. 62–8.