Языки описания китайских иероглифов
Было предложено несколько систем для описания внутренней структуры китайских иероглифов , включая их штрихи, компоненты, порядок штрихов и расположение каждого в идеальном квадрате иероглифа. Эта информация полезна для идентификации вариантов символов, которые объединены в одну кодовую точку с помощью Unicode и ISO/IEC 10646 , а также для обеспечения альтернативной формы представления редких символов, которые еще не имеют стандартизированной кодировки в Unicode. Многие стремятся работать с обычным сценарием , а также предоставить внутреннюю структуру персонажа, которую можно использовать для облегчения поиска персонажа путем индексации внутреннего облика персонажа и перекрестных ссылок между похожими персонажами.
CDL
[ редактировать ]Язык описания символов на основе XML, (CDL) — это декларативный язык созданный совместно Томом Бишопом и Ричардом Куком для Института Вэньлинь . Он определяет символы путем расположения компонентов, которые не обязаны отражать семантическую или этимологическую историю персонажа. Чтобы компонент вписался в отведенную часть квадрата всего символа, набор из менее чем 50 штрихов позволяет построить около 1000 компонентов, которые, в свою очередь, могут описывать десятки тысяч символов. [1]
Последовательности идеографического описания
[ редактировать ]Глава 12 стандарта Unicode определяет синтаксис «Последовательности идеографического описания» (IDS), используемый для описания символов в функциональных терминах путем расположения компонентов с кодовыми точками. Шестнадцать специальных символов в диапазоне U+2FF0..U+2FFF действуют как префиксные операторы для объединения других символов или последовательностей в более крупные символы.
Характер | Номер символа Юникода | Полное имя в Юникоде |
---|---|---|
⿰ | U + 2FF0 | Идеографическое описание персонажа слева направо |
⿱ | U+2FF1 | Идеографическое описание символа сверху вниз |
⿲ | U + 2FF2 | Символ идеографического описания слева направо и посередине. |
⿳ | U + 2FF3 | Символ идеографического описания сверху до середины и снизу |
⿴ | U + 2FF4 | Идеографическое описание персонажа в полном объеме |
⿵ | U+2FF5 | Идеографическое описание персонажа окружает сверху |
⿶ | U + 2FF6 | Идеографическое описание персонажа окружает снизу |
⿷ | U + 2FF7 | Идеографическое описание персонажа вокруг слева |
| U+2FFC | Идеографическое описание персонажа вокруг справа |
⿸ | U + 2FF8 | Идеографическое описание персонажа вокруг слева вверху |
⿹ | U + 2FF9 | Идеографическое описание персонажа вокруг справа вверху |
⿺ | U+2FFA | Идеографическое описание персонажа вокруг слева внизу |
| U + 2FFD | Идеографическое описание персонажа вокруг справа внизу |
⿻ | U + 2FFB | символ идеографического описания Наложен |
| U + 2FFE | Идеографическое описание персонажа горизонтальное отражение |
| U + 2FFF | символов идеографического описания Поворот |
Два дополнительных символа идеографического описания разбросаны по другим блокам Юникода. U + 303E 〾 ИНДИКАТОР ИДЕОГРАФИЧЕСКОГО ВАРИАЦИИ официально не является символом идеографического описания, но иногда используется в последовательностях идеографического описания.
Характер | Кодовая точка | Блокировать | Имя |
---|---|---|---|
〾 | U + 303E | Символы и пунктуация CJK | Индикатор идеографического разнообразия |
| U + 31EF | CJK Удары | символов идеографического описания Вычитание |
Эти последовательности полезны для описания читателю символа, который невозможно напечатать напрямую, либо потому, что он отсутствует в данном шрифте, либо вообще отсутствует в стандарте Unicode. Например, пиломатериала персонаж закодированный в расширении F унифицированных иероглифов CJK как U+2DA21 𭨡, можно описать как ⿰書史 . Другое использование — поиск по словарю, как приблизительный метод ввода запросов.
Эти последовательности можно визуализировать либо путем сохранения отдельных символов отдельно, либо путем анализа последовательности идеографического описания и рисования описанного таким образом иероглифа. Сами по себе они не обеспечивают однозначного рендеринга всех символов. Например, последовательность ⿱十一 представляет собой как ⼟ «ЗЕМЛЯ» с более узкой средней полосой, так и ⼠ «УЧЕНЫЙ» с более широкой средней полосой.
Спецификация Unicode для этих последовательностей основана на символах и синтаксисе более ранней кодировки GBK . Дополнительные символы позже кодируются для заполнения недостающих комбинаций.
Пакет бесплатного программного обеспечения IDSgrep, автор Мэтью Скала. [2] [3] расширяет синтаксис IDS Unicode, включая дополнительные функции поиска по словарю; он способен преобразовывать базу данных KanjiVG в собственный расширенный формат IDS или выполнять поиск файлов EIDS, сгенерированных соответствующим семейством шрифтов Tsukurimashou.
См. также
[ редактировать ]- Список радикалов Шуовэнь Цзецзы
- Список радикалов Канси
- Список радикалов Юникода
- Метод ввода Цанцзе
- Радикальный
- Гладить
Ссылки
[ редактировать ]Цитаты
[ редактировать ]- ^ Бишоп и Кук (2003c) , стр. 2, 9.
- ^ «IDSgrep» , Проект Цукуримашо , 2024 г., заархивировано из оригинала 7 февраля 2024 г.
- ^ Скала, Мэтью (2015), «Структурная система запросов для символов хань» (PDF) , International Journal of Asian Language Processing , vol. 23, нет. 2, стр. 127–159, arXiv : 1404.5585 , заархивировано из оригинала (PDF) 4 марта 2016 г. , получено 13 января 2016 г.
Цитируемые работы
[ редактировать ]- Руководство пользователя Wenlin , Институт Вэньлинь, 2015 г.
- Бишоп, Том; Кук, Ричард, спецификация CDL
- ———; Кук, Ричард (2003), Язык описания символов (CDL): Набор основных унифицированных типов штрихов CJK (PDF)
- ———; Кук, Ричард (2003), Спецификация языка описания символов CDL (PDF)
- ———; Кук, Ричард (2003), Спецификация CDL (PDF) , заархивировано из оригинала (PDF) 5 апреля 2016 г. , получено 17 января 2018 г.
- ——— (2007), Язык описания символов для CJK (PDF) , Многоязычный, № 91, том. 18, стр. 62–68.
- Кук, Ричард (2003), Языки описания китайских символов (PDF)