Языки описания китайского иерите
Было предложено несколько систем для описания внутренней структуры китайских имен , включая их инсульты, компоненты и порядок инсульта , а также расположение каждого в идеальном квадрате персонажа. Эта информация полезна для определения вариантов символов, которые объединяются в одну кодовую точку Unicode и ISO/IEC 10646 , а также для обеспечения альтернативной формы представления для редких символов, которые еще не имеют стандартизированного кодирования в Unicode. Многие стремятся работать для обычного сценария , а также обеспечить внутреннюю структуру персонажа, которая может быть использована для облегчения поиска персонажа, индексируя внутренний макияж персонажа и перекрестные ссылки среди подобных символов.
CDL
[ редактировать ]Язык описания персонажа основанный на XML, (CDL)-это декларативный язык, созданный Томом Бишопом и Ричардом Куком для Института Венлина . Он определяет символы путем расположения компонентов, которые не требуются для отражения семантической или этимологической истории персонажа. Для того, чтобы компонент вписывался в выделенную часть квадрата всего персонажа, набор из менее чем 50 инсультов позволяет создать около 1000 компонентов, которые, в свою очередь, могут описать десятки тысяч символов. [ 1 ]
Идеографическое описание последовательностей
[ редактировать ]Глава 18 Стандарта Unicode (версия 15.0) определяет синтаксис «идеографические последовательности описания» (IDS), используемый для описания символов в терминах фиксации, путем расположения компонентов с кодовыми точками. Шестнадцать специальных символов в диапазоне u+2ff0..u+2fff действуют как операторы префикса для объединения других символов или последовательностей для формирования более крупных символов.
Характер | Номер символа Unicode | Полное имя Unicode |
---|---|---|
⿰ | U+2ff0 | Идеографическое описание персонаж слева направо |
⿱ | U+2FF1 | Идеографический описание символ выше к ниже |
⿲ | U + 2ff2 | Идеографическое описание персонаж слева до середины и вправо |
⿳ | U+2ff3 | Идеографическое описание символ выше до середины и ниже |
⿴ | U+2ff4 | Идеографическое описание персонаж полная объем |
⿵ | U+2FF5 | Идеографическое описание персонаж окружает сверху |
⿶ | U+2ff6 | Идеографическое описание персонаж окружает ниже |
⿷ | U+2ff7 | Идеографическое описание персонаж окружает слева |
| U+2ffc | Идеографическое описание персонаж окружает справа |
⿸ | И+2ff8 | Идеографическое описание персонаж окружает из верхнего левого |
⿹ | И+2ff9 | Идеографическое описание персонаж окружающий справа |
⿺ | И+2ffa | Идеографическое описание персонаж окружает слева нижнюю часть |
| И+2ffd | Идеографическое описание персонаж окружает справа внизу |
⿻ | U+2ffb | Идеографическое описание символ наложено |
| U+2ffe | Идеографическое описание горизонтальное отражение персонажа |
| U+2fff | Идеографическое описание вращение символов |
Два дополнительных идеографических символов описаны разбросаны в других блоках Unicode. U+303E 〾 Идеографический индикатор вариации является официально идеографическим символом описания, но иногда используется в последовательностях идеографического описания.
Характер | Кодовая точка | Блокировать | Имя |
---|---|---|---|
〾 | U+303e | Символы CJK и пунктуация | Идеографический индикатор вариации |
| U+31EF | CJK Throkes | Идеографическое описание вычитание символов |
Эти последовательности полезны при описании читателю символа, который не доступен непосредственно, либо потому, что он отсутствует в данном шрифте, либо вообще отсутствует в стандарте Unicode. Например, пилолет персонаж Кодированный в Unified Ideographs Edension F -Edights F , как U+2DA21 𭨡 можно описать как ⿰書史 . Другое использование предназначено для целей поиска словаря, в качестве грубого метода ввода для запросов.
Эти последовательности могут быть отображены либо путем поддержания отдельных символов, либо путем анализа последовательности идеографического описания и рисования таким описанным идеографией. Они сами не обеспечивают однозначный рендеринг для всех персонажей. Например, последовательность ⿱十一 представляет как ⼟ «Земля» с более узкой средней панелью, а « ученый », а средняя планка шире.
Спецификация Unicode для этих последовательностей основана на символах и синтаксисе более раннего кодирования GBK . Дополнительные символы позже закодируются для заполнения недостающих комбинаций.
Бесплатный программный пакет IDSGREP от Мэтью Скала [ 2 ] [ 3 ] Extens Unicode Ids Syntax, чтобы включить дополнительные функции для поиска словаря; Он способен преобразовать базу данных Kanjivg в свой собственный формат расширенного идентификатора или поиск файлов EIDS, сгенерированных связанным семейством шрифтов Tsukurimashou.
Смотрите также
[ редактировать ]- Список радикалов Shuowen jiezi
- Список радикалов Кангси
- Список радикалов Unicode
- Метод ввода Cangjie
- Радикал
- Гладить
Ссылки
[ редактировать ]Цитаты
[ редактировать ]- ^ Bishop & Cook (2003c) , с. 2, 9.
- ^ «Idsgrep» , проект Tsukurimashou , 2024 год, архив из оригинала 7 февраля 2024 года.
- ^ Skala, Matthew (2015), «Структурная система запросов для персонажей Han» (PDF) , Международный журнал по обработке азиатского языка , Vol. 23, нет. 2, с. 127–159, Arxiv : 1404.5585 , архивировано из оригинала (PDF) на 2016-03-04 , извлечен 2016-01-13
Работы цитируются
[ редактировать ]- Руководство пользователя Wenlin , Wenlin Institute, 2015
- Епископ, Том; Кук, Ричард, спецификация CDL
- ———;; Кук, Ричард (2003), Язык описания персонажа (CDL): набор основных типов Unified CHJK (PDF)
- ———;; Кук, Ричард (2003), спецификация для языка описания символов CDL (PDF)
- ———;; Кук, Ричард (2003), Спецификация для CDL (PDF) , архивировано из оригинала (PDF) на 2016-04-05 , получено 2018-01-17
- ——— (2007), язык описания персонажа для CJK (PDF) , многоязычный, № 91, вып. 18, с. 62–68
- Cook, Richard (2003), языки описания китайского и персонажа (PDF)