Jump to content

Языки описания китайского иерите

Было предложено несколько систем для описания внутренней структуры китайских имен , включая их инсульты, компоненты и порядок инсульта , а также расположение каждого в идеальном квадрате персонажа. Эта информация полезна для определения вариантов символов, которые объединяются в одну кодовую точку Unicode и ISO/IEC 10646 , а также для обеспечения альтернативной формы представления для редких символов, которые еще не имеют стандартизированного кодирования в Unicode. Многие стремятся работать для обычного сценария , а также обеспечить внутреннюю структуру персонажа, которая может быть использована для облегчения поиска персонажа, индексируя внутренний макияж персонажа и перекрестные ссылки среди подобных символов.

Язык описания персонажа основанный на XML, (CDL)-это декларативный язык, созданный Томом Бишопом и Ричардом Куком для Института Венлина . Он определяет символы путем расположения компонентов, которые не требуются для отражения семантической или этимологической истории персонажа. Для того, чтобы компонент вписывался в выделенную часть квадрата всего персонажа, набор из менее чем 50 инсультов позволяет создать около 1000 компонентов, которые, в свою очередь, могут описать десятки тысяч символов. [ 1 ]

Идеографическое описание последовательностей

[ редактировать ]

Глава 18 Стандарта Unicode (версия 15.0) определяет синтаксис «идеографические последовательности описания» (IDS), используемый для описания символов в терминах фиксации, путем расположения компонентов с кодовыми точками. Шестнадцать специальных символов в диапазоне u+2ff0..u+2fff действуют как операторы префикса для объединения других символов или последовательностей для формирования более крупных символов.

Идеографическое описание символов в Unicode
Характер Номер символа Unicode Полное имя Unicode
U+2ff0 Идеографическое описание персонаж слева направо
U+2FF1 Идеографический описание символ выше к ниже
U + 2ff2 Идеографическое описание персонаж слева до середины и вправо
U+2ff3 Идеографическое описание символ выше до середины и ниже
U+2ff4 Идеографическое описание персонаж полная объем
U+2FF5 Идеографическое описание персонаж окружает сверху
U+2ff6 Идеографическое описание персонаж окружает ниже
U+2ff7 Идеографическое описание персонаж окружает слева
U+2ffc Идеографическое описание персонаж окружает справа
И+2ff8 Идеографическое описание персонаж окружает из верхнего левого
И+2ff9 Идеографическое описание персонаж окружающий справа
И+2ffa Идеографическое описание персонаж окружает слева нижнюю часть
И+2ffd Идеографическое описание персонаж окружает справа внизу
U+2ffb Идеографическое описание символ наложено
U+2ffe Идеографическое описание горизонтальное отражение персонажа
⿿ U+2fff Идеографическое описание вращение символов

Два дополнительных идеографических символов описаны разбросаны в других блоках Unicode. U+303E Идеографический индикатор вариации является официально идеографическим символом описания, но иногда используется в последовательностях идеографического описания.

Другое идеографическое описание символов в Unicode
Характер Кодовая точка Блокировать Имя
U+303e Символы CJK и пунктуация Идеографический индикатор вариации
U+31EF CJK Throkes Идеографическое описание вычитание символов

Эти последовательности полезны при описании читателю символа, который не доступен непосредственно, либо потому, что он отсутствует в данном шрифте, либо вообще отсутствует в стандарте Unicode. Например, пилолет персонаж Затянувшись Кодированный в Unified Ideographs Edension F -Edights F , как U+2DA21 𭨡 можно описать как ⿰書史 . Другое использование предназначено для целей поиска словаря, в качестве грубого метода ввода для запросов.

Эти последовательности могут быть отображены либо путем поддержания отдельных символов, либо путем анализа последовательности идеографического описания и рисования таким описанным идеографией. Они сами не обеспечивают однозначный рендеринг для всех персонажей. Например, последовательность ⿱十一 представляет как «Земля» с более узкой средней панелью, а « ученый », а средняя планка шире.

Спецификация Unicode для этих последовательностей основана на символах и синтаксисе более раннего кодирования GBK . Дополнительные символы позже закодируются для заполнения недостающих комбинаций.

Бесплатный программный пакет IDSGREP от Мэтью Скала [ 2 ] [ 3 ] Extens Unicode Ids Syntax, чтобы включить дополнительные функции для поиска словаря; Он способен преобразовать базу данных Kanjivg в свой собственный формат расширенного идентификатора или поиск файлов EIDS, сгенерированных связанным семейством шрифтов Tsukurimashou.

Смотрите также

[ редактировать ]
  1. ^ Bishop & Cook (2003c) , с. 2, 9.
  2. ^ «Idsgrep» , проект Tsukurimashou , 2024 год, архив из оригинала 7 февраля 2024 года.
  3. ^ Skala, Matthew (2015), «Структурная система запросов для персонажей Han» (PDF) , Международный журнал по обработке азиатского языка , Vol. 23, нет. 2, с. 127–159, Arxiv : 1404.5585 , архивировано из оригинала (PDF) на 2016-03-04 , извлечен 2016-01-13

Работы цитируются

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: eba7513b9d6526b50133aa717e647d05__1724342100
URL1:https://arc.ask3.ru/arc/aa/eb/05/eba7513b9d6526b50133aa717e647d05.html
Заголовок, (Title) документа по адресу, URL1:
Chinese character description languages - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)