Вариант формы (Юникод)
Вариантная форма — это альтернативный глиф символа, закодированный в Юникоде с помощью механизма вариационных последовательностей : последовательностей в Юникоде, состоящих из базового символа, за которым следует символ выбора варианта .
Вариантная форма обычно имеет очень похожий внешний вид и значение, что и ее базовая форма. Механизм предназначен для вариантных форм, где, как правило, если вариантная форма недоступна, отображение базового символа не меняет смысла текста и может даже быть незаметным для многих читателей.
Юникод определяет два типа последовательностей вариаций:
- Стандартизированные последовательности вариантов, определенные в StandardizedVariants.txt [1]
- Последовательности идеографических вариаций, определенные в базе данных идеографических вариаций (IVD). [2] [3]
Символы выбора варианта находятся в нескольких блоках Юникода:
- Селекторы вариантов (16 символов, сокращенно VS1–VS16)
- Дополнение к селекторам вариантов (240 символов, сокращенно VS17–VS256)
- Монгольский (4 символа, сокращенно FVS1–FVS4)
Селекторы вариантов не требуются для арабских и латинских курсивных символов, где замена глифов может происходить в зависимости от контекста: глифы могут быть связаны друг с другом в зависимости от того, является ли символ начальным символом в слове, конечным символом, средним символом или изолированным символом. характер. Эти типы замены глифов легко обрабатываются контекстом символа без участия других авторских данных. Авторы также могут использовать символы специального назначения, такие как соединяющие и не соединяющие, чтобы создать альтернативную форму глифа там, где в противном случае он не появился бы. Лигатуры — это аналогичные случаи, когда глифы можно заменить, просто включив или отключив лигатуры как атрибут форматированного текста .
При другой замене глифов намерение автора может потребоваться закодировать вместе с текстом и не может быть определено контекстуально. Так обстоит дело с символами/глифами, называемыми гайджи , где разные глифы используются для одного и того же символа либо исторически, либо для иероглифов фамилий. Это одна из серых зон в различении глифа и символа: если фамилия немного отличается от символа иероглифа, от которого она произошла, то является ли это простым вариантом глифа или вариантом символа?
Замены символов могут также происходить за пределами Юникода, например, с помощью тегов макета OpenType . [4]
Блоки со стандартизированными последовательностями вариаций
[ редактировать ]Начиная с версии Unicode 15.1, стандартизированные последовательности вариантов, специально предназначенные для представления смайлов/текста, определены для базовых символов в двадцати блоках: [1]
- Стрелки
- Базовая латынь
- Символы и пунктуация CJK
- Дингбаты
- Смайлики
- Прилагаемое буквенно-цифровое дополнение
- Закрытые буквы и цифры
- Прилагаемые письма и месяцы CJK
- Прилагаемое идеографическое дополнение
- Общая пунктуация
- Геометрические фигуры
- Дополнение Latin-1
- Буквальные символы
- Маджонг Плитки
- Разные символы
- Разные символы и стрелки
- Разные символы и пиктограммы
- Разное техническое
- Дополнительные стрелки-B
- Символы транспорта и карты
Другие стандартизированные последовательности вариантов формируются из базовых символов в следующих четырнадцати блоках: [1]
- Единые иероглифы CJK
- Расширение A унифицированных идеографов CJK
- Расширение B унифицированных иероглифов CJK
- Элементы управления форматом египетских иероглифов
- Египетские иероглифы
- Формы половинной и полной ширины
- манихейский
- Математические буквенно-цифровые символы
- Математические операторы
- Монгольский
- Мьянма
- Мьянма Расширенный-A
- Фагс-па
- Дополнительные математические операторы
Блоки с идеографическими вариационными последовательностями
[ редактировать ]По состоянию на 13 сентября 2022 г. [update], последовательности идеографических вариаций определены для базовых символов в девяти блоках: [2] [3]
- Иероглифы совместимости CJK
- Единые иероглифы CJK
- Расширение A унифицированных идеографов CJK
- Расширение B унифицированных иероглифов CJK
- Расширение CJK для унифицированных идеографов C
- Расширение D унифицированных иероглифов CJK
- Расширение E унифицированных иероглифов CJK
- Расширение унифицированных идеографов CJK F
- Расширение унифицированных иероглифов CJK H
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с «UCD: Стандартизированные вариационные последовательности» . Консорциум Юникод.
- ^ Jump up to: а б «База данных идеографических вариаций» . Консорциум Юникод.
- ^ Jump up to: а б «UTS # 37, База данных идеографических вариантов Юникода» . Консорциум Юникод.
- ^ «Теги языковой системы» . Майкрософт. 30 сентября 2022 г.