Объединение графемного соединения
Объединяющий соединитель графем (CGJ), U+034F ͏ ОБЪЕДИНЕНИЕ ГРАФЕМ — это символ Юникода , который не имеет видимого глифа и «по умолчанию игнорируется» приложениями. Его название неверное и не описывает его функцию: иероглиф не присоединяется к графемам. [1] Его цель — семантически разделить символы, которые не следует считать орграфами , а также заблокировать каноническое изменение порядка объединения знаков во время нормализации .
Например, в контексте венгерского языка соседние буквы c и s обычно считаются эквивалентными орграфу cs . Если они разделены CGJ, они будут рассматриваться как две отдельные графемы. Однако, в отличие от соединения нулевой ширины и подобных символов, CGJ не влияет на то, отображаются ли две буквы отдельно, в виде лигатуры или курсивом — поведение по умолчанию для этого определяется шрифтом. [2]
CGJ также необходим для сложных сценариев . Например, в большинстве случаев кантилляции на иврите с акцентом метег должен располагаться слева от точки гласной , и по умолчанию большинство систем отображения отображают его таким образом, даже если он напечатан перед гласной. Но в некоторых словах библейского иврита метег появляется справа от гласной, и чтобы система отображения правильно отобразила его справа, между метегом и гласной необходимо ввести CGJ. Сравнивать:
он | тот |
патах (гласная) | ַ |
метег | ֽ |
хе + патах + метег | тот |
хе + метег + патах | тот |
он + метег + CGJ + патах | ֽ͏ַ |
В случае нескольких последовательных объединений диакритических знаков промежуточный CGJ указывает, что они не должны подлежать каноническому изменению порядка. [2]
Напротив, « необъединитель нулевой ширины » (в U+200C в общем диапазоне пунктуации ) предотвращает превращение двух соседних символов в лигатуру.
Ссылки [ править ]
- ^ «UTN № 27: Известные аномалии в именах символов Юникода» .
- ^ Jump up to: Перейти обратно: а б «Стандарт Unicode, версия 6.0 – основная спецификация» (PDF) . www.unicode.org . Проверено 16 апреля 2020 г.