Объединение характера
В типографике цифровой комбинированные символы — это символы , предназначенные для изменения других символов. Наиболее распространённым сочетанием символов в латинице являются сочетание диакритических знаков (в том числе сочетание ударений ).
Юникод также содержит множество заранее составленных символов , так что во многих случаях можно использовать как сочетание диакритических знаков, так и предварительно составленных символов по выбору пользователя или приложения. Это приводит к требованию выполнить нормализацию Юникода перед сравнением двух строк Юникода и тщательно спроектировать преобразователи кодировки, чтобы правильно сопоставить все допустимые способы представления символа в Юникоде с устаревшей кодировкой, чтобы избежать потери данных. [1]
В Unicode основным блоком объединения диакритических знаков европейских языков и международного фонетического алфавита является U+0300–U+036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Юникода. В Юникоде диакритические знаки всегда добавляются после основного символа (в отличие от некоторых старых комбинируемых наборов символов, таких как ANSEL ), и к одному и тому же символу можно добавить несколько диакритических знаков, включая расположенные друг над другом диакритические знаки выше и ниже, хотя в некоторых системах это не так. сделайте это хорошо.
Диапазоны Юникода [ править ]
Следующие блоки посвящены именно объединению символов:
- Объединение диакритических знаков (0300–036F), начиная с версии 1.0, с изменениями в последующих версиях до 4.1.
- Расширенное объединение диакритических знаков (1AB0–1AFF), версия 7.0
- Дополнение к комбинированным диакритическим знакам (1DC0–1DFF), версии с 4.1 по 5.2
- Объединение диакритических знаков для символов (20D0–20FF), начиная с версии 1.0, с изменениями в последующих версиях до 5.1.
- Кириллица расширенная-A (2DE0–2DFF), версия 5.1
- Объединение половинных знаков (FE20–FE2F) версий 1.0 с изменениями в последующих версиях до 8.0.
Объединение символов не ограничивается этими блоками; например, комбинированный дакутен (U+3099) и комбинированный хандакутен (U+309A) находятся в блоке Хирагана , блок Деванагари содержит комбинированные знаки гласных и другие знаки для использования с этим письмом и т.д. Комбинирующим символам присваивается основная категория Юникода «M» («Знак»).
Объединение диакритических знаков [1] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U + 030x | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̅ | ◌̆ | ◌̇ | ◌̈ | ◌̉ | ◌̊ | ◌̋ | ◌̌ | ◌̍ | ◌̎ | ◌̏ |
U + 031x | ◌̐ | ◌̑ | ◌̒ | ◌̓ | ◌̔ | ◌̕ | ◌̖ | ◌̗ | ◌̘ | ◌̙ | ◌̚ | ◌̛ | ◌̜ | ◌̝ | ◌̞ | ◌̟ |
U + 032x | ◌̠ | ◌̡ | ◌̢ | ◌̣ | ◌̤ | ◌̥ | ◌̦ | ◌̧ | ◌̨ | ◌̩ | ◌̪ | ◌̫ | ◌̬ | ◌̭ | ◌̮ | ◌̯ |
U + 033x | ◌̰ | ◌̱ | ◌̲ | ◌̳ | ◌̴ | ◌̵ | ◌̶ | ◌̷ | ◌̸ | ◌̹ | ◌̺ | ◌̻ | ◌̼ | ◌̽ | ◌̾ | ◌̿ |
U + 034x | ◌̀ | ◌́ | ◌͂ | ◌̓ | ◌̈́ | ◌ͅ | ◌͆ | ◌͇ | ◌͈ | ◌͉ | ◌͊ | ◌͋ | ◌͌ | ◌͍ | ◌͎ | CGJ |
U + 035x | ◌͐ | ◌͑ | ◌͒ | ◌͓ | ◌͔ | ◌͕ | ◌͖ | ◌͗ | ◌͘ | ◌͙ | ◌͚ | ◌͛ | ◌͜◌ | ◌͝◌ | ◌͞◌ | ◌͟◌ |
U + 036x | ◌͠◌ | ◌͡◌ | ◌͢◌ | ◌ͣ | ◌ͤ | ◌ͥ | ◌ͦ | ◌ͧ | ◌ͨ | ◌ͩ | ◌ͪ | ◌ͫ | ◌ͬ | ◌ͭ | ◌ͮ | ◌ͯ |
Примечания
|
Кодовые точки U+032A и U+0346–034A являются IPA символами :
- U + 032A ◌̪ : стоматология
- U+0346 ◌͆ : зубогубный
- U+0347 ◌͇ : альвеолярный
- U+0348 ◌͈ : сильная артикуляция
- U+0349 ◌͉ : слабая артикуляция
- U+034A ◌͊ : денасал
Коды U + 034B – 034E являются диакритическими знаками IPA для неупорядоченной речи :
- U + 034B ◌͋ : выход из носа
- U + 034C ◌͌ : небно-глоточное трение
- U + 034D ◌͍ : расширение губ.
- U+034E ◌͎ : свистящая артикуляция
U + 034F представляет собой « объединяющее соединение графем » (CGJ) и не имеет видимого глифа.
Коды U+035C–0362 представляют собой двойные диакритические знаки , диакритические знаки, расположенные между двумя буквами.
Кодовые точки U + 0363–036F представляют собой средневековые диакритические знаки надстрочных букв, буквы, написанные непосредственно над другими буквами, встречающимися в средневековых германских рукописях, но в некоторых случаях использовавшиеся вплоть до 19 века. Например, U+0364 — это буква e , написанная над предыдущей буквой, которая будет использоваться для ( раннего ) нового верхненемецкого языка обозначения умлаута , например uͤ для современного немецкого ü .
Расширенное объединение диакритических знаков [1] [2] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U + 1ABx | ◌᪰ | ◌᪱ | ◌᪲ | ◌᪳ | ◌᪴ | ◌᪵ | ◌᪶ | ◌᪷ | ◌᪸ | ◌᪹ | ◌᪺ | ◌᪻ | ◌᪼ | ◌᪽ | ◌᪾ | ◌ᪿ |
U + 1ACx | ◌ᫀ | ◌᫁ | ◌᫂ | ◌᫃ | ◌᫄ | ◌᫅ | ◌᫆ | ◌᫇ | ◌᫈ | ◌᫉ | ◌᫊ | ◌᫋ | ◌ᫌ | ◌ᫍ | ◌ᫎ | |
U + 1ADx | ||||||||||||||||
U+1AEx | ||||||||||||||||
U + 1AFx | ||||||||||||||||
Примечания |
Дополнение к объединению диакритических знаков [1] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U + 1DCx | ◌᷀ | ◌᷁ | ◌᷂ | ◌᷃ | ◌᷄ | ◌᷅ | ◌᷆ | ◌᷇ | ◌᷈ | ◌᷉ | ◌᷊ | ◌᷋ | ◌᷌ | ◌᷍ | ◌᷎ | ◌᷏ |
U + 1DDx | ◌᷐ | ◌᷑ | ◌᷒ | ◌ᷓ | ◌ᷔ | ◌ᷕ | ◌ᷖ | ◌ᷗ | ◌ᷘ | ◌ᷙ | ◌ᷚ | ◌ᷛ | ◌ᷜ | ◌ᷝ | ◌ᷞ | ◌ᷟ |
U+1DEx | ◌ᷠ | ◌ᷡ | ◌ᷢ | ◌ᷣ | ◌ᷤ | ◌ᷥ | ◌ᷦ | ◌ᷧ | ◌ᷨ | ◌ᷩ | ◌ᷪ | ◌ᷫ | ◌ᷬ | ◌ᷭ | ◌ᷮ | ◌ᷯ |
U + 1DFx | ◌ᷰ | ◌ᷱ | ◌ᷲ | ◌ᷳ | ◌ᷴ | ◌᷵ | ◌᷶ | ◌᷷ | ◌᷸ | ◌᷹ | ◌᷺ | ◌᷻ | ◌᷼ | ◌᷽ | ◌᷾ | ◌᷿ |
Примечания
|
Объединение диакритических знаков для символов [1] [2] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U + 20Dx | ◌⃐ | ◌⃑ | ◌⃒ | ◌⃓ | ◌⃔ | ◌⃕ | ◌⃖ | ◌⃗ | ◌⃘ | ◌⃙ | ◌⃚ | ◌⃛ | ◌⃜ | ◌⃝ | ◌⃞ | ◌⃟ |
U + 20Ex | ◌⃠ | ◌⃡ | ◌⃢ | ◌⃣ | ◌⃤ | ◌⃥ | ◌⃦ | ◌⃧ | ◌⃨ | ◌⃩ | ◌⃪ | ◌⃫ | ◌⃬ | ◌⃭ | ◌⃮ | ◌⃯ |
U + 20Fx | ◌⃰ | |||||||||||||||
Примечания |
Объединение половинных оценок [1] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U+FE2x | ◌︠ | ◌︡ | ◌︢ | ◌︣ | ◌︤ | ◌︥ | ◌︦ | ◌︧ | ◌︨ | ◌︩ | ◌︪ | ◌︫ | ◌︬ | ◌︭ | ◌︮ | ◌︯ |
Примечания
|
OpenType [ править ]
OpenType имеет «тег функции» ccmp для определения глифов, которые представляют собой композиции или разложения, включающие объединение символов, тег mark для определения положения объединения символов на базовом глифе и mkmk для расположения символов объединения друг с другом.
Текст Залго [ править ]
Объединение символов использовалось для создания текста Zalgo , который представляет собой текст, который выглядит «испорченным» или «жутким» из-за чрезмерного использования объединения символов. Это приводит к тому, что текст расширяется вертикально, перекрывая другой текст. [2] Чаще всего это используется в контексте ужасов в Интернете . рендеринг обычно очень сложен Для большинства программ , поэтому метки объединения часто уменьшаются или полностью удаляются.
См. также [ править ]
- Пунктирный круг
- Мертвый ключ
- Буквы-модификаторы пробела , которые не следует объединять (хотя они ошибочно сочетаются в некоторых реализациях, где разработчик путает «объединение» с «модификатором»)
Примечания [ править ]
- ^ Например, при преобразовании между windows-1258 и VISCII первый использует объединение диакритических знаков, в то время как второй имеет большой выбор заранее составленных символов, поэтому преобразователь, использующий простое сопоставление между значениями кода и кодовыми точками Unicode, будет искажать текст при преобразовании между ними.
- ^ Корпела, Юкка К. «Как работает текст Залго?» . Переполнение стека . Проверено 11 апреля 2019 г.
Внешние ссылки [ править ]
- Таблица объединения диакритических знаков (в формате Adobe PDF )
- Таблица дополнений к комбинированным диакритическим знакам (в формате Adobe PDF )
- Тестовая страница совмещения оценок, обращенная к комбинированным и заранее составленным буквам
- Ресурсы Юникода Алана Вуда
- DecodeUnicode.org Справочник по объединению диакритических знаков