Jump to content

Объединение характера

Кириллица U в сочетании с бреве дает ў .

В типографике цифровой комбинированные символы — это символы , предназначенные для изменения других символов. Наиболее распространённым сочетанием символов в латинице являются сочетание диакритических знаков (в том числе сочетание ударений ).

Юникод также содержит множество заранее составленных символов , так что во многих случаях можно использовать как сочетание диакритических знаков, так и предварительно составленных символов по выбору пользователя или приложения. Это приводит к требованию выполнить нормализацию Юникода перед сравнением двух строк Юникода и тщательно спроектировать преобразователи кодировки, чтобы правильно сопоставить все допустимые способы представления символа в Юникоде с устаревшей кодировкой, чтобы избежать потери данных. [1]

В Unicode основным блоком объединения диакритических знаков европейских языков и международного фонетического алфавита является U+0300–U+036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Юникода. В Юникоде диакритические знаки всегда добавляются после основного символа (в отличие от некоторых старых комбинируемых наборов символов, таких как ANSEL ), и к одному и тому же символу можно добавить несколько диакритических знаков, включая расположенные друг над другом диакритические знаки выше и ниже, хотя в некоторых системах это не так. сделайте это хорошо.

Диапазоны Юникода [ править ]

Следующие блоки посвящены именно объединению символов:

  • Объединение диакритических знаков (0300–036F), начиная с версии 1.0, с изменениями в последующих версиях до 4.1.
  • Расширенное объединение диакритических знаков (1AB0–1AFF), версия 7.0
  • Дополнение к комбинированным диакритическим знакам (1DC0–1DFF), версии с 4.1 по 5.2
  • Объединение диакритических знаков для символов (20D0–20FF), начиная с версии 1.0, с изменениями в последующих версиях до 5.1.
  • Кириллица расширенная-A (2DE0–2DFF), версия 5.1
  • Объединение половинных знаков (FE20–FE2F) версий 1.0 с изменениями в последующих версиях до 8.0.

Объединение символов не ограничивается этими блоками; например, комбинированный дакутен (U+3099) и комбинированный хандакутен (U+309A) находятся в блоке Хирагана , блок Деванагари содержит комбинированные знаки гласных и другие знаки для использования с этим письмом и т.д. Комбинирующим символам присваивается основная категория Юникода «M» («Знак»).

Объединение диакритических знаков [1]
Официальная таблица кодов Консорциума Unicode (PDF)
 0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
U + 030x ◌̀ ◌́ ◌̂ ◌̃ ◌̄ ◌̅ ◌̆ ◌̇ ◌̈ ◌̉ ◌̊ ◌̋ ◌̌ ◌̍ ◌̎ ◌̏
U + 031x ◌̐ ◌̑ ◌̒ ◌̓ ◌̔ ◌̕ ◌̖ ◌̗ ◌̘ ◌̙ ◌̚ ◌̛ ◌̜ ◌̝ ◌̞ ◌̟
U + 032x ◌̠ ◌̡ ◌̢ ◌̣ ◌̤ ◌̥ ◌̦ ◌̧ ◌̨ ◌̩ ◌̪ ◌̫ ◌̬ ◌̭ ◌̮ ◌̯
U + 033x ◌̰ ◌̱ ◌̲ ◌̳ ◌̴ ◌̵ ◌̶ ◌̷ ◌̸ ◌̹ ◌̺ ◌̻ ◌̼ ◌̽ ◌̾ ◌̿
U + 034x ◌̀ ◌́ ◌͂ ◌̓ ◌̈́ ◌ͅ ◌͆ ◌͇ ◌͈ ◌͉ ◌͊ ◌͋ ◌͌ ◌͍ ◌͎ CGJ
U + 035x ◌͐ ◌͑ ◌͒ ◌͓ ◌͔ ◌͕ ◌͖ ◌͗ ◌͘ ◌͙ ◌͚ ◌͛ ◌͜◌ ◌͝◌ ◌͞◌ ◌͟◌
U + 036x ◌͠◌ ◌͡◌ ◌͢◌ ◌ͣ ◌ͤ ◌ͥ ◌ͦ ◌ͧ ◌ͨ ◌ͩ ◌ͪ ◌ͫ ◌ͬ ◌ͭ ◌ͮ ◌ͯ
Примечания
1. ^ Начиная с версии Unicode 15.1.

Кодовые точки U+032A и U+0346–034A являются IPA символами :

Коды U + 034B – 034E являются диакритическими знаками IPA для неупорядоченной речи :

  • U + 034B ◌͋ : выход из носа
  • U + 034C ◌͌ : небно-глоточное трение
  • U + 034D ◌͍ : расширение губ.
  • U+034E ◌͎ : свистящая артикуляция

U + 034F представляет собой « объединяющее соединение графем » (CGJ) и не имеет видимого глифа.

Коды U+035C–0362 представляют собой двойные диакритические знаки , диакритические знаки, расположенные между двумя буквами.

Кодовые точки U + 0363–036F представляют собой средневековые диакритические знаки надстрочных букв, буквы, написанные непосредственно над другими буквами, встречающимися в средневековых германских рукописях, но в некоторых случаях использовавшиеся вплоть до 19 века. Например, U+0364 — это буква e , написанная над предыдущей буквой, которая будет использоваться для ( раннего ) нового верхненемецкого языка обозначения умлаута , например для современного немецкого ü .

Расширенное объединение диакритических знаков [1] [2]
Официальная таблица кодов Консорциума Unicode (PDF)
 0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
U + 1ABx ◌᪰ ◌᪱ ◌᪲ ◌᪳ ◌᪴ ◌᪵ ◌᪶ ◌᪷ ◌᪸ ◌᪹ ◌᪺ ◌᪻ ◌᪼ ◌᪽ ◌᪾ ◌ᪿ
U + 1ACx ◌ᫀ ◌᫁ ◌᫂ ◌᫃ ◌᫄ ◌᫅ ◌᫆ ◌᫇ ◌᫈ ◌᫉ ◌᫊ ◌᫋ ◌ᫌ ◌ᫍ ◌ᫎ
U + 1ADx
U+1AEx
U + 1AFx
Примечания
1. ^ Начиная с версии Unicode 15.1.
2. ^ Серые области обозначают неназначенные кодовые точки.
Дополнение к объединению диакритических знаков [1]
Официальная таблица кодов Консорциума Unicode (PDF)
 0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
U + 1DCx ◌᷀ ◌᷁ ◌᷂ ◌᷃ ◌᷄ ◌᷅ ◌᷆ ◌᷇ ◌᷈ ◌᷉ ◌᷊ ◌᷋ ◌᷌ ◌᷍ ◌᷎ ◌᷏
U + 1DDx ◌᷐ ◌᷑ ◌᷒ ◌ᷓ ◌ᷔ ◌ᷕ ◌ᷖ ◌ᷗ ◌ᷘ ◌ᷙ ◌ᷚ ◌ᷛ ◌ᷜ ◌ᷝ ◌ᷞ ◌ᷟ
U+1DEx ◌ᷠ ◌ᷡ ◌ᷢ ◌ᷣ ◌ᷤ ◌ᷥ ◌ᷦ ◌ᷧ ◌ᷨ ◌ᷩ ◌ᷪ ◌ᷫ ◌ᷬ ◌ᷭ ◌ᷮ ◌ᷯ
U + 1DFx ◌ᷰ ◌ᷱ ◌ᷲ ◌ᷳ ◌ᷴ ◌᷵ ◌᷶ ◌᷷ ◌᷸ ◌᷹ ◌᷺ ◌᷻ ◌᷼ ◌᷽ ◌᷾ ◌᷿
Примечания
1. ^ Начиная с версии Unicode 15.1.
Объединение диакритических знаков для символов [1] [2]
Официальная таблица кодов Консорциума Unicode (PDF)
 0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
U + 20Dx ◌⃐ ◌⃑ ◌⃒ ◌⃓ ◌⃔ ◌⃕ ◌⃖ ◌⃗ ◌⃘ ◌⃙ ◌⃚ ◌⃛ ◌⃜ ◌⃝ ◌⃞ ◌⃟
U + 20Ex ◌⃠ ◌⃡ ◌⃢ ◌⃣ ◌⃤ ◌⃥ ◌⃦ ◌⃧ ◌⃨ ◌⃩ ◌⃪ ◌⃫ ◌⃬ ◌⃭ ◌⃮ ◌⃯
U + 20Fx ◌⃰
Примечания
1. ^ Начиная с версии Unicode 15.1.
2. ^ Серые области обозначают неназначенные кодовые точки.
Объединение половинных оценок [1]
Официальная таблица кодов Консорциума Unicode (PDF)
 0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
U+FE2x ◌︠ ◌︡ ◌︢ ◌︣ ◌︤ ◌︥ ◌︦ ◌︧ ◌︨ ◌︩ ◌︪ ◌︫ ◌︬ ◌︭ ◌︮ ◌︯
Примечания
1. ^ Начиная с версии Unicode 15.1.

OpenType [ править ]

OpenType имеет «тег функции» ccmp для определения глифов, которые представляют собой композиции или разложения, включающие объединение символов, тег mark для определения положения объединения символов на базовом глифе и mkmk для расположения символов объединения друг с другом.

Текст Залго [ править ]

Предложение из текста Залго

Объединение символов использовалось для создания текста Zalgo , который представляет собой текст, который выглядит «испорченным» или «жутким» из-за чрезмерного использования объединения символов. Это приводит к тому, что текст расширяется вертикально, перекрывая другой текст. [2] Чаще всего это используется в контексте ужасов в Интернете . рендеринг обычно очень сложен Для большинства программ , поэтому метки объединения часто уменьшаются или полностью удаляются.

См. также [ править ]

Примечания [ править ]

  1. ^ Например, при преобразовании между windows-1258 и VISCII первый использует объединение диакритических знаков, в то время как второй имеет большой выбор заранее составленных символов, поэтому преобразователь, использующий простое сопоставление между значениями кода и кодовыми точками Unicode, будет искажать текст при преобразовании между ними.
  2. ^ Корпела, Юкка К. «Как работает текст Залго?» . Переполнение стека . Проверено 11 апреля 2019 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3b6511eeb8084faa15eabc0107b3d8e0__1717177020
URL1:https://arc.ask3.ru/arc/aa/3b/e0/3b6511eeb8084faa15eabc0107b3d8e0.html
Заголовок, (Title) документа по адресу, URL1:
Combining character - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)