Повторяющиеся символы в Юникоде

Юникод имеет определенное количество дублирующихся символов . Это пары отдельных кодовых точек Юникода, которые канонически эквивалентны . Причиной этого являются проблемы совместимости с устаревшими системами.

Если два символа не являются канонически эквивалентными, они не являются «дубликатами» в узком смысле. Однако существуют разногласия относительно того, действительно ли два символа Юникода кодируют одну и ту же графему в таких случаях, как U+00B5 µ МИКРОЗНАК против U+03BC µ ГРЕЧЕСКАЯ СТРОЧНАЯ БУКВА MU .

Их следует четко отличать от символов Юникода, которые отображаются как идентичные глифы или почти идентичные глифы ( гомоглифы ), либо потому, что они исторически родственны (например, греческий Η и латинский H ), либо из-за случайного сходства (например, греческий Ρ и латинский H ). Латинская P , или греческая Η против кириллицы Н , или следующая семерка гомоглифов: астрономический символ «Солнца» ☉ , «оператор точки в кружке» ⊙ , готская буква 𐍈 , символ IPA для двугубного щелчка ʘ , осейджская буква. 𐓃, буква Тифинаг ⵙ и архаичная кириллическая буква Ꙩ ).

Дублирующийся и производный персонаж [ править ]

Целью Unicode является кодирование графем, а не отдельных «значений» («семантики») графем и не глифов .Должны ли такие символы получать отдельную кодировку при использовании в техническом контексте, например, греческие буквы, используемые в качестве математических символов, решается в каждом конкретном случае: таким образом, выбор иметь «микрознак » µ, отдельный от греческого µ, но не « Мегазнак », отдельный от латинского M, было прагматичным решением консорциума Unicode по историческим причинам (а именно, совместимости с Latin-1 , который включал микрознак). Технически µ и µ не являются повторяющимися символами, поскольку консорциум рассматривал эти символы как отдельные символы (в то время как M для «Мега» и латинское M считались одним и тем же символом).

Обратите внимание, что просто наличие разных «значений» не является достаточным основанием для разделения графемы на несколько символов: так, острый ударение может обозначать словесное ударение в валлийском или шведском языках, он может выражать качество гласных во французском языке и может выражать длину гласных в венгерском языке. , исландский или ирландский. Поскольку все эти языки написаны одним и тем же шрифтом , а именно латинским письмом , острый ударение в его различных значениях считается одним и тем же, сочетающим в себе диакритический символ (U + 0301), и поэтому ударная буква é является одним и тем же символом во французском и французском языках. Венгерский. Существует отдельный «комбинированный диакритический знак острого тона» в U + 0341 для латинизации тоновых языков, одно важное отличие от острого ударения заключается в том, что в таком языке, как французский, острый ударение может заменять точку над строчной буквой i, тогда как в таком языке, как вьетнамский, над точкой добавляется знак острого тона. Диакритические знаки для алфавитов, считающихся независимыми, могут кодироваться отдельно, например, акут («тонос») для греческого алфавита в U + 0384 и для армянского алфавита в U + 055B. Некоторые алфавиты на основе кириллицы (например, Русский ) также использует острый ударение, но нет отдельного «кириллического акцента», закодированного отдельно, и U + 0301 следует использовать как для кириллицы, так и для латиницы (см. Символы кириллицы в Unicode ). Тот факт, что одна и та же графема может иметь множество «значений», становится еще более очевидным, если принять во внимание, например, букву U , которая имеет совершенно разные фонематические референты в разных языках, которые используют ее в своей орфографии (английский /juː/, /ʊ/, /ʌ / и т. д., французский /y/ , немецкий /uː/, /u/ и т. д., не говоря уже о различных вариантах использования U в качестве символа ).

Проблемы совместимости [ править ]

Полноразмерные формы CJK [ править ]

В традиционных китайских кодировках символы обычно занимают либо один байт (известный как половинная ширина), либо два байта (известный как полная ширина). Символы, занимавшие один байт, обычно отображались с шириной вдвое меньшей, чем символы, занимавшие два байта. Некоторые символы, такие как латинский алфавит, были доступны как в половинной, так и в полной ширине. Поскольку версии половинной ширины использовались чаще, они, как правило, сопоставлялись со стандартными кодовыми точками для этих символов. Поэтому для полноширинных форм потребовался отдельный раздел, чтобы сохранить различие.

Буквенные символы [ править ]

В некоторых случаях определенные графемы приобрели специализированное символическое или техническое значение, отличное от их первоначальной функции. Ярким примером является греческая буква π , которая широко известна как символ математической константы длины окружности, разделенной на ее диаметр, даже людьми, не владеющими греческим языком.

Несколько вариантов всего греческого и латинского алфавитов, специально предназначенных для использования в качестве математических символов, закодированы в диапазоне математических буквенно-цифровых символов . Этот диапазон устраняет неоднозначность символов, которые обычно считаются вариантами шрифта, но кодируются отдельно из-за широкого использования вариантов шрифта (например, L вместо «скрипта L»). ℒ против «черной буквы L» 𝔏 против «жирной черной буквы L» 𝕷 ) как отличительные математические символы . Он предназначен для использования только в математических или технических обозначениях, а не в нетехническом тексте. ^[1]

Список [ править ]

U+1F549 🕉 О СИМВОЛЕ , U + 0950 ॐ ДЕВАНАГАРИ ОМ
U+212B ЗНАК АНГСТРОМА , U+00C5 Å ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A С КОЛЬЦОМ НАВЕРХУ
U+00B5 µ МИКРО ЗНАК , U+03BC µ ГРЕЧЕСКАЯ СТРОЧНАЯ БУКВА MU.
U+037E ; ГРЕЧЕСКИЙ ЗНАК ВОПРОСА , U + 003B ; Точка с запятой
U+212A К ЗНАК КЕЛЬВИНА , U + 004B K ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА K
U+2024 ․ ЛИДЕР ОДНОЙ ТОЧКИ , U + 002E . ПОЛНАЯ СТОП
U+2126 Ом ЗНАК ОМА , U+03A9 Ом ГРЕЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ОМЕГА
U+2236 ∶ ОТНОШЕНИЕ , U + 003A : Двоеточие

греческий [ править ]

Многие греческие буквы используются в качестве технических символов . Все греческие буквы закодированы в греческом разделе Юникода, но многие из них кодируются вторично под названием технического символа, который они представляют. « Микрознак » (U+00B5, µ), очевидно, унаследован от ISO 8859-1 , но происхождение остальных менее ясно.

Другие варианты греческих символов, закодированные как отдельные символы, включают полулунную сигму Ϲ ϲ, контрастирующую с Σ σ, конечную сигму ς (строго говоря, контекстуальный вариант глифа), контрастирующую с σ, цифровой символ Коппа Ϟ ϟ, контрастирующий с архаичным Ϙ ϙ.

Греческие буквы, которым присвоены отдельные кодовые точки «символов», включают буквоподобные символы ϐ , ϵ , ϑ , ϖ , ϱ , ϒ и φ (в отличие от β, ε, θ, π, ρ, Υ, φ); символ Ома Ω (в отличие от Ω); и математические операторы для произведения ∏ и суммы ∑ (в отличие от Π и Σ ).

Римские цифры [ править ]

В Юникоде имеется ряд символов, специально обозначенных как римские цифры , в диапазоне числовых форм от U+2160 до U+2183. Например, Roman 1988 ( MCMLXXXVIII ) можно альтернативно записать как ⅯⅭⅯⅬⅩⅩⅩⅧ . Этот диапазон включает в себя цифры как в верхнем, так и в нижнем регистре, а также предварительно комбинированные глифы для чисел до 12 ( Ⅻ для XII ), в основном предназначенные для циферблатов.

Предварительно объединенные глифы следует использовать только для обозначения отдельных чисел, где использование отдельных глифов нежелательно, а не для замены составных чисел. Например, можно объединить Ⅹ с Ⅰ , чтобы обозначить римскую цифру одиннадцать ( ⅩⅠ ), поэтому U+216A ( Ⅺ ) канонически эквивалентен ⅩⅠ . Такие символы также называются составными символами совместимости или разлагаемыми символами совместимости. Такие символы обычно не включались бы в стандарт Unicode, за исключением совместимости с другими существующими кодировками (см. Символы совместимости Unicode ). Целью было обеспечить простой перевод существующих кодировок в Unicode. Это усложняет переводы в противоположном направлении, поскольку несколько символов Юникода могут сопоставляться с одним символом в другой кодировке. Если не учитывать проблемы совместимости, единственными необходимыми символами будут: Ⅰ, Ⅴ, Ⅹ, Ⅼ, Ⅽ, Ⅾ, Ⅿ, ⅰ, ⅴ, ⅹ, ⅼ, ⅽ, ⅾ, ⅿ, ↀ, ↁ, ↂ, ↇ, ↈ и Ↄ ; все остальные римские цифры могут быть составлены из них.

См. также [ править ]

Ссылки [ править ]

^ «UTR № 25: Юникод и математика» . unicode.org . Проверено 4 марта 2024 г.

[1] «UTR № 25: Юникод и математика» . unicode.org . Проверено 4 марта 2024 г.

[1]