~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 38A0EBB78BEACF5CA369F8991777F10E__1713809040 ✰
Заголовок документа оригинал.:
✰ Duplicate characters in Unicode - Wikipedia ✰
Заголовок документа перевод.:
✰ Повторяющиеся символы в Юникоде — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Duplicate_characters_in_Unicode ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/38/0e/38a0ebb78beacf5ca369f8991777f10e.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/38/0e/38a0ebb78beacf5ca369f8991777f10e__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 18:21:55 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 22 April 2024, at 21:04 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Повторяющиеся символы в Юникоде — Википедия Jump to content

Повторяющиеся символы в Юникоде

Из Википедии, бесплатной энциклопедии

Юникод имеет определенное количество дублирующихся символов . Это пары отдельных кодовых точек Юникода, которые канонически эквивалентны . Причиной этого являются проблемы совместимости с устаревшими системами.

Если два символа не являются канонически эквивалентными, они не являются «дубликатами» в узком смысле. Однако существуют разногласия относительно того, действительно ли два символа Юникода кодируют одну и ту же графему в таких случаях, как U+00B5 µ МИКРО ЗНАК против U+03BC μ ГРЕЧЕСКАЯ СТРОЧНАЯ БУКВА MU .

Их следует четко отличать от символов Юникода, которые отображаются как идентичные глифы или почти идентичные глифы ( гомоглифы ), либо потому, что они исторически родственны (например, греческий Η против латинского H ), либо из-за случайного сходства (например, греческий Ρ против латинского H). Латинская P , или греческая Η против кириллицы Н , или следующая семерка гомоглифов: астрономический символ «Солнца» , «оператор точки в кружке» , готская буква 𐍈 , символ IPA для двугубного щелчка ʘ , осейджская буква. 𐓃, тифинагская буква ⵙ и архаичная кириллическая буква ).

Дублирующийся и производный персонаж [ править ]

Целью Unicode является кодирование графем, а не отдельных «значений» («семантики») графем и не глифов . Вопрос о том, должны ли такие символы получать отдельную кодировку при использовании в техническом контексте, является вопросом каждого конкретного случая, например, греческие буквы, используемые в качестве математических символов: таким образом, выбор иметь « микрознак » µ, отдельный от греческого µ, но не « Мегазнак », отдельный от латинского M, было прагматичным решением консорциума Unicode по историческим причинам (а именно, совместимости с Latin-1 , который включал микрознак). Технически µ и µ не являются повторяющимися символами, поскольку консорциум рассматривал эти символы как отдельные символы (в то время как M для «Мега» и латинское M считались одним и тем же символом).

Обратите внимание, что простое наличие разных «значений» не является достаточным основанием для разделения графемы на несколько символов: так, острый ударение может обозначать словесное ударение в валлийском или шведском языках, оно может выражать качество гласных во французском языке и может выражать длину гласных в венгерском языке. , исландский или ирландский. Поскольку все эти языки написаны одним и тем же шрифтом , а именно латинским письмом , острый ударение в его различных значениях считается одним и тем же, сочетающим в себе диакритический символ (U + 0301), и поэтому ударная буква é является одним и тем же символом во французском и французском языках. Венгерский язык. Существует отдельный «комбинированный диакритический знак острого тона» в U + 0341 для латинизации тоновых языков, одно важное отличие от острого ударения заключается в том, что в таком языке, как французский, острый ударение может заменять точку над строчной буквой i, тогда как в таком языке, как вьетнамский, над точкой добавляется знак острого тона. Диакритические знаки для алфавитов, считающихся независимыми, могут кодироваться отдельно, например, акут («тонос») для греческого алфавита в U + 0384 и для армянского алфавита в U + 055B. Некоторые алфавиты на основе кириллицы (например, Русский ) также использует острый ударение, но нет отдельного «кириллического акцента», закодированного отдельно, и U + 0301 следует использовать как для кириллицы, так и для латиницы (см. Символы кириллицы в Unicode ). Тот факт, что одна и та же графема может иметь множество «значений», становится еще более очевидным, если принять во внимание, например, букву U , которая имеет совершенно разные фонематические референты в разных языках, использующих ее в своей орфографии (английском /juː/, /ʊ/, /ʌ / и т. д., французский /y/ , немецкий /uː/, /u/ и т. д., не говоря уже о различных вариантах использования U в качестве символа ).

Проблемы совместимости [ править ]

Полноразмерные формы CJK [ править ]

В традиционных китайских кодировках символы обычно занимают либо один байт (известный как половинная ширина), либо два байта (известный как полная ширина). Символы, занимавшие один байт, обычно отображались с шириной вдвое меньшей, чем символы, занимавшие два байта. Некоторые символы, такие как латинский алфавит, были доступны как в половинной, так и в полной ширине. Поскольку версии половинной ширины использовались чаще, они, как правило, сопоставлялись со стандартными кодовыми точками для этих символов. Поэтому для полноширинных форм потребовался отдельный раздел, чтобы сохранить различие.

Буквенные символы [ править ]

В некоторых случаях определенные графемы приобрели специализированное символическое или техническое значение, отличное от их первоначальной функции. Ярким примером является греческая буква π , которая широко известна как символ математической константы длины окружности, разделенной на ее диаметр, даже людьми, не владеющими греческим языком.

Несколько вариантов всего греческого и латинского алфавитов, специально предназначенных для использования в качестве математических символов, закодированы в математических буквенно-цифровых символов диапазоне . Этот диапазон устраняет неоднозначность символов, которые обычно считаются вариантами шрифта, но кодируются отдельно из-за широкого использования вариантов шрифта (например, L вместо «скрипта L»). против «черной буквы L» 𝔏 против «жирной черной буквы L» 𝕷 ) как отличительные математические символы . Он предназначен для использования только в математических или технических обозначениях, а не в нетехническом тексте. [1]

Список [ править ]

греческий [ править ]

Многие греческие буквы используются в качестве технических символов . Все греческие буквы закодированы в греческом разделе Юникода, но многие из них кодируются вторично под названием технического символа, который они представляют. « Микрознак » (U+00B5, µ), очевидно, унаследован от ISO 8859-1 , но происхождение остальных менее ясно.

Другие варианты греческих символов, закодированные как отдельные символы, включают полулунную сигму Ϲ ϲ, контрастирующую с Σ σ, конечную сигму ς (строго говоря, контекстуальный вариант глифа), контрастирующую с σ, цифровой символ Коппа Ϟ ϟ, контрастирующий с архаичным Ϙ ϙ.

Греческие буквы, которым присвоены отдельные кодовые точки «символов», включают буквоподобные символы ϐ , ϵ , ϑ , ϖ , ϱ , ϒ и φ (в отличие от β, ε, θ, π, ρ, Υ, φ); символ Ома Ω (в отличие от Ω); и математические операторы для произведения и суммы (в отличие от Π и Σ ).

Римские цифры [ править ]

В Юникоде есть ряд символов, специально обозначенных как римские цифры , в диапазоне числовых форм от U+2160 до U+2183. Например, Roman 1988 ( MCMLXXXVIII ) можно альтернативно записать как ⅯⅭⅯⅬⅩⅩⅩⅧ . Этот диапазон включает в себя цифры как в верхнем, так и в нижнем регистре, а также предварительно комбинированные глифы для чисел до 12 ( для XII ), в основном предназначенные для циферблатов.

Предварительно комбинированные глифы следует использовать только для обозначения отдельных чисел, где использование отдельных глифов нежелательно, а не для замены составных чисел. Например, можно объединить с , чтобы обозначить римскую цифру одиннадцать ( ⅩⅠ ), поэтому U+216A ( ) канонически эквивалентен ⅩⅠ . Такие символы также называются составными символами совместимости или разлагаемыми символами совместимости. Такие символы обычно не включались бы в стандарт Unicode, за исключением совместимости с другими существующими кодировками (см. Символы совместимости Unicode ). Целью было обеспечить простой перевод существующих кодировок в Unicode. Это усложняет переводы в противоположном направлении, поскольку несколько символов Юникода могут сопоставляться с одним символом в другой кодировке. Если не учитывать проблемы совместимости, единственными необходимыми символами будут: Ⅰ, Ⅴ, Ⅹ, Ⅼ, Ⅽ, Ⅾ, Ⅿ, ⅰ, ⅴ, ⅹ, ⅼ, ⅽ, ⅾ, ⅿ, ↀ, ↁ, ↂ, ↇ, ↈ и Ↄ ; все остальные римские цифры могут быть составлены из них.

См. также [ править ]

Ссылки [ править ]

  1. ^ «UTR № 25: Юникод и математика» . unicode.org . Проверено 4 марта 2024 г.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 38A0EBB78BEACF5CA369F8991777F10E__1713809040
URL1:https://en.wikipedia.org/wiki/Duplicate_characters_in_Unicode
Заголовок, (Title) документа по адресу, URL1:
Duplicate characters in Unicode - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)