Цифры в Юникоде
Цифра ) — это символ , (часто называемая числом в Юникоде обозначающий число. Десятичные цифры числа 0–9 широко используются в различных системах письма по всему миру, однако графемы, обозначающие десятичные цифры, сильно различаются. Поэтому Юникод включает в себя 22 различных набора графем для десятичных цифр, а также различные десятичные точки, разделители тысяч, отрицательные знаки и т. д. Юникод также включает в себя несколько недесятичных цифр, таких как эгейские цифры , римские цифры , счетные стержни , цифры майя , Клинописные цифры и древнегреческие цифры . Существует также большое количество типографских вариаций западных арабских цифр , предназначенных для специализированного математического использования и для совместимости с более ранними наборами символов, такими как ² или ②, и составными символами, такими как ½.
Цифры по числовому свойству
[ редактировать ]Юникод сгруппирован по числовому свойству, используемому в тексте, и имеет четыре значения числового типа. Во-первых, это тип «не число». Кроме того, существуют числа с десятичной системой счисления , обычно используемые в десятичных системах западного стиля (обычные 0–9), есть числа, которые не являются частью десятичной системы, такие как римские числа, и десятичные числа в типографском контексте, такие как числа в кружочке. Не отмечена нумерация глав типа «ABC».
[а] [б] ( Юникода свойство символа ) | Числовой тип||||
---|---|---|---|---|
Числовой тип | Код | Имеет числовое значение | Пример | Примечания |
Не числовой | <none> | Нет |
| Числовое значение="NaN" |
Десятичный | De | Да |
| Прямая цифра (десятичная система счисления ). Соответствует в обоих направлениях с общей категорией =Nd. [а] |
цифра | Di | Да |
| Десятичное число, но в типографском контексте |
Числовой | Nu | Да |
| Числовое значение, но не десятичное счисление |
а. ^ «Раздел 4.6: Числовое значение» (PDF) . Стандарт Юникод . Консорциум Юникод. Сентябрь 2022 г. | ||||
б. ^ «Производные числовые типы Unicode 15.1» . База данных символов Юникода . Консорциум Юникод. 05.01.2023. |
Шестнадцатеричные цифры
[ редактировать ]Шестнадцатеричные цифры в Юникоде не являются отдельными символами; используются существующие буквы и цифры. Эти персонажи имеют отмеченные свойства персонажа. Hex_digit=Yes
, и ASCII_Hex_digit=Yes
когда это уместно.
Символы в Юникоде отмечены Hex_Digit=Yes [а] | |||
---|---|---|---|
0123456789ABCDEF | Базовая латынь, заглавные буквы | Также ASCII_Hex_Digit=Yes | |
0123456789abcdef | Базовая латынь, строчные буквы | Также ASCII_Hex_Digit=Yes | |
0123456789ABCDEF | Полноширинные формы , прописные | ||
0123456789abcdef | Полноширинные формы, строчные буквы | ||
а. ^ «Unicode 15.1 UCD: PropList.txt» . 01.08.2023 . Проверено 12 сентября 2023 г. |
Цифры по сценарию
[ редактировать ]Индуистско-арабские цифры
[ редактировать ]Индо -арабская система счисления включает десять цифр, обозначающих 0–9. Юникод включает западные арабские цифры в блок базовой латиницы (или производной от ASCII). Цифры повторяются в нескольких других алфавитах: восточно-арабском , балийском, бенгальском, деванагари, эфиопском, гуджаратском, гурмукхи, телугу, кхмерском, лаосском, лимбу, малаялам, монгольском, мьянманском, нью-тай-лю, нко, ория, телугу, тайском, Тибетский, Османия. Юникод включает свойство числового значения для каждой цифры, которое помогает при сопоставлении и других операциях обработки текста. Однако между различными связанными цифрами нет сопоставления.
Хотя арабский язык пишется справа налево, а английский — слева направо, в обоих языках числа записываются так, что старшая цифра находится слева, а наименее значащая — справа.
Фракции
[ редактировать ]Символ косой черты дроби (U+2044) позволяет авторам, использующим Unicode, составлять любую произвольную дробь вместе с десятичными цифрами. Это было предназначено для того, чтобы указать рендерингу шрифта уменьшить окружающие цифры, поднять их слева и опустить справа, но это реализуется редко. (Обходным решением является использование символов верхнего и нижнего индекса, описанных ниже, но доступны только арабские цифры.) Unicode также включает несколько вульгарных дробей в качестве символов совместимости, но не рекомендует их использование.
Десятичные дроби
[ редактировать ]Несколько символов в Юникоде могут служить десятичным разделителем в зависимости от локали. Десятичные дроби представляются в тексте как последовательность десятичных цифр с десятичным разделителем, отделяющим целую часть от дробной части. Например, десятичная дробь ¼ выражается как ноль целых два целых пять («0,25»). В Unicode нет специального общего десятичного разделителя, но он объединяет функцию десятичного разделителя с другими символами пунктуации. Итак, "." в «0.25» используется тот же символ точки (U+002E), который используется для завершения предложения. Однако в разных культурах различаются глифы или графемы, используемые для десятичного разделителя. Поэтому в некоторых регионах вместо этого можно использовать запятую (U+002C): «0,25». В других локалях для «0 25» используется пробел (или неразрывный пробел). Арабская система письма включает специальный символ для десятичного разделителя, который очень похож на запятую «٫» (U + 066B), которая в сочетании с арабскими цифрами для обозначения одной четверти выглядит как: «٠٫٢٥».
Символы математических констант
[ редактировать ]В настоящее время три символа Юникода семантически представляют математические константы: U+210E ℎ ПОСТОЯННАЯ ПЛАНКА , U+210F ℏ ПОСТОЯННАЯ ПЛАНКА БОЛЬШЕ ДВУХ ПИ и U+2107 ℇ ПОСТОЯННАЯ ЭЙЛЕРА (неизвестного значения) [1] ). Другие математические константы могут быть представлены с помощью символов, которые имеют множество семантических применений. Например, хотя в Юникоде есть символ натуральной экспоненты ℯ (U+212F), его каноническое имя UCS происходит от его глифа: U+212F ℯ МАЛЕНЬКИЙ СЦЕНАРИЙ E ; а математическая константа π , 3,141592.., представлена выражением U+03C0 π ГРЕЧЕСКАЯ СТРОЧНАЯ БУКВА ПИ .
Форматированный текст и другие цифры совместимости
[ редактировать ]Западно-арабские цифры также появляются среди символов совместимости в виде вариантов форматированного текста, включая жирный шрифт, двойной штрих, моноширинный шрифт, шрифт без засечек и жирный шрифт без засечек, а также варианты полной ширины для поддержки устаревшего вертикального текста.
Форматированный текст в скобках, обведенный кружком и другие варианты также включены в блоки «Закрытые буквы CJK» и «Месяцы»; Закрытые буквенно-цифровые обозначения, верхние и нижние индексы; Числовые формы; и Дингбаты.
Сучжоу (хуама/Сужоу музи) цифры
[ редактировать ]Система хуаму ( упрощенный китайский : 花码 ; традиционный китайский : 花碼 ) / Сучжоу музи ( упрощенный китайский : 苏州码子 ; традиционный китайский : 蘇州碼字 ) является разновидностью стержневой системы счисления. Числительные стержни тесно связаны со счетными стержнями и счетами , поэтому числовые символы 1, 2, 3, 6, 7 и 8 в системе хуама представлены так же, как на счетах. В настоящее время система huāmǎ используется только для отображения цен на китайских рынках или в традиционных рукописных счетах.
Цифры цифр Сучжоу находятся в блоке символов и пунктуации CJK по адресам U + 3021 — U + 3029, U + 3007, U + 5341, U + 5344 и U + 5345. В Unicode 3.0 эти символы неправильно называются цифрами стиля Ханчжоу . В Unicode 4.0 была добавлена ошибка, в которой говорилось: [2]
Цифры Сучжоу (китайское su1zhou1ma3zi ) — это особые числовые формы, используемые торговцами для отображения цен на товары. Использование слова «ХАНЧЖОУ» в названиях является неправильным.
Все ссылки на «Ханчжоу» в стандарте Юникода были исправлены на «Сучжоу», за исключением самих имен символов, которые нельзя изменить после присвоения в соответствии с Политикой стабильности Юникода. [3] (Эта политика позволяет программному обеспечению использовать имена в качестве уникальных идентификаторов.)
Японские и корейские цифры
[ редактировать ]Древнегреческие цифры
[ редактировать ]Unicode обеспечивает поддержку нескольких вариантов греческих цифр , присвоенных дополнительной многоязычной плоскости от U+10140 до U+1018F. [4]
Аттические цифры использовались древними греками , возможно, с VII века до нашей эры . Они также были известны как иродианские цифры в рукописи II века , поскольку впервые были описаны Иродианом . Они также известны как акрофонические цифры , поскольку все используемые символы происходят от первых букв слов, которые они обозначают: «один», «пять», «десять», «сто», «тысяча» и «десять тысяч». . См. греческие цифры и акрофонию .
Десятичный | Символ | Греческая цифра |
---|---|---|
1 | я | ἴος или ἰός ( ios ) |
5 | П | пять (' пенте ) |
10 | Д | десять ( дека ) |
100 | ИЛИ | гекатон (' гекатон }) |
1000 | Х | тысяча ( хилиои ) |
10000 | М | μύριοι (мириои ) |
Древнегреческие числа [1] [2] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U + 1014x | 𐅀 | 𐅁 | 𐅂 | 𐅃 | 𐅄 | 𐅅 | 𐅆 | 𐅇 | 𐅈 | 𐅉 | 𐅊 | 𐅋 | 𐅌 | 𐅍 | 𐅎 | 𐅏 |
U + 1015x | 𐅐 | 𐅑 | 𐅒 | 𐅓 | 𐅔 | 𐅕 | 𐅖 | 𐅗 | 𐅘 | 𐅙 | 𐅚 | 𐅛 | 𐅜 | 𐅝 | 𐅞 | 𐅟 |
U + 1016x | 𐅠 | 𐅡 | 𐅢 | 𐅣 | 𐅤 | 𐅥 | 𐅦 | 𐅧 | 𐅨 | 𐅩 | 𐅪 | 𐅫 | 𐅬 | 𐅭 | 𐅮 | 𐅯 |
U + 1017x | 𐅰 | 𐅱 | 𐅲 | 𐅳 | 𐅴 | 𐅵 | 𐅶 | 𐅷 | 𐅸 | 𐅹 | 𐅺 | 𐅻 | 𐅼 | 𐅽 | 𐅾 | 𐅿 |
U + 1018x | 𐆀 | 𐆁 | 𐆂 | 𐆃 | 𐆄 | 𐆅 | 𐆆 | 𐆇 | 𐆈 | 𐆉 | 𐆊 | 𐆋 | 𐆌 | 𐆍 | 𐆎 | |
Примечания |
римские цифры
[ редактировать ]Римские цифры возникли в Древнем Риме , заимствованы из этрусских цифр . Система, использовавшаяся в классической античности, была слегка модифицирована в средние века, чтобы создать систему, которую мы используем сегодня. Он основан на определенных буквах, которым присваиваются значения в виде цифр.
Римские цифры сегодня обычно используются в нумерованных списках (в структурном формате), циферблатах, страницах, предшествующих основной части книги, трезвучиях аккордов в анализе музыки ( анализ римских цифр ), нумерации сиквелов фильмов и видеоигр, датах публикации книг, сменявшие друг друга политические лидеры или дети с одинаковыми именами, а также нумерация некоторых спортивных мероприятий, таких как Олимпийские игры или Суперкубок .
В Unicode есть ряд символов, специально обозначенных как римские цифры, как часть числовых форм. [5] диапазон от U+2160 до U+2188. Этот диапазон включает цифры как в верхнем, так и в нижнем регистре, а также предварительно комбинированные символы для чисел до 12 (Ⅻ или XII). Одной из причин существования предварительно комбинированных чисел является облегчение размещения многобуквенных чисел (например, VIII) на одной горизонтальной строке в вертикальном тексте на азиатском языке. Однако стандарт Unicode включает специальные кодовые точки римских цифр только для совместимости, заявляя, что «[для] большинства целей предпочтительнее составлять римские цифры из последовательностей соответствующих латинских букв». [6]
Кроме того, существуют персонажи для архаичных [5] формы 1000, 5000, 10 000, большая перевернутая C (Ɔ) , поздняя 6 (ↅ, аналогична греческой стигме : Ϛ), ранняя 50 (ↆ, похожа на стрелку вниз ↓⫝⊥ [7] ), 50 000 и 100 000. Маленькая перевернутая буква c, ↄ, предназначена не для использования в римских цифрах, а для использования в качестве строчной буквы Клавдия Ↄ.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Ценить [8] | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 50 | 100 | 500 | 1,000 |
U + 216x | Ⅰ | Ⅱ | Ⅲ | Ⅳ | Ⅴ | Ⅵ | Ⅶ | Ⅷ | Ⅸ | Ⅹ | Ⅺ | Ⅻ | Ⅼ | Ⅽ | Ⅾ | Ⅿ |
U + 217x | ⅰ | ⅱ | ⅲ | ⅳ | ⅴ | ⅵ | ⅶ | ⅷ | ⅸ | ⅹ | ⅺ | ⅻ | ⅼ | ⅽ | ⅾ | ⅿ |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | |
---|---|---|---|---|---|---|---|---|---|
Ценить | 1000 | 5000 | 10,000 | 100 | 100 | 6 | 50 | 50,000 | 100,000 |
U + 218x | ↀ | ↁ | ↂ | Ↄ | ↄ | ↅ | ↆ | ↇ | ↈ |
При использовании шрифтов Blackletter или рукописных римские цифры набираются римским шрифтом . Такие шрифты могут содержать римские цифры, соответствующие стилю шрифта в диапазоне Юникода U + 2160–217F; если их не существует, Antiqua для римских цифр используется соответствующий шрифт .
В Unicode есть символы римских дробей в древних символах. [9] блок: секстант, унция, семунция, секстула, полусекстула, стручок и ас.
Счет стержневых цифр
[ редактировать ]Цифры счетных стержней включены в отдельный блок в дополнительной многоязычной плоскости (SMP) начиная с Unicode 5.0. Существует девять «горизонтальных» цифр (от U+1D360 до U+1D368) и девять «вертикальных» цифр (от U+1D369 до U+1D371), горизонтальные цифры используются для нечетных степеней десяти, а вертикальные цифры для четных степеней. десять. Ноль должен быть представлен U+3007 (〇, идеографическое число ноль), а отрицательный знак должен быть представлен U+20E5 (сочетание наложения обратной косой черты). [10] Этот блок также содержит другие символы, похожие на счетные стержни, такие как хорошо известная отметка для 5 |||| . Поскольку они были недавно добавлены в набор символов и отсутствуют в BMP, поддержка шрифтов все еще может быть ограничена.
Подсчет стержневых цифр [1] [2] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U + 1D36x | 𝍠 | 𝍡 | 𝍢 | 𝍣 | 𝍤 | 𝍥 | 𝍦 | 𝍧 | 𝍨 | 𝍩 | 𝍪 | 𝍫 | 𝍬 | 𝍭 | 𝍮 | 𝍯 |
U + 1D37x | 𝍰 | 𝍱 | 𝍲 | 𝍳 | 𝍴 | 𝍵 | 𝍶 | 𝍷 | 𝍸 | |||||||
Примечания |
См. также
[ редактировать ]- Числовые формы (блок Unicode)
Ссылки
[ редактировать ]- ^ Неизвестно, какая это константа. В стандарте Xerox XCCS 353/046 просто написано «Эйлер».
- ^ Фрейтаг, Асмус; Рик Макгоуэн; Кен Уистлер (8 мая 2006 г.). «UTN № 27: Известные аномалии в именах символов Юникода» . Технические примечания . Консорциум Юникод . Проверено 13 июня 2008 г.
- ^ «Стабильность имени» . Политика стабильности кодировки символов Юникода . Консорциум Юникод. 28 февраля 2008 г. Проверено 13 июня 2008 г.
- ^ Диаграммы Unicode: древнегреческие числа
- ^ Перейти обратно: а б Числовые формы Юникода
- ^ Стандарт Unicode, версия 6.0 – электронное издание (PDF) , Unicode, Inc., 2011, стр. 486
- ^ Дэвид Дж. Перри: Предложение добавить дополнительных древнеримских персонажей в UCS
- ^ Для первых двух строк
- ^ Древние символы Юникода
- ^ Стандарт Unicode, версия 5.0 – Электронное издание (PDF) , Unicode, Inc., 2006, стр. 499–500.