Цифры в Юникоде

Цифра ) — это символ , (часто называемая числом в Юникоде обозначающий число. Десятичные цифры числа 0–9 широко используются в различных системах письма по всему миру, однако графемы, обозначающие десятичные цифры, сильно различаются. Поэтому Юникод включает в себя 22 различных набора графем для десятичных цифр, а также различные десятичные точки, разделители тысяч, отрицательные знаки и т. д. Юникод также включает в себя несколько недесятичных цифр, таких как эгейские цифры , римские цифры , счетные стержни , цифры майя , Клинописные цифры и древнегреческие цифры . Существует также большое количество типографских вариаций западных арабских цифр , предназначенных для специализированного математического использования и для совместимости с более ранними наборами символов, такими как ² или ②, и составными символами, такими как ½.

Цифры по числовому свойству

Юникод сгруппирован по числовому свойству, используемому в тексте, и имеет четыре значения числового типа. Во-первых, это тип «не число». Кроме того, существуют числа с десятичной системой счисления , обычно используемые в десятичных системах западного стиля (обычные 0–9), есть числа, которые не являются частью десятичной системы, такие как римские числа, и десятичные числа в типографском контексте, такие как числа в кружочке. Не отмечена нумерация глав типа «ABC».

v т и Числовой тип ^[а]^[б] ( Юникода свойство символа )
Числовой тип	Код	Имеет числовое значение	Пример	Примечания
Не числовой	`<none>`	Нет	А Х (латиница) ! Д м к	Числовое значение="NaN"
Десятичный	`De`	Да	0 1 9 ६ (Деванагари 6) ೬ (Каннада 6) 𝟨 (математический стиль без засечек)	Прямая цифра (десятичная система счисления ). Соответствует в обоих направлениях с общей категорией =Nd. ^[а]
цифра	`Di`	Да	¹ (верхний индекс) ① ⒈ (цифра с точкой)	Десятичное число, но в типографском контексте
Числовой	`Nu`	Да	¾ ௰ (тамильское число десять) Ⅹ (римская цифра) 六 (Хан номер 6)	Числовое значение, но не десятичное счисление
а. ^ «Раздел 4.6: Числовое значение» (PDF) . Стандарт Юникод . Консорциум Юникод. Сентябрь 2022 г.
б. ^ «Производные числовые типы Unicode 15.1» . База данных символов Юникода . Консорциум Юникод. 05.01.2023.

Шестнадцатеричные цифры

Шестнадцатеричные цифры в Юникоде не являются отдельными символами; используются существующие буквы и цифры. Эти персонажи имеют отмеченные свойства персонажа. Hex_digit=Yes, и ASCII_Hex_digit=Yes когда это уместно.

Символы в Юникоде отмечены `Hex_Digit=Yes`^[а]
`0123456789ABCDEF`	Базовая латынь, заглавные буквы	Также `ASCII_Hex_Digit=Yes`
`0123456789abcdef`	Базовая латынь, строчные буквы	Также `ASCII_Hex_Digit=Yes`
`０１２３４５６７８９ＡＢＣＤＥＦ`	Полноширинные формы , прописные
`０１２３４５６７８９ａｂｃｄｅｆ`	Полноширинные формы, строчные буквы
а. ^ «Unicode 15.1 UCD: PropList.txt» . 01.08.2023 . Проверено 12 сентября 2023 г.

Цифры по сценарию

Индуистско-арабские цифры

Индо -арабская система счисления включает десять цифр, обозначающих 0–9. Юникод включает западные арабские цифры в блок базовой латиницы (или производной от ASCII). Цифры повторяются в нескольких других алфавитах: восточно-арабском , балийском, бенгальском, деванагари, эфиопском, гуджаратском, гурмукхи, телугу, кхмерском, лаосском, лимбу, малаялам, монгольском, мьянманском, нью-тай-лю, нко, ория, телугу, тайском, Тибетский, Османия. Юникод включает свойство числового значения для каждой цифры, которое помогает при сопоставлении и других операциях обработки текста. Однако между различными связанными цифрами нет сопоставления.

Хотя арабский язык пишется справа налево, а английский — слева направо, в обоих языках числа записываются так, что старшая цифра находится слева, а наименее значащая — справа.

Фракции

Символ косой черты дроби (U+2044) позволяет авторам, использующим Unicode, составлять любую произвольную дробь вместе с десятичными цифрами. Это было предназначено для того, чтобы указать рендерингу шрифта уменьшить окружающие цифры, поднять их слева и опустить справа, но это реализуется редко. (Обходным решением является использование символов верхнего и нижнего индекса, описанных ниже, но доступны только арабские цифры.) Unicode также включает несколько вульгарных дробей в качестве символов совместимости, но не рекомендует их использование.

Десятичные дроби

Несколько символов в Юникоде могут служить десятичным разделителем в зависимости от локали. Десятичные дроби представляются в тексте как последовательность десятичных цифр с десятичным разделителем, отделяющим целую часть от дробной части. Например, десятичная дробь ¼ выражается как ноль целых два целых пять («0,25»). В Unicode нет специального общего десятичного разделителя, но он объединяет функцию десятичного разделителя с другими символами пунктуации. Итак, "." в «0.25» используется тот же символ точки (U+002E), который используется для завершения предложения. Однако в разных культурах различаются глифы или графемы, используемые для десятичного разделителя. Поэтому в некоторых регионах вместо этого можно использовать запятую (U+002C): «0,25». В других локалях для «0 25» используется пробел (или неразрывный пробел). Арабская система письма включает специальный символ для десятичного разделителя, который очень похож на запятую «٫» (U + 066B), которая в сочетании с арабскими цифрами для обозначения одной четверти выглядит как: «٠٫٢٥».

Символы математических констант

В настоящее время три символа Юникода семантически представляют математические константы: U+210E ℎ ПОСТОЯННАЯ ПЛАНКА , U+210F ℏ ПОСТОЯННАЯ ПЛАНКА БОЛЬШЕ ДВУХ ПИ и U+2107 ℇ ПОСТОЯННАЯ ЭЙЛЕРА (неизвестного значения) ^[1]). Другие математические константы могут быть представлены с помощью символов, которые имеют множество семантических применений. Например, хотя в Юникоде есть символ натуральной экспоненты ℯ (U+212F), его каноническое имя UCS происходит от его глифа: U+212F ℯ МАЛЕНЬКИЙ СЦЕНАРИЙ E ; а математическая константа π , 3,141592.., представлена выражением U+03C0 π ГРЕЧЕСКАЯ СТРОЧНАЯ БУКВА ПИ .

Форматированный текст и другие цифры совместимости

Западно-арабские цифры также появляются среди символов совместимости в виде вариантов форматированного текста, включая жирный шрифт, двойной штрих, моноширинный шрифт, шрифт без засечек и жирный шрифт без засечек, а также варианты полной ширины для поддержки устаревшего вертикального текста.

Форматированный текст в скобках, обведенный кружком и другие варианты также включены в блоки «Закрытые буквы CJK» и «Месяцы»; Закрытые буквенно-цифровые обозначения, верхние и нижние индексы; Числовые формы; и Дингбаты.

Сучжоу (хуама/Сужоу музи) цифры

Система хуаму ( упрощенный китайский : 花码 ; традиционный китайский : 花碼 ) / Сучжоу музи ( упрощенный китайский : 苏州码子 ; традиционный китайский : 蘇州碼字 ) является разновидностью стержневой системы счисления. Числительные стержни тесно связаны со счетными стержнями и счетами , поэтому числовые символы 1, 2, 3, 6, 7 и 8 в системе хуама представлены так же, как на счетах. В настоящее время система huāmǎ используется только для отображения цен на китайских рынках или в традиционных рукописных счетах.

Цифры цифр Сучжоу находятся в блоке символов и пунктуации CJK по адресам U + 3021 — U + 3029, U + 3007, U + 5341, U + 5344 и U + 5345. В Unicode 3.0 эти символы неправильно называются цифрами стиля Ханчжоу . В Unicode 4.0 была добавлена ошибка, в которой говорилось: ^[2]

Цифры Сучжоу (китайское su1zhou1ma3zi ) — это особые числовые формы, используемые торговцами для отображения цен на товары. Использование слова «ХАНЧЖОУ» в названиях является неправильным.

Все ссылки на «Ханчжоу» в стандарте Юникода были исправлены на «Сучжоу», за исключением самих имен символов, которые нельзя изменить после присвоения в соответствии с Политикой стабильности Юникода. ^[3] (Эта политика позволяет программному обеспечению использовать имена в качестве уникальных идентификаторов.)

Японские и корейские цифры

Древнегреческие цифры

Unicode обеспечивает поддержку нескольких вариантов греческих цифр , присвоенных дополнительной многоязычной плоскости от U+10140 до U+1018F. ^[4]

Аттические цифры использовались древними греками , возможно, с VII века до нашей эры . Они также были известны как иродианские цифры в рукописи II века , поскольку впервые были описаны Иродианом . Они также известны как акрофонические цифры , поскольку все используемые символы происходят от первых букв слов, которые они обозначают: «один», «пять», «десять», «сто», «тысяча» и «десять тысяч». . См. греческие цифры и акрофонию .

Десятичный	Символ	Греческая цифра
1	я	ἴος или ἰός ( ios )
5	П	пять (' пенте )
10	Д	десять ( дека )
100	ИЛИ	гекатон (' гекатон })
1000	Х	тысяча ( хилиои )
10000	М	μύριοι (мириои )

Древнегреческие числа ^[1]^[2] Официальная таблица кодов Консорциума Unicode (PDF)
	0	1	2	3	4	5	6	7	8	9	А	Б	С	Д	И	Ф
U + 1014x	𐅀	𐅁	𐅂	𐅃	𐅄	𐅅	𐅆	𐅇	𐅈	𐅉	𐅊	𐅋	𐅌	𐅍	𐅎	𐅏
U + 1015x	𐅐	𐅑	𐅒	𐅓	𐅔	𐅕	𐅖	𐅗	𐅘	𐅙	𐅚	𐅛	𐅜	𐅝	𐅞	𐅟
U + 1016x	𐅠	𐅡	𐅢	𐅣	𐅤	𐅥	𐅦	𐅧	𐅨	𐅩	𐅪	𐅫	𐅬	𐅭	𐅮	𐅯
U + 1017x	𐅰	𐅱	𐅲	𐅳	𐅴	𐅵	𐅶	𐅷	𐅸	𐅹	𐅺	𐅻	𐅼	𐅽	𐅾	𐅿
U + 1018x	𐆀	𐆁	𐆂	𐆃	𐆄	𐆅	𐆆	𐆇	𐆈	𐆉	𐆊	𐆋	𐆌	𐆍	𐆎
Примечания 1. ^ Начиная с версии Unicode 15.1. 2. ^ Серая область обозначает неназначенную кодовую точку.

римские цифры

Римские цифры возникли в Древнем Риме , заимствованы из этрусских цифр . Система, использовавшаяся в классической античности, была слегка модифицирована в средние века, чтобы создать систему, которую мы используем сегодня. Он основан на определенных буквах, которым присваиваются значения в виде цифр.

Римские цифры сегодня обычно используются в нумерованных списках (в структурном формате), циферблатах, страницах, предшествующих основной части книги, трезвучиях аккордов в анализе музыки ( анализ римских цифр ), нумерации сиквелов фильмов и видеоигр, датах публикации книг, сменявшие друг друга политические лидеры или дети с одинаковыми именами, а также нумерация некоторых спортивных мероприятий, таких как Олимпийские игры или Суперкубок .

В Unicode есть ряд символов, специально обозначенных как римские цифры, как часть числовых форм. ^[5] диапазон от U+2160 до U+2188. Этот диапазон включает цифры как в верхнем, так и в нижнем регистре, а также предварительно комбинированные символы для чисел до 12 (Ⅻ или XII). Одной из причин существования предварительно комбинированных чисел является облегчение размещения многобуквенных чисел (например, VIII) на одной горизонтальной строке в вертикальном тексте на азиатском языке. Однако стандарт Unicode включает специальные кодовые точки римских цифр только для совместимости, заявляя, что «[для] большинства целей предпочтительнее составлять римские цифры из последовательностей соответствующих латинских букв». ^[6]

Кроме того, существуют персонажи для архаичных ^[5] формы 1000, 5000, 10 000, большая перевернутая C (Ɔ) , поздняя 6 (ↅ, аналогична греческой стигме : Ϛ), ранняя 50 (ↆ, похожа на стрелку вниз ↓⫝⊥ ^[7]), 50 000 и 100 000. Маленькая перевернутая буква c, ↄ, предназначена не для использования в римских цифрах, а для использования в качестве строчной буквы Клавдия Ↄ.

Таблица римских цифр в Юникоде
	0	1	2	3	4	5	6	7	8	9	А	Б	С	Д	И	Ф
Ценить ^[8]	1	2	3	4	5	6	7	8	9	10	11	12	50	100	500	1,000
U + 216x	Ⅰ	Ⅱ	Ⅲ	Ⅳ	Ⅴ	Ⅵ	Ⅶ	Ⅷ	Ⅸ	Ⅹ	Ⅺ	Ⅻ	Ⅼ	Ⅽ	Ⅾ	Ⅿ
U + 217x	ⅰ	ⅱ	ⅲ	ⅳ	ⅴ	ⅵ	ⅶ	ⅷ	ⅸ	ⅹ	ⅺ	ⅻ	ⅼ	ⅽ	ⅾ	ⅿ

	0	1	2	3	4	5	6	7	8
Ценить	1000	5000	10,000	100	100	6	50	50,000	100,000
U + 218x	ↀ	ↁ	ↂ	Ↄ	ↄ	ↅ	ↆ	ↇ	ↈ

При использовании шрифтов Blackletter или рукописных римские цифры набираются римским шрифтом . Такие шрифты могут содержать римские цифры, соответствующие стилю шрифта в диапазоне Юникода U + 2160–217F; если их не существует, Antiqua для римских цифр используется соответствующий шрифт .

В Unicode есть символы римских дробей в древних символах. ^[9] блок: секстант, унция, семунция, секстула, полусекстула, стручок и ас.

Счет стержневых цифр

Цифры счетных стержней включены в отдельный блок в дополнительной многоязычной плоскости (SMP) начиная с Unicode 5.0. Существует девять «горизонтальных» цифр (от U+1D360 до U+1D368) и девять «вертикальных» цифр (от U+1D369 до U+1D371), горизонтальные цифры используются для нечетных степеней десяти, а вертикальные цифры для четных степеней. десять. Ноль должен быть представлен U+3007 (〇, идеографическое число ноль), а отрицательный знак должен быть представлен U+20E5 (сочетание наложения обратной косой черты). ^[10] Этот блок также содержит другие символы, похожие на счетные стержни, такие как хорошо известная отметка для 5 ~~||||~~ . Поскольку они были недавно добавлены в набор символов и отсутствуют в BMP, поддержка шрифтов все еще может быть ограничена.

Подсчет стержневых цифр ^[1]^[2] Официальная таблица кодов Консорциума Unicode (PDF)
	0	1	2	3	4	5	6	7	8	9	А	Б	С	Д	И	Ф
U + 1D36x	𝍠	𝍡	𝍢	𝍣	𝍤	𝍥	𝍦	𝍧	𝍨	𝍩	𝍪	𝍫	𝍬	𝍭	𝍮	𝍯
U + 1D37x	𝍰	𝍱	𝍲	𝍳	𝍴	𝍵	𝍶	𝍷	𝍸
Примечания 1. ^ Начиная с версии Unicode 15.1. 2. ^ Серые области обозначают неназначенные кодовые точки.

См. также

Числовые формы (блок Unicode)

Ссылки

^ Неизвестно, какая это константа. В стандарте Xerox XCCS 353/046 просто написано «Эйлер».
^ Фрейтаг, Асмус; Рик Макгоуэн; Кен Уистлер (8 мая 2006 г.). «UTN № 27: Известные аномалии в именах символов Юникода» . Технические примечания . Консорциум Юникод . Проверено 13 июня 2008 г.
^ «Стабильность имени» . Политика стабильности кодировки символов Юникода . Консорциум Юникод. 28 февраля 2008 г. Проверено 13 июня 2008 г.
^ Диаграммы Unicode: древнегреческие числа
^ Перейти обратно: ^а ^б Числовые формы Юникода
^ Стандарт Unicode, версия 6.0 – электронное издание (PDF) , Unicode, Inc., 2011, стр. 486
^ Дэвид Дж. Перри: Предложение добавить дополнительных древнеримских персонажей в UCS
^ Для первых двух строк
^ Древние символы Юникода
^ Стандарт Unicode, версия 5.0 – Электронное издание (PDF) , Unicode, Inc., 2006, стр. 499–500.

[1] Неизвестно, какая это константа. В стандарте Xerox XCCS 353/046 просто написано «Эйлер».

[UTN27-2] Фрейтаг, Асмус; Рик Макгоуэн; Кен Уистлер (8 мая 2006 г.). «UTN № 27: Известные аномалии в именах символов Юникода» . Технические примечания . Консорциум Юникод . Проверено 13 июня 2008 г.

[3] «Стабильность имени» . Политика стабильности кодировки символов Юникода . Консорциум Юникод. 28 февраля 2008 г. Проверено 13 июня 2008 г.

[UnicodeChartU10140-4] Диаграммы Unicode: древнегреческие числа

[UnicodeChartU2150-5] Перейти обратно: ^а ^б Числовые формы Юникода

[6] Стандарт Unicode, версия 6.0 – электронное издание (PDF) , Unicode, Inc., 2011, стр. 486

[PropN3218-7] Дэвид Дж. Перри: Предложение добавить дополнительных древнеримских персонажей в UCS

[8] Для первых двух строк

[UnicodeChartU10190-9] Древние символы Юникода

[10] Стандарт Unicode, версия 5.0 – Электронное издание (PDF) , Unicode, Inc., 2006, стр. 499–500.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]