Jump to content

Свойство символа Юникода

(Перенаправлено из общей категории (Юникод) )

Стандарт Unicode присваивает различные свойства каждому символу и кодовой точке Unicode . [1] [2]

Свойства можно использовать для обработки символов (кодовых точек) в процессах, например, при разрыве строки, направлении сценария справа налево или применении элементов управления. Некоторые «свойства символов» также определены для кодовых точек, которым не назначен символ, и кодовых точек, помеченных как «<не символ>». Свойства персонажа описаны в Стандартном приложении №44. [2]

Свойства имеют уровни силы: нормативные, информативные, способствующие или временные. Для простоты спецификации свойство символа можно назначить, указав непрерывный диапазон кодовых точек, имеющих одно и то же свойство. [3]

Семантические элементы [ править ]

Свойства отображаются в следующем порядке: [4]

[code];[name];[gc];[cc];[bc];[decomposition];[nv-dec];[nv-dig];[nv-num];[bm];[alias];;[upper case];[lower case];[title case]
  • 'псевдоним' = исправленное имя. Устаревший. Теперь отслеживается с помощью отдельной базы данных, но сохраняется для имен Unicode 1 и т. д.
  • 'bc' = категория биди (двунаправленная) [L, R и т. д.]
  • 'bm' = биди зеркально [N или Y]
  • 'cc' = объединяющий класс [положение диакритического знака]
  • тип разложения или <отображение> = буква + диакритический знак, лигатура XY, верхний индекс X, шрифт X, начальный X, средний X, конечный X, изолированный X, вертикальный X и т. д.
  • 'gc' = общая категория [буква, символ, цифра, пунктуация, регистр и т. д.]
  • 'nv' = числовой тип и значение [цифры]. Если числовой тип «десятичный», все 3 слота заполнены. Если «цифра», первое значение будет нулевым. (Это было прекращено.) Если «числовой», то первые два будут иметь значение NULL и будет использоваться только последний.

Свойство между «псевдонимом» и «прописными буквами» устарело и теперь имеет значение null для всех символов Юникода.

Код [ править ]

Первое свойство — это шестнадцатеричная кодовая точка .

Имя и псевдоним [ править ]

Символу Юникода присваивается уникальное имя (na). [1] Имя состоит из заглавных букв A–Z, цифр 0–9, дефиса-минус (-) и пробела ( ). Некоторые последовательности исключены: имена, начинающиеся с пробела или дефиса, имена, заканчивающиеся пробелом или дефисом, повторяющиеся пробелы или дефисы, а также пробел после дефиса не допускаются. Имя гарантированно будет уникальным в Юникоде и может использоваться для идентификации кодовой точки и ее символа. Идеографические знаки, которых насчитываются десятки тысяч, названы в узоре « cjk единый иероглиф хххх ». Например, U+4E00 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4E00 . Символы форматирования также имеют имена: U+00A0   ПРОСТРАНСТВО БЕЗ РАЗРЫВА .

Следующие классы кодовых точек не имеют имени (na=""): элементы управления (общая категория: Cc), частное использование (Co), суррогатные (Cs), несимвольные (Cn) и зарезервированные (Cn). На них можно неофициально ссылаться по общему или конкретному метаимени, называемому «метками кодовых точек»: <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > или <суррогат>. Поскольку эти метки содержат скобки <>, они никогда не могут отображаться как Имя, что предотвращает путаницу.

Имена версии 1.0 [ править ]

В версии 2.0 Unicode многие имена были изменены. С тех пор вступило в силу правило «имя никогда не изменится», включая строгое (нормативное) использование псевдонимов. Неиспользуемые имена версии 1.0 были перенесены в свойство Alias, чтобы обеспечить некоторую обратную совместимость.

Псевдоним имени персонажа [ править ]

Начиная с версии Unicode 2.0, опубликованное имя кодовой точки никогда не изменится. Таким образом, в случае неправильного написания имени персонажа или если имя персонажа совершенно неверно или серьезно вводит в заблуждение, формальный псевдоним имени персонажа персонажу может быть присвоен , и этот псевдоним может использоваться приложениями вместо фактического дефектного имени персонажа. . [1] Например, U + FE18 ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ПРАВОЙ БЕЛОЙ ЛЕНТИКУЛЯРНОЙ СКОБКИ имеет псевдоним имени персонажа «ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ПРАВОЙ БЕЛОЙ ЛЕНТИКУЛЯРНОЙ СКОБКИ», чтобы избежать неправильного написания «скобки» как «brakcet» в фактическом имени персонажа; U + A015 YI SYLLABLE WU имеет псевдоним имени персонажа «YI SYLLABLE ITERATION MARK», потому что, в отличие от имени персонажа, он не имеет фиксированного слогового значения.

Помимо псевдонимов имен персонажей, которые являются исправлениями дефектных имен персонажей, некоторым персонажам присвоены псевдонимы, которые представляют собой альтернативные имена или сокращения. В стандарте Unicode определены пять типов псевдонимов имен символов:

  • Исправление: исправления неправильно написанных или серьезно неправильных имен персонажей;
  • Управление: имена ISO 6429 для функций управления C0 и C1 (которым не присвоены имена символов в стандарте Unicode);
  • Альтернатива: альтернативные имена для некоторых символов формата (только U+FEFF «НУЛЕВАЯ ШИРИНА БЕЗ РАЗРЫВОВ ПРОСТРАНСТВА», имеющая псевдоним «ЗНАЧОК ПОРЯДКА БАЙТОВ»);
  • Рис.: Документированные метки для некоторых функций управляющего кода C1, которые не являются фактическими именами ни в одном стандарте;
  • Аббревиатура: сокращения или акронимы управляющих кодов, символов формата, пробелов и селекторов вариантов.

Все формальные псевдонимы имен символов соответствуют правилам допустимых имен символов и гарантированно уникальны как в пределах псевдонима имени персонажа, так и в пространствах имен имен персонажей (по этой причине имя ISO 6429 «BELL» не определяется как псевдоним для U +0007, потому что U+1F514 называется «BELL»). [1]

Начиная с версии Unicode 12.1, двадцать восемь формальных псевдонимов имен символов определены как исправления дефектных имен символов. [5] Они перечислены ниже .

Помимо этих нормативных названий, неофициальные имена в таблицах кодов Юникода могут отображаться . Это другие часто используемые имена для символов, не имеющие таких же ограничений на количество символов. Уникальность этих неофициальных имен не гарантируется и может быть изменена или удалена в более поздних версиях стандарта.

Общая категория [ править ]

Каждой кодовой точке присваивается значение для общей категории. Это одно из свойств символов, которые также определены для неназначенных кодовых точек и кодовых точек, которые определены как «не символ».

Общая категория ( Свойство символа Юникода ) [а]
Ценить Категория Мажор, минор Базовый тип [б] Назначен персонаж [б] Считать [с]
(по состоянию на 15.1)
Примечания
 
Л , Письмо; LC , Письмо в футляре (только Lu, Ll и Lt) [д]
Лу Буква, прописная Графика Характер 1,831
Лл Буква, строчная Графика Характер 2,233
Лейтенант Буква, титульный регистр Графика Характер 31 Лигатуры или орграфы, содержащие заглавную часть, за которой следует строчная часть (например, υ , ψ , ϋ и ϲ ).
Лм Буква, модификатор Графика Характер 397 буква Модифицирующая
Это Письмо, другое Графика Характер 132,234 Иероглиф или буква однокорпусного алфавита
М , Марк
Мин. Марк, без пробелов Графика Характер 1,985
Мак Марк, совмещение интервалов Графика Характер 452
Мне Марк, прилагаем Графика Характер 13
Н , номер
Нд Число, десятичная цифра Графика Характер 680 Все они и только они имеют числовой тип = De. [и]
Нл Число, буква Графика Характер 236 Цифры, состоящие из букв или буквоподобных символов (например, римские цифры ).
Нет Номер, другое Графика Характер 915 Например, обычные дроби , верхние и нижние индексы.
П , Пунктуация
ПК Пунктуация, соединитель Графика Характер 10 Включает символы подчеркивания пробелов , такие как «_», и другие символы связи пробелов . могут классифицировать их как символы «слова» В отличие от других знаков пунктуации, библиотеки регулярных выражений . [ф]
ПД Пунктуация, тире Графика Характер 26 Включает несколько дефиса символов
P.S. Пунктуация, открыть Графика Характер 79 открывающей скобки Символы
На Пунктуация, закрыть Графика Характер 77 Символы закрывающей скобки
Пи Пунктуация, начальная цитата Графика Характер 12 Открывающая кавычка . Не включает «нейтральную» кавычку ASCII. Может вести себя как Ps или Pe в зависимости от использования.
Пф Пунктуация, последняя цитата Графика Характер 10 Закрывающая кавычка. Может вести себя как Ps или Pe в зависимости от использования.
Po Пунктуация, прочее Графика Характер 628
С , Символ
см Символ, математика Графика Характер 948 Математические символы (например, + , , знак равно , × , ÷ , , , ). Не включает скобки и скобки, находящиеся в категориях Ps и Pe. Также не включает ! , * , - или / , которые, несмотря на частое использование в качестве математических операторов, в первую очередь считаются «пунктуационными».
наук Символ, валюта Графика Характер 63 Символы валют
Ск Символ, модификатор Графика Характер 125
Так Символ, другое Графика Характер 6,639
Z , Сепаратор
Зс Разделитель, пробел Графика Характер 17 Включает пробел, но не TAB , CR или LF , которые являются Cc.
Зл Разделитель, строка Формат Характер 1 Только U+2028 РАЗДЕЛИТЕЛЬ ЛИНИИ (LSEP)
Зп Разделитель, абзац Формат Характер 1 Только U+2029 РАЗДЕЛИТЕЛЬ ПУНКТОВ (PSEP)
С , Другое
Копия Другое, контроль Контроль Характер 65 (никогда не изменится) [и] Без имени, [г] <контроль>
См. Другое, формат Формат Характер 170 Включает мягкий дефис , объединяющие управляющие символы ( ZWNJ и ZWJ ), управляющие символы для поддержки двунаправленного текста и языковых тегов. символы
Cs Другое, суррогатное материнство Суррогатное материнство Нет (используется только в UTF-16 ) 2048 (никогда не изменится) [и] Без имени, [г] <суррогатная мать>
Ко Другое, частное использование Частное использование Персонаж (но без указания интерпретации) Всего 137 468 (никогда не изменится) [и] ( 6400 в БМП , 131068 в самолетах 15–16 ) Без имени, [г] <частное использование>
Сп Другое, не назначено Нехарактерный Нет 66 (не изменится, если не будет расширен диапазон кодовых точек Юникода) [и] Без имени, [г] <неперсонаж>
Сдержанный Нет 824,652 Без имени, [г] <зарезервировано>
  1. ^ «Таблица 4-4: Общая категория» (PDF) . Стандарт Юникод . Консорциум Юникод. Сентябрь 2022.
  2. ^ Jump up to: Перейти обратно: а б «Таблица 2-3: Типы кодовых точек» (PDF) . Стандарт Юникод . Консорциум Юникод. Сентябрь 2022.
  3. ^ «DerivedGeneralCategory.txt» . Консорциум Юникод. 26 апреля 2022 г.
  4. ^ «5.7.1 Общие значения категории» . UTR #44: База данных символов Юникода . Консорциум Юникод. 04.03.2020.
  5. ^ Jump up to: Перейти обратно: а б с д и Политики стабильности кодировки символов Юникода: Стабильность значений свойств. Политика стабильности: Некоторые группы gc никогда не изменятся. gc=Nd соответствует числовому типу=De (десятичному).
  6. ^ «Приложение C: Свойства совместимости (§ слово)» . Регулярные выражения Юникода . Версия 23. Консорциум Unicode . 08.02.2022. Технический стандарт Юникод № 18.
  7. ^ Jump up to: Перейти обратно: а б с д и «Таблица 4-9: Создание меток кодовых точек» (PDF) . Стандарт Юникод . Консорциум Юникод. Сентябрь 2022 г. Метку кодовой точки можно использовать для идентификации безымянной кодовой точки. Например, <control- хххх >, <control-0088>. Имя остается пустым, что может предотвратить непреднамеренную замену в документации имени элемента управления истинным кодом управления. В Unicode также используется <не символ> вместо <несимвол>.

Пунктуация [ править ]

У символов есть отдельные свойства, обозначающие, что они являются символами пунктуации . Все свойства имеют значения Да/Нет : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .

Пробелы [ править ]

Пробелы — это широко используемая концепция типографского эффекта. По сути, он охватывает невидимые символы, которые создают эффект пробелов в отображаемом тексте. Он включает пробелы , табуляции и новые элементы управления форматированием строк. В Юникоде такой символ имеет набор свойств «WSpace=yes». В версии 15.1 имеется 25 пробельных символов.

Имя Кодовая точка Ширина коробки Может сломаться ? В
ИДН ?
Скрипт Блокировать Общий
категория
Примечания
Имя  Кодовая точка Ширина коробки Может сломаться ? В
ИДН ?
Скрипт Блокировать Общий
категория
Примечания
  1. ^ White_Space — это двоичное свойство Юникода. [18]
  2. ^ «PropList-15.1.0.txt» . Юникод . 01.08.2023 . Проверено 12 сентября 2023 г.
  3. ^ Хотя &ZeroWidthSpace; — это один объект с именем HTML5 для U+200B, дополнительные имена NegativeMediumSpace, NegativeThickSpace, NegativeThinSpace и NegativeVeryThinSpace (это имена, используемые в языке Wolfram Language для пространств с отрицательным продвижением, которые он отображает в Область частного использования ) [12] [13] [14] [15] также определяются HTML5 как псевдонимы для U+200B (например, &NegativeMediumSpace;). [11]


Корпус [ править ]

Значение Case — Normataive в Юникоде. Это относится к алфавитам с прописными (также известными как заглавные, большие) и строчными (также известными как маленькие, крохотные) буквами. Разница регистров встречается в алфавитах адлам, армянском, чероки, коптском, кириллице, дезеретском, глаголице, греческом, хуцури и мхедрули, грузинском, латинском, медефаидринском, старовенгерском, осейджском, виткуки и варанг Сити.

(верхний, нижний, титульный, складной — как простой, так и полный)

Другие общие характеристики [ править ]

Идеографический, буквенный, бессимвольный.

Объединение классов [ править ]

Некоторые распространенные коды:

0 = пробельная буква, символ или модификатор (например, a, (, ʰ)
1 = наложение
6 = чтение хань (диакритические знаки чтения CJK)
7 = нукта (диакритический знак нукта в брахмическом письме )
8 = знаки озвучивания кана
9 = вирама

10–199 = различные классы фиксированных позиций

Знаки, которые прикрепляются к основной букве:

200 = прикреплено внизу слева
202 = прикреплено непосредственно ниже (например, седиль на ç)
204 = прикреплено внизу справа
208 = прикреплен слева
210 = прикреплен справа
212 = прикреплен вверху слева
214 = прикреплено непосредственно выше
216 = прикреплен вверху справа

Знаки, не прикрепляющиеся к основной букве:

218 = внизу слева
220 = прямо внизу (например, кольцо на n̥)
222 = внизу справа
224 = слева
226 = правильно
228 = вверху слева
230 = выше (например, острый ударение на á)
232 = вверху справа
233 = вдвое ниже (стягивает два основания)
234 = двойное вверху (расширяет два основания)
240 = нижний индекс йоты (только греческий диакритический знак)

Двунаправленное письмо [ править ]

Шесть свойств символов относятся к двунаправленному написанию: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket и Bidi_Paired_Bracket_Type.

Одной из основных особенностей Unicode является поддержка двунаправленного ( Bidi ) отображения текста справа налево (R-to-L) и слева направо (L-to-R). Двунаправленный алгоритм Unicode UAX9 [19] описывает процесс представления текста с изменением направления сценария. Например, он позволяет использовать кавычки на иврите в английском тексте. Bidi_Character_Type отмечает поведение персонажа при направленном письме. Чтобы переопределить направление, в Юникоде определены специальные символы управления форматированием ( Bidi-Control s). Эти символы могут обеспечивать направление и по определению влияют только на двунаправленную запись.

Каждая кодовая точка имеет свойство Bidi_Class . Он определяет свое поведение в двунаправленном тексте, интерпретируемом алгоритмом:

Двунаправленный тип символов ( Bidi_Class Юникода Свойство символа ) [1]

В обычных ситуациях алгоритм может определить направление текста по этому свойству символа. Чтобы управлять более сложными ситуациями с двунаправленным текстом, например, когда английский текст содержит кавычки на иврите, в Юникод добавляются дополнительные параметры. Двенадцать символов имеют свойство Bidi_Control=Да : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM и RLO, как указано в таблице. Это невидимые управляющие символы форматирования, используемые только алгоритмом и не имеющие никакого эффекта за пределами двунаправленного форматирования. [19] Несмотря на название, они являются символами форматирования, а не управляющими символами, и в определении Unicode имеют общую категорию «Другое, формат (Cf)».

По сути, алгоритм определяет последовательность символов с одинаковым типом строгого направления (R-to-L или L-to-R), принимая во внимание отклонение специальными элементами управления двунаправленным текстом. Числовым строкам (слабые типы) назначается направление в соответствии с их сильным окружением, как и нейтральным символам. Наконец, символы отображаются в соответствии с направлением строки.

Два свойства символа имеют отношение к определению зеркального отображения глифа в двунаправленном тексте: Bidi_Mirrored=Да указывает, что глиф должен быть зеркальным при написании R-to-L. Свойство Bidi_Mirroring_Glyph=U+ hhhh может тогда указывать на зеркально отраженный символ. Например, таким образом зеркально отображаются скобки «()». Формирование рукописных шрифтов, таких как арабский, и зеркальное отображение глифов, имеющих направление, не является частью алгоритма.

Числовые значения и типы [ править ]

Десятичный [ править ]

Символы классифицируются по числовому типу . [1] Такие символы, как дроби, нижние индексы, верхние индексы, римские цифры, числители валют, числа в кружочках и цифры, специфичные для сценария, относятся к числовому типу. Они имеют числовое значение , которое может быть десятичным, включая ноль и отрицательные числа, или обыкновенную дробь. Если такого значения нет, как для большинства символов, числовой тип — «Нет».

Символы, имеющие числовое значение, разделены на три группы: десятичные (De), цифровые (Di) и числовые (Nu, т.е. все остальные). «Десятичный» означает, что символ представляет собой прямую десятичную цифру. Только символы, входящие в непрерывный кодированный диапазон 0–9, имеют числовой тип Decimal. Другие цифры, например, верхние индексы, имеют числовой тип Цифра. Все числовые символы, такие как дроби и римские цифры, имеют тип «Числовой». Предполагаемый эффект состоит в том, что простой синтаксический анализатор может использовать эти десятичные числовые значения, не отвлекаясь, скажем, на числовой надстрочный индекс или дробь. Восемьдесят три идеограммы CJK, обозначающие числа, включая те, которые используются для бухгалтерского учета, имеют числовой тип.

С другой стороны, символы, которые могут иметь числовое значение в качестве второго значения, по-прежнему помечаются как числовой тип «Нет» и не имеют числового значения («»). Например, в нумерации параграфов можно использовать латинские буквы, например «II.A.1.b», но буквы «I», «A» и «b» не являются цифровыми (введите «Нет») и не имеют числового значения.

Числовой тип [а] [б] ( Юникода свойство символа )
Numeric type Code Has numeric value Example Remarks
Not numeric <none> No
  • A
  • X (Latin)
  • !
  • Д
  • μ
Numeric Value="NaN"
Decimal De Yes
  • 0
  • 1
  • 9
  •  (Devanagari 6)
  •  (Kannada 6)
  • 𝟨 (Mathematical, styled sans serif)
Straight digit (decimal-radix). Corresponds both ways with General Category=Nd[a]
Digit Di Yes
  • ¹ (superscript)
  •  (digit with full stop)
Decimal, but in typographic context
Numeric Nu Yes
  • ¾
  •  (Tamil number ten)
  •  (Roman numeral)
  •  (Han number 6)
Numeric value, but not decimal-radix
a. ^ "Section 4.6: Numeric Value" (PDF). The Unicode Standard. Unicode Consortium. September 2022.
b. ^ "Unicode 15.1 Derived Numeric Types". Unicode Character Database. Unicode Consortium. 2023-01-05.

Шестнадцатеричные цифры [ править ]

Шестнадцатеричные символы — это символы серии с шестнадцатеричными значениями 0...9ABCDEF (шестнадцать символов, десятичное значение 0–15). Свойству символа Hex_Digit присваивается значение Да, когда символ находится в такой серии:

Символы в Юникоде отмечены Hex_Digit=Yes[а]
0123456789ABCDEF Базовая латынь, заглавные буквы Также ASCII_Hex_Digit=Yes
0123456789abcdef Базовая латынь, строчные буквы Также ASCII_Hex_Digit=Yes
0123456789ABCDEF Полноширинные формы , прописные
0123456789abcdef Полноширинные формы, строчные буквы
а. ^ «Unicode 15.1 UCD: PropList.txt» . 01.08.2023 . Проверено 12 сентября 2023 г.

Сорок четыре символа помечены как Hex_Digit. Те, что находятся в блоке Basic Latin, также помечены как ASCII_Hex_Digit .

В Юникоде нет отдельных символов для шестнадцатеричных значений. Следствием этого является то, что при использовании обычных символов невозможно определить, предназначено ли шестнадцатеричное значение или даже предназначено ли значение вообще. Это должно быть определено на более высоком уровне, например, путем добавления «0x» к шестнадцатеричному числу или по контексту. Единственная особенность заключается в том, что Unicode может отметить, что последовательность может быть или не быть шестнадцатеричным значением.

Блокировать [ править ]

Блок это непрерывный диапазон кодовых точек с уникальным именем. Он идентифицируется по первой и последней кодовой точке. Блоки не перекрываются . Блок может содержать зарезервированные, неназначенные кодовые точки и т. д. Каждый назначенный символ имеет одно значение «имени блока» из 328 имен, назначенных в Unicode версии 15.1. Неназначенные кодовые точки за пределами существующего блока имеют значение по умолчанию «No_block».

Самолет Диапазон блоков Имя блока Кодовые точки [а] Назначенные персонажи Скрипты [б] [с] [д] [и] [ф]
 0 BMP U+0000..U+007F Basic Latin[g] 128 128 Latin (52 characters), Common (76 characters)
 0 BMP U+0080..U+00FF Latin-1 Supplement[h] 128 128 Latin (64 characters), Common (64 characters)
 0 BMP U+0100..U+017F Latin Extended-A 128 128 Latin
 0 BMP U+0180..U+024F Latin Extended-B 208 208 Latin
 0 BMP U+0250..U+02AF IPA Extensions 96 96 Latin
 0 BMP U+02B0..U+02FF Spacing Modifier Letters 80 80 Bopomofo (2 characters), Latin (14 characters), Common (64 characters)
 0 BMP U+0300..U+036F Combining Diacritical Marks 112 112 Inherited
 0 BMP U+0370..U+03FF Greek and Coptic 144 135 Coptic (14 characters), Greek (117 characters), Common (4 characters)
 0 BMP U+0400..U+04FF Cyrillic 256 256 Cyrillic (254 characters), Inherited (2 characters)
 0 BMP U+0500..U+052F Cyrillic Supplement 48 48 Cyrillic
 0 BMP U+0530..U+058F Armenian 96 91 Armenian
 0 BMP U+0590..U+05FF Hebrew 112 88 Hebrew
 0 BMP U+0600..U+06FF Arabic 256 256 Arabic (238 characters), Common (6 characters), Inherited (12 characters)
 0 BMP U+0700..U+074F Syriac 80 77 Syriac
 0 BMP U+0750..U+077F Arabic Supplement 48 48 Arabic
 0 BMP U+0780..U+07BF Thaana 64 50 Thaana
 0 BMP U+07C0..U+07FF NKo 64 62 N’Ko
 0 BMP U+0800..U+083F Samaritan 64 61 Samaritan
 0 BMP U+0840..U+085F Mandaic 32 29 Mandaic
 0 BMP U+0860..U+086F Syriac Supplement 16 11 Syriac
 0 BMP U+0870..U+089F Arabic Extended-B 48 41 Arabic
 0 BMP U+08A0..U+08FF Arabic Extended-A 96 96 Arabic (95 characters), Common (1 character)
 0 BMP U+0900..U+097F Devanagari 128 128 Devanagari (122 characters), Common (2 characters), Inherited (4 characters)
 0 BMP U+0980..U+09FF Bengali 128 96 Bengali
 0 BMP U+0A00..U+0A7F Gurmukhi 128 80 Gurmukhi
 0 BMP U+0A80..U+0AFF Gujarati 128 91 Gujarati
 0 BMP U+0B00..U+0B7F Oriya 128 91 Oriya
 0 BMP U+0B80..U+0BFF Tamil 128 72 Tamil
 0 BMP U+0C00..U+0C7F Telugu 128 100 Telugu
 0 BMP U+0C80..U+0CFF Kannada 128 91 Kannada
 0 BMP U+0D00..U+0D7F Malayalam 128 118 Malayalam
 0 BMP U+0D80..U+0DFF Sinhala 128 91 Sinhala
 0 BMP U+0E00..U+0E7F Thai 128 87 Thai (86 characters), Common (1 character)
 0 BMP U+0E80..U+0EFF Lao 128 83 Lao
 0 BMP U+0F00..U+0FFF Tibetan 256 211 Tibetan (207 characters), Common (4 characters)
 0 BMP U+1000..U+109F Myanmar 160 160 Myanmar
 0 BMP U+10A0..U+10FF Georgian 96 88 Georgian (87 characters), Common (1 character)
 0 BMP U+1100..U+11FF Hangul Jamo 256 256 Hangul
 0 BMP U+1200..U+137F Ethiopic 384 358 Ethiopic
 0 BMP U+1380..U+139F Ethiopic Supplement 32 26 Ethiopic
 0 BMP U+13A0..U+13FF Cherokee 96 92 Cherokee
 0 BMP U+1400..U+167F Unified Canadian Aboriginal Syllabics 640 640 Canadian Aboriginal
 0 BMP U+1680..U+169F Ogham 32 29 Ogham
 0 BMP U+16A0..U+16FF Runic 96 89 Runic (86 characters), Common (3 characters)
 0 BMP U+1700..U+171F Tagalog 32 23 Tagalog
 0 BMP U+1720..U+173F Hanunoo 32 23 Hanunoo (21 characters), Common (2 characters)
 0 BMP U+1740..U+175F Buhid 32 20 Buhid
 0 BMP U+1760..U+177F Tagbanwa 32 18 Tagbanwa
 0 BMP U+1780..U+17FF Khmer 128 114 Khmer
 0 BMP U+1800..U+18AF Mongolian 176 158 Mongolian (155 characters), Common (3 characters)
 0 BMP U+18B0..U+18FF Unified Canadian Aboriginal Syllabics Extended 80 70 Canadian Aboriginal
 0 BMP U+1900..U+194F Limbu 80 68 Limbu
 0 BMP U+1950..U+197F Tai Le 48 35 Tai Le
 0 BMP U+1980..U+19DF New Tai Lue 96 83 New Tai Lue
 0 BMP U+19E0..U+19FF Khmer Symbols 32 32 Khmer
 0 BMP U+1A00..U+1A1F Buginese 32 30 Buginese
 0 BMP U+1A20..U+1AAF Tai Tham 144 127 Tai Tham
 0 BMP U+1AB0..U+1AFF Combining Diacritical Marks Extended 80 31 Inherited
 0 BMP U+1B00..U+1B7F Balinese 128 124 Balinese
 0 BMP U+1B80..U+1BBF Sundanese 64 64 Sundanese
 0 BMP U+1BC0..U+1BFF Batak 64 56 Batak
 0 BMP U+1C00..U+1C4F Lepcha 80 74 Lepcha
 0 BMP U+1C50..U+1C7F Ol Chiki 48 48 Ol Chiki
 0 BMP U+1C80..U+1C8F Cyrillic Extended-C 16 9 Cyrillic
 0 BMP U+1C90..U+1CBF Georgian Extended 48 46 Georgian
 0 BMP U+1CC0..U+1CCF Sundanese Supplement 16 8 Sundanese
 0 BMP U+1CD0..U+1CFF Vedic Extensions 48 43 Common (16 characters), Inherited (27 characters)
 0 BMP U+1D00..U+1D7F Phonetic Extensions 128 128 Cyrillic (2 characters), Greek (15 characters), Latin (111 characters)
 0 BMP U+1D80..U+1DBF Phonetic Extensions Supplement 64 64 Greek (1 character), Latin (63 characters)
 0 BMP U+1DC0..U+1DFF Combining Diacritical Marks Supplement 64 64 Inherited
 0 BMP U+1E00..U+1EFF Latin Extended Additional 256 256 Latin
 0 BMP U+1F00..U+1FFF Greek Extended 256 233 Greek
 0 BMP U+2000..U+206F General Punctuation 112 111 Common (109 characters), Inherited (2 characters)
 0 BMP U+2070..U+209F Superscripts and Subscripts 48 42 Latin (15 characters), Common (27 characters)
 0 BMP U+20A0..U+20CF Currency Symbols 48 33 Common
 0 BMP U+20D0..U+20FF Combining Diacritical Marks for Symbols 48 33 Inherited
 0 BMP U+2100..U+214F Letterlike Symbols 80 80 Greek (1 character), Latin (4 characters), Common (75 characters)
 0 BMP U+2150..U+218F Number Forms 64 60 Latin (41 characters), Common (19 characters)
 0 BMP U+2190..U+21FF Arrows 112 112 Common
 0 BMP U+2200..U+22FF Mathematical Operators 256 256 Common
 0 BMP U+2300..U+23FF Miscellaneous Technical 256 256 Common
 0 BMP U+2400..U+243F Control Pictures 64 39 Common
 0 BMP U+2440..U+245F Optical Character Recognition 32 11 Common
 0 BMP U+2460..U+24FF Enclosed Alphanumerics 160 160 Common
 0 BMP U+2500..U+257F Box Drawing 128 128 Common
 0 BMP U+2580..U+259F Block Elements 32 32 Common
 0 BMP U+25A0..U+25FF Geometric Shapes 96 96 Common
 0 BMP U+2600..U+26FF Miscellaneous Symbols 256 256 Common
 0 BMP U+2700..U+27BF Dingbats 192 192 Common
 0 BMP U+27C0..U+27EF Miscellaneous Mathematical Symbols-A 48 48 Common
 0 BMP U+27F0..U+27FF Supplemental Arrows-A 16 16 Common
 0 BMP U+2800..U+28FF Braille Patterns 256 256 Braille
 0 BMP U+2900..U+297F Supplemental Arrows-B 128 128 Common
 0 BMP U+2980..U+29FF Miscellaneous Mathematical Symbols-B 128 128 Common
 0 BMP U+2A00..U+2AFF Supplemental Mathematical Operators 256 256 Common
 0 BMP U+2B00..U+2BFF Miscellaneous Symbols and Arrows 256 253 Common
 0 BMP U+2C00..U+2C5F Glagolitic 96 96 Glagolitic
 0 BMP U+2C60..U+2C7F Latin Extended-C 32 32 Latin
 0 BMP U+2C80..U+2CFF Coptic 128 123 Coptic
 0 BMP U+2D00..U+2D2F Georgian Supplement 48 40 Georgian
 0 BMP U+2D30..U+2D7F Tifinagh 80 59 Tifinagh
 0 BMP U+2D80..U+2DDF Ethiopic Extended 96 79 Ethiopic
 0 BMP U+2DE0..U+2DFF Cyrillic Extended-A 32 32 Cyrillic
 0 BMP U+2E00..U+2E7F Supplemental Punctuation 128 94 Common
 0 BMP U+2E80..U+2EFF CJK Radicals Supplement 128 115 Han
 0 BMP U+2F00..U+2FDF Kangxi Radicals 224 214 Han
 0 BMP U+2FF0..U+2FFF Ideographic Description Characters 16 16 Common
 0 BMP U+3000..U+303F CJK Symbols and Punctuation 64 64 Han (15 characters), Hangul (2 characters), Common (43 characters), Inherited (4 characters)
 0 BMP U+3040..U+309F Hiragana 96 93 Hiragana (89 characters), Common (2 characters), Inherited (2 characters)
 0 BMP U+30A0..U+30FF Katakana 96 96 Katakana (93 characters), Common (3 characters)
 0 BMP U+3100..U+312F Bopomofo 48 43 Bopomofo
 0 BMP U+3130..U+318F Hangul Compatibility Jamo 96 94 Hangul
 0 BMP U+3190..U+319F Kanbun 16 16 Common
 0 BMP U+31A0..U+31BF Bopomofo Extended 32 32 Bopomofo
 0 BMP U+31C0..U+31EF CJK Strokes 48 37 Common
 0 BMP U+31F0..U+31FF Katakana Phonetic Extensions 16 16 Katakana
 0 BMP U+3200..U+32FF Enclosed CJK Letters and Months 256 255 Hangul (62 characters), Katakana (47 characters), Common (146 characters)
 0 BMP U+3300..U+33FF CJK Compatibility 256 256 Katakana (88 characters), Common (168 characters)
 0 BMP U+3400..U+4DBF CJK Unified Ideographs Extension A 6,592 6,592 Han
 0 BMP U+4DC0..U+4DFF Yijing Hexagram Symbols 64 64 Common
 0 BMP U+4E00..U+9FFF CJK Unified Ideographs 20,992 20,992 Han
 0 BMP U+A000..U+A48F Yi Syllables 1,168 1,165 Yi
 0 BMP U+A490..U+A4CF Yi Radicals 64 55 Yi
 0 BMP U+A4D0..U+A4FF Lisu 48 48 Lisu
 0 BMP U+A500..U+A63F Vai 320 300 Vai
 0 BMP U+A640..U+A69F Cyrillic Extended-B 96 96 Cyrillic
 0 BMP U+A6A0..U+A6FF Bamum 96 88 Bamum
 0 BMP U+A700..U+A71F Modifier Tone Letters 32 32 Common
 0 BMP U+A720..U+A7FF Latin Extended-D 224 193 Latin (188 characters), Common (5 characters)
 0 BMP U+A800..U+A82F Syloti Nagri 48 45 Syloti Nagri
 0 BMP U+A830..U+A83F Common Indic Number Forms 16 10 Common
 0 BMP U+A840..U+A87F Phags-pa 64 56 Phags Pa
 0 BMP U+A880..U+A8DF Saurashtra 96 82 Saurashtra
 0 BMP U+A8E0..U+A8FF Devanagari Extended 32 32 Devanagari
 0 BMP U+A900..U+A92F Kayah Li 48 48 Kayah Li (47 characters), Common (1 character)
 0 BMP U+A930..U+A95F Rejang 48 37 Rejang
 0 BMP U+A960..U+A97F Hangul Jamo Extended-A 32 29 Hangul
 0 BMP U+A980..U+A9DF Javanese 96 91 Javanese (90 characters), Common (1 character)
 0 BMP U+A9E0..U+A9FF Myanmar Extended-B 32 31 Myanmar
 0 BMP U+AA00..U+AA5F Cham 96 83 Cham
 0 BMP U+AA60..U+AA7F Myanmar Extended-A 32 32 Myanmar
 0 BMP U+AA80..U+AADF Tai Viet 96 72 Tai Viet
 0 BMP U+AAE0..U+AAFF Meetei Mayek Extensions 32 23 Meetei Mayek
 0 BMP U+AB00..U+AB2F Ethiopic Extended-A 48 32 Ethiopic
 0 BMP U+AB30..U+AB6F Latin Extended-E 64 60 Latin (56 characters), Greek (1 character), Common (3 characters)
 0 BMP U+AB70..U+ABBF Cherokee Supplement 80 80 Cherokee
 0 BMP U+ABC0..U+ABFF Meetei Mayek 64 56 Meetei Mayek
 0 BMP U+AC00..U+D7AF Hangul Syllables 11,184 11,172 Hangul
 0 BMP U+D7B0..U+D7FF Hangul Jamo Extended-B 80 72 Hangul
 0 BMP U+D800..U+DB7F High Surrogates 896 0 Unknown
 0 BMP U+DB80..U+DBFF High Private Use Surrogates 128 0 Unknown
 0 BMP U+DC00..U+DFFF Low Surrogates 1,024 0 Unknown
 0 BMP U+E000..U+F8FF Private Use Area 6,400 6,400 Unknown
 0 BMP U+F900..U+FAFF CJK Compatibility Ideographs 512 472 Han
 0 BMP U+FB00..U+FB4F Alphabetic Presentation Forms 80 58 Armenian (5 characters), Hebrew (46 characters), Latin (7 characters)
 0 BMP U+FB50..U+FDFF Arabic Presentation Forms-A 688 631 Arabic (629 characters), Common (2 characters)
 0 BMP U+FE00..U+FE0F Variation Selectors 16 16 Inherited
 0 BMP U+FE10..U+FE1F Vertical Forms 16 10 Common
 0 BMP U+FE20..U+FE2F Combining Half Marks 16 16 Cyrillic (2 characters), Inherited (14 characters)
 0 BMP U+FE30..U+FE4F CJK Compatibility Forms 32 32 Common
 0 BMP U+FE50..U+FE6F Small Form Variants 32 26 Common
 0 BMP U+FE70..U+FEFF Arabic Presentation Forms-B 144 141 Arabic (140 characters), Common (1 character)
 0 BMP U+FF00..U+FFEF Halfwidth and Fullwidth Forms 240 225 Hangul (52 characters), Katakana (55 characters), Latin (52 characters), Common (66 characters)
 0 BMP U+FFF0..U+FFFF Specials 16 5 Common
 1 SMP U+10000..U+1007F Linear B Syllabary 128 88 Linear B
 1 SMP U+10080..U+100FF Linear B Ideograms 128 123 Linear B
 1 SMP U+10100..U+1013F Aegean Numbers 64 57 Common
 1 SMP U+10140..U+1018F Ancient Greek Numbers 80 79 Greek
 1 SMP U+10190..U+101CF Ancient Symbols 64 14 Greek (1 character), Common (13 characters)
 1 SMP U+101D0..U+101FF Phaistos Disc 48 46 Common (45 characters), Inherited (1 character)
 1 SMP U+10280..U+1029F Lycian 32 29 Lycian
 1 SMP U+102A0..U+102DF Carian 64 49 Carian
 1 SMP U+102E0..U+102FF Coptic Epact Numbers 32 28 Common (27 characters), Inherited (1 character)
 1 SMP U+10300..U+1032F Old Italic 48 39 Old Italic
 1 SMP U+10330..U+1034F Gothic 32 27 Gothic
 1 SMP U+10350..U+1037F Old Permic 48 43 Old Permic
 1 SMP U+10380..U+1039F Ugaritic 32 31 Ugaritic
 1 SMP U+103A0..U+103DF Old Persian 64 50 Old Persian
 1 SMP U+10400..U+1044F Deseret 80 80 Deseret
 1 SMP U+10450..U+1047F Shavian 48 48 Shavian
 1 SMP U+10480..U+104AF Osmanya 48 40 Osmanya
 1 SMP U+104B0..U+104FF Osage 80 72 Osage
 1 SMP U+10500..U+1052F Elbasan 48 40 Elbasan
 1 SMP U+10530..U+1056F Caucasian Albanian 64 53 Caucasian Albanian
 1 SMP U+10570..U+105BF Vithkuqi 80 70 Vithkuqi
 1 SMP U+10600..U+1077F Linear A 384 341 Linear A
 1 SMP U+10780..U+107BF Latin Extended-F 64 57 Latin
 1 SMP U+10800..U+1083F Cypriot Syllabary 64 55 Cypriot
 1 SMP U+10840..U+1085F Imperial Aramaic 32 31 Imperial Aramaic
 1 SMP U+10860..U+1087F Palmyrene 32 32 Palmyrene
 1 SMP U+10880..U+108AF Nabataean 48 40 Nabataean
 1 SMP U+108E0..U+108FF Hatran 32 26 Hatran
 1 SMP U+10900..U+1091F Phoenician 32 29 Phoenician
 1 SMP U+10920..U+1093F Lydian 32 27 Lydian
 1 SMP U+10980..U+1099F Meroitic Hieroglyphs 32 32 Meroitic Hieroglyphs
 1 SMP U+109A0..U+109FF Meroitic Cursive 96 90 Meroitic Cursive
 1 SMP U+10A00..U+10A5F Kharoshthi 96 68 Kharoshthi
 1 SMP U+10A60..U+10A7F Old South Arabian 32 32 Old South Arabian
 1 SMP U+10A80..U+10A9F Old North Arabian 32 32 Old North Arabian
 1 SMP U+10AC0..U+10AFF Manichaean 64 51 Manichaean
 1 SMP U+10B00..U+10B3F Avestan 64 61 Avestan
 1 SMP U+10B40..U+10B5F Inscriptional Parthian 32 30 Inscriptional Parthian
 1 SMP U+10B60..U+10B7F Inscriptional Pahlavi 32 27 Inscriptional Pahlavi
 1 SMP U+10B80..U+10BAF Psalter Pahlavi 48 29 Psalter Pahlavi
 1 SMP U+10C00..U+10C4F Old Turkic 80 73 Old Turkic
 1 SMP U+10C80..U+10CFF Old Hungarian 128 108 Old Hungarian
 1 SMP U+10D00..U+10D3F Hanifi Rohingya 64 50 Hanifi Rohingya
 1 SMP U+10E60..U+10E7F Rumi Numeral Symbols 32 31 Arabic
 1 SMP U+10E80..U+10EBF Yezidi 64 47 Yezidi
 1 SMP U+10EC0..U+10EFF Arabic Extended-C 64 3 Arabic
 1 SMP U+10F00..U+10F2F Old Sogdian 48 40 Old Sogdian
 1 SMP U+10F30..U+10F6F Sogdian 64 42 Sogdian
 1 SMP U+10F70..U+10FAF Old Uyghur 64 26 Old Uyghur
 1 SMP U+10FB0..U+10FDF Chorasmian 48 28 Chorasmian
 1 SMP U+10FE0..U+10FFF Elymaic 32 23 Elymaic
 1 SMP U+11000..U+1107F Brahmi 128 115 Brahmi
 1 SMP U+11080..U+110CF Kaithi 80 68 Kaithi
 1 SMP U+110D0..U+110FF Sora Sompeng 48 35 Sora Sompeng
 1 SMP U+11100..U+1114F Chakma 80 71 Chakma
 1 SMP U+11150..U+1117F Mahajani 48 39 Mahajani
 1 SMP U+11180..U+111DF Sharada 96 96 Sharada
 1 SMP U+111E0..U+111FF Sinhala Archaic Numbers 32 20 Sinhala
 1 SMP U+11200..U+1124F Khojki 80 65 Khojki
 1 SMP U+11280..U+112AF Multani 48 38 Multani
 1 SMP U+112B0..U+112FF Khudawadi 80 69 Khudawadi
 1 SMP U+11300..U+1137F Grantha 128 86 Grantha (85 characters), Inherited (1 character)
 1 SMP U+11400..U+1147F Newa 128 97 Newa
 1 SMP U+11480..U+114DF Tirhuta 96 82 Tirhuta
 1 SMP U+11580..U+115FF Siddham 128 92 Siddham
 1 SMP U+11600..U+1165F Modi 96 79 Modi
 1 SMP U+11660..U+1167F Mongolian Supplement 32 13 Mongolian
 1 SMP U+11680..U+116CF Takri 80 68 Takri
 1 SMP U+11700..U+1174F Ahom 80 65 Ahom
 1 SMP U+11800..U+1184F Dogra 80 60 Dogra
 1 SMP U+118A0..U+118FF Warang Citi 96 84 Warang Citi
 1 SMP U+11900..U+1195F Dives Akuru 96 72 Dives Akuru
 1 SMP U+119A0..U+119FF Nandinagari 96 65 Nandinagari
 1 SMP U+11A00..U+11A4F Zanabazar Square 80 72 Zanabazar Square
 1 SMP U+11A50..U+11AAF Soyombo 96 83 Soyombo
 1 SMP U+11AB0..U+11ABF Unified Canadian Aboriginal Syllabics Extended-A 16 16 Canadian Aboriginal
 1 SMP U+11AC0..U+11AFF Pau Cin Hau 64 57 Pau Cin Hau
 1 SMP U+11B00..U+11B5F Devanagari Extended-A 96 10 Devanagari
 1 SMP U+11C00..U+11C6F Bhaiksuki 112 97 Bhaiksuki
 1 SMP U+11C70..U+11CBF Marchen 80 68 Marchen
 1 SMP U+11D00..U+11D5F Masaram Gondi 96 75 Masaram Gondi
 1 SMP U+11D60..U+11DAF Gunjala Gondi 80 63 Gunjala Gondi
 1 SMP U+11EE0..U+11EFF Makasar 32 25 Makasar
 1 SMP U+11F00..U+11F5F Kawi 96 86 Kawi
 1 SMP U+11FB0..U+11FBF Lisu Supplement 16 1 Lisu
 1 SMP U+11FC0..U+11FFF Tamil Supplement 64 51 Tamil
 1 SMP U+12000..U+123FF Cuneiform 1,024 922 Cuneiform
 1 SMP U+12400..U+1247F Cuneiform Numbers and Punctuation 128 116 Cuneiform
 1 SMP U+12480..U+1254F Early Dynastic Cuneiform 208 196 Cuneiform
 1 SMP U+12F90..U+12FFF Cypro-Minoan 112 99 Cypro Minoan
 1 SMP U+13000..U+1342F Egyptian Hieroglyphs 1,072 1,072 Egyptian Hieroglyphs
 1 SMP U+13430..U+1345F Egyptian Hieroglyph Format Controls 48 38 Egyptian Hieroglyphs
 1 SMP U+14400..U+1467F Anatolian Hieroglyphs 640 583 Anatolian Hieroglyphs
 1 SMP U+16800..U+16A3F Bamum Supplement 576 569 Bamum
 1 SMP U+16A40..U+16A6F Mro 48 43 Mro
 1 SMP U+16A70..U+16ACF Tangsa 96 89 Tangsa
 1 SMP U+16AD0..U+16AFF Bassa Vah 48 36 Bassa Vah
 1 SMP U+16B00..U+16B8F Pahawh Hmong 144 127 Pahawh Hmong
 1 SMP U+16E40..U+16E9F Medefaidrin 96 91 Medefaidrin
 1 SMP U+16F00..U+16F9F Miao 160 149 Miao
 1 SMP U+16FE0..U+16FFF Ideographic Symbols and Punctuation 32 7 Han (4 characters), Khitan Small Script (1 character), Nushu (1 character), Tangut (1 character)
 1 SMP U+17000..U+187FF Tangut 6,144 6,136 Tangut
 1 SMP U+18800..U+18AFF Tangut Components 768 768 Tangut
 1 SMP U+18B00..U+18CFF Khitan Small Script 512 470 Khitan Small Script
 1 SMP U+18D00..U+18D7F Tangut Supplement 128 9 Tangut
 1 SMP U+1AFF0..U+1AFFF Kana Extended-B 16 13 Katakana
 1 SMP U+1B000..U+1B0FF Kana Supplement 256 256 Hiragana (255 characters), Katakana (1 character)
 1 SMP U+1B100..U+1B12F Kana Extended-A 48 35 Hiragana (32 characters), Katakana (3 characters)
 1 SMP U+1B130..U+1B16F Small Kana Extension 64 9 Hiragana (4 characters), Katakana (5 characters)
 1 SMP U+1B170..U+1B2FF Nushu 400 396 Nüshu
 1 SMP U+1BC00..U+1BC9F Duployan 160 143 Duployan
 1 SMP U+1BCA0..U+1BCAF Shorthand Format Controls 16 4 Common
 1 SMP U+1CF00..U+1CFCF Znamenny Musical Notation 208 185 Common (116 characters), Inherited (69 characters)
 1 SMP U+1D000..U+1D0FF Byzantine Musical Symbols 256 246 Common
 1 SMP U+1D100..U+1D1FF Musical Symbols 256 233 Common (211 characters), Inherited (22 characters)
 1 SMP U+1D200..U+1D24F Ancient Greek Musical Notation 80 70 Greek
 1 SMP U+1D2C0..U+1D2DF Kaktovik Numerals 32 20 Common
 1 SMP U+1D2E0..U+1D2FF Mayan Numerals 32 20 Common
 1 SMP U+1D300..U+1D35F Tai Xuan Jing Symbols 96 87 Common
 1 SMP U+1D360..U+1D37F Counting Rod Numerals 32 25 Common
 1 SMP U+1D400..U+1D7FF Mathematical Alphanumeric Symbols 1,024 996 Common
 1 SMP U+1D800..U+1DAAF Sutton SignWriting 688 672 SignWriting
 1 SMP U+1DF00..U+1DFFF Latin Extended-G 256 37 Latin
 1 SMP U+1E000..U+1E02F Glagolitic Supplement 48 38 Glagolitic
 1 SMP U+1E030..U+1E08F Cyrillic Extended-D 96 63 Cyrillic
 1 SMP U+1E100..U+1E14F Nyiakeng Puachue Hmong 80 71 Nyiakeng Puachue Hmong
 1 SMP U+1E290..U+1E2BF Toto 48 31 Toto
 1 SMP U+1E2C0..U+1E2FF Wancho 64 59 Wancho
 1 SMP U+1E4D0..U+1E4FF Nag Mundari 48 42 Mundari
 1 SMP U+1E7E0..U+1E7FF Ethiopic Extended-B 32 28 Ethiopic
 1 SMP U+1E800..U+1E8DF Mende Kikakui 224 213 Mende Kikakui
 1 SMP U+1E900..U+1E95F Adlam 96 88 Adlam
 1 SMP U+1EC70..U+1ECBF Indic Siyaq Numbers 80 68 Common
 1 SMP U+1ED00..U+1ED4F Ottoman Siyaq Numbers 80 61 Common
 1 SMP U+1EE00..U+1EEFF Arabic Mathematical Alphabetic Symbols 256 143 Arabic
 1 SMP U+1F000..U+1F02F Mahjong Tiles 48 44 Common
 1 SMP U+1F030..U+1F09F Domino Tiles 112 100 Common
 1 SMP U+1F0A0..U+1F0FF Playing Cards 96 82 Common
 1 SMP U+1F100..U+1F1FF Enclosed Alphanumeric Supplement 256 200 Common
 1 SMP U+1F200..U+1F2FF Enclosed Ideographic Supplement 256 64 Hiragana (1 character), Common (63 characters)
 1 SMP U+1F300..U+1F5FF Miscellaneous Symbols and Pictographs 768 768 Common
 1 SMP U+1F600..U+1F64F Emoticons 80 80 Common
 1 SMP U+1F650..U+1F67F Ornamental Dingbats 48 48 Common
 1 SMP U+1F680..U+1F6FF Transport and Map Symbols 128 118 Common
 1 SMP U+1F700..U+1F77F Alchemical Symbols 128 124 Common
 1 SMP U+1F780..U+1F7FF Geometric Shapes Extended 128 103 Common
 1 SMP U+1F800..U+1F8FF Supplemental Arrows-C 256 150 Common
 1 SMP U+1F900..U+1F9FF Supplemental Symbols and Pictographs 256 256 Common
 1 SMP U+1FA00..U+1FA6F Chess Symbols 112 98 Common
 1 SMP U+1FA70..U+1FAFF Symbols and Pictographs Extended-A 144 107 Common
 1 SMP U+1FB00..U+1FBFF Symbols for Legacy Computing 256 212 Common
 2 SIP U+20000..U+2A6DF CJK Unified Ideographs Extension B 42,720 42,720 Han
 2 SIP U+2A700..U+2B73F CJK Unified Ideographs Extension C 4,160 4,154 Han
 2 SIP U+2B740..U+2B81F CJK Unified Ideographs Extension D 224 222 Han
 2 SIP U+2B820..U+2CEAF CJK Unified Ideographs Extension E 5,776 5,762 Han
 2 SIP U+2CEB0..U+2EBEF CJK Unified Ideographs Extension F 7,488 7,473 Han
 2 SIP U+2EBF0..U+2EE5F CJK Unified Ideographs Extension I 624 622 Han
 2 SIP U+2F800..U+2FA1F CJK Compatibility Ideographs Supplement 544 542 Han
 3 TIP U+30000..U+3134F CJK Unified Ideographs Extension G 4,944 4,939 Han
 3 TIP U+31350..U+323AF CJK Unified Ideographs Extension H 4,192 4,192 Han
14 SSP U+E0000..U+E007F Tags 128 97 Common
14 SSP U+E0100..U+E01EF Variation Selectors Supplement 240 240 Inherited
15 PUA-A U+F0000..U+FFFFF Supplementary Private Use Area-A 65,536 65,534 Unknown
16 PUA-B U+100000..U+10FFFF Supplementary Private Use Area-B 65,536 65,534 Unknown

Скрипт [ править ]

Каждый назначенный символ может иметь одно значение свойства «Сценарий», указывающее, к какому сценарию он принадлежит. [20] Значение представляет собой четырехбуквенный код в диапазоне Aaaa-Zzzz, доступный в ISO 15924, который соответствует системе письма . За исключением описания истории и использования сценария, Unicode не использует связь между сценарием и языками , которые его используют. Таким образом, «иврит» относится к еврейской письменности, а не к ивриту.

Специальный код Zyyy для «Общего» позволяет использовать одно значение для символа, который используется в нескольких сценариях. Код Zinh «Унаследованный сценарий», используемый для объединения символов и некоторых других кодовых точек специального назначения, указывает, что символ «наследует» свою идентичность сценария от символа, с которым он объединен. (Раньше Unicode использовал для этой цели частный код Qaai.) Код Zzzz «Неизвестно» используется для всех символов, которые не принадлежат сценарию (т. е. значения по умолчанию), например символов и символов форматирования. В целом символы одного алфавита могут быть разбросаны по нескольким блокам, как символы латиницы . И наоборот: в одном блоке может присутствовать несколько алфавитов, например, блок Буквоподобные символы содержит символы латинского, греческого и общего алфавитов.

Если в качестве сценария указано «» (пусто), то согласно Юникоду этот символ не принадлежит сценарию. Это относится к символам, поскольку существующие коды сценариев ISO «Zmth» (математическая запись), «Zsym» (символ) и «Zsye» (символ, вариант эмодзи) не используются в Юникоде. Свойство «Сценарий» также пусто для кодовых точек, которые не являются типографскими символами, например элементов управления, заменителей и кодовых точек частного использования.

Если в ISO 15924 есть определенное имя псевдонима сценария, оно используется в имени персонажа: U + 0041 A ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A и U+05D0 א ЕВРЕЙСКАЯ БУКВА АЛЕФ .

ИСО 15924 Скрипт в Юникоде [и]
Код номер ISO Официальное название ISO Направленность Псевдоним Юникода [ф] Версия Персонажи Примечания Описание

Свойства нормализации [ править ]

Разложения, тип разложения, класс канонического объединения, исключения из композиции и многое другое.

Возраст [ править ]

Возраст — это версия Стандарта, в которой впервые была обозначена кодовая точка. Номер версии сокращается до нумерации major.minor, хотя используются более подробные номера версий: обе версии 4.0.0 и 4.0.1 называются 4.0 как Age. Учитывая релизы, Age может быть из диапазона: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0. , 12,0, 12,1, 13,0, 14,0, 15,0 и 15,1. [21] Длинные значения возраста начинаются с буквы V и используют подчеркивание вместо точки: например, V1_1. [2] Кодовые точки без специально назначенного значения возраста имеют значение «NA» с длинной формой «Не назначено».

Устарело [ править ]

После определения персонажа он не будет удален или переназначен. [22] Однако символ может быть объявлен устаревшим , что означает, что его «использование настоятельно не рекомендуется». [23] Начиная с версии Unicode 15.1, следующие пятнадцать символов считаются устаревшими: [24]

Устаревшие символы в Юникоде
Кодовая точка Имя персонажа Рекомендуемая альтернатива Примечания
U + 0149 ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N, КОТОРАЯ ПРЕДШЕСТВУЕТ АПОСТРОФ U + 02BC U + 006E а
U + 0673 АРАБСКАЯ БУКВА АЛЕФ С ВОЛНИСТОЙ ХАМЗОЙ НИЖЕ U + 0627 U + 065F А
U + 0F77 ТИБЕТСКИЙ ГЛАСНЫЙ ЗНАК ВОКАЛИЧНЫЙ RR U+0FB2 U+0F81 [а] ྲཱྀ
U + 0F79 ТИБЕТСКИЙ ЗНАК ГЛАСНЫХ ВОКАЛИК LL U+0FB3 U+0F81 [а] ླཱྀ
U + 17A3 КХМЕРСКИЙ НЕЗАВИСИМЫЙ ГЛАСНЫЙ QAQ U + 17A2
U + 17A4 КХМЕРСКИЙ НЕЗАВИСИМЫЙ ГЛАСНЫЙ QAA U+17A2 U+17B6 Ах
U + 206A ЗАПРЕЩЕНИЕ СИММЕТРИЧНОГО ОБМЕНА Никто [б]
U+206B АКТИВИРОВАТЬ СИММЕТРИЧНУЮ ПОДМЕНУ Никто [б]
U + 206C ИНГИБИРУЙТЕ АРАБСКОЕ ФОРМИРОВАНИЕ Никто [б]
U+206D АКТИВАЦИЯ АРАБСКОЙ ФОРМИРОВАНИЯ Никто [б]
U + 206E НАЦИОНАЛЬНЫЕ ЦИФРЫ Никто [б]
U + 206F НОМИНАЛЬНАЯ ФОРМА ЦИФР Никто [б]
U + 2329 УГЛОВОЙ КРОНШТЕЙН, НАПРАВЛЯЮЩИЙ ВЛЕВО U + 3008 [с] U + 27E8 МАТЕМАТИЧЕСКАЯ ЛЕВАЯ УГЛОВАЯ СКОБКА рекомендуется для математических и других технических целей.
U + 232А ПРАВЫЙ УГЛОВОЙ КРОНШТЕЙН U + 3009 [с] U + 27E9 МАТЕМАТИЧЕСКАЯ ПРАВАЯ УГЛОВАЯ СКОБКА рекомендуется для математических и других технических целей.
U + E0001 ЯЗЫКОВЫЙ ТЕГ Никто [д]
  1. ^ Jump up to: Перейти обратно: а б U+0F81 ྀ ЗНАК ТИБЕТСКОЙ ГЛАСНОЙ ПЕРЕВЕРНУТЫЙ II сам по себе не рекомендуется (но не устарел) и канонически эквивалентен последовательности U+0F71 U+0F80.
  2. ^ Jump up to: Перейти обратно: а б с д и ж Вместо использования этого управляющего символа для указания соответствующего внешнего вида текста следует использовать соответствующие коды символов с правильным состоянием. [25]
  3. ^ Jump up to: Перейти обратно: а б Этот альтернативный символ находится в блоке символов и пунктуации CJK и не подходит для математического или технического использования.
  4. ^ Вместо этого следует использовать альтернативные средства языковой маркировки. [26]

Границы [ править ]

Стандарт Unicode определяет следующие свойства, связанные с границами:

  • Графемный кластер
  • Слово
  • Линия
  • Предложение

Псевдоним [ править ]

Unicode может присваивать псевдонимы кодовым точкам. Эти имена уникальны для всех имен (включая обычные), поэтому их можно использовать в качестве идентификаторов. Существует пять возможных причин для добавления псевдонима:

1. Аббревиатура
Часто встречающиеся сокращения или акронимы управляющих кодов, символов формата, пробелов и селекторов вариантов.
Например, U+00A0   NO-BREAK SPACE имеет псевдоним НБСП . Иногда представлен в коробке:
НБСП
.
2. Контроль
Имена ISO 6429 для функций управления C0 и C1 и аналогичные часто встречающиеся имена добавляются к символу в качестве псевдонима.
Например, U+0008 <control-0008> имеет псевдоним НАЗАД .
3. Коррекция
Это исправление «серьезной проблемы» в имени основного персонажа, обычно это ошибка.
Например, U + 2118 ПРОПИСНАЯ ЗАГЛАВНАЯ P на самом деле является строчной буквой p, поэтому ей присвоен псевдоним. ЭЛЛИПТИЧЕСКАЯ ФУНКЦИЯ ВЕЙЕРШТРАСА : «на самом деле это имеет форму строчной каллиграфической буквы р, несмотря на ее название, и через псевдоним добавляется правильное написание». В описаниях с предшествующим символом .
4. Альтернативный
Широко используемое альтернативное имя персонажа.
Пример: U+FEFF НУЛЕВАЯ ШИРИНА NO-BREAK SPACE имеет альтернативу ЗНАК ПОРЯДКА БАЙТА .
5. Фигмент
Несколько задокументированных меток для контрольных кодовых точек C1, которые никогда не были фактически утверждены ни в одном стандарте ( figment = притворный, вымышленный).
Например, U+0099 <control-0099> имеет псевдоним вымысла. ОДИН ГРАФИЧЕСКИЙ ПЕРСОНАЖ . Это название представляет собой архитектурную концепцию из ранних проектов ISO/IEC 10646-1, но она так и не была утверждена и стандартизирована.

Внешние ссылки [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б с д и «Свойства персонажа» (PDF) . Стандартная версия Unicode 15 . Маунтин-Вью, Калифорния: Консорциум Unicode. Сентябрь 2022 г. ISBN  978-1-936213-32-0 . Проверено 16 сентября 2022 г.
  2. ^ Jump up to: Перейти обратно: а б с «Стандартное приложение Юникода № 44: База данных символов Юникода» . Юникод . 14 июня 2017 г.
  3. ^ «Приложение к стандарту Юникода № 44: База данных символов Юникода, 4.2.3 Диапазоны кодовых точек» . Юникод . 02.09.2022.
  4. ^ UnicodeData.txt
  5. ^ «UCD: псевдонимы имен» . База данных символов Юникода . Консорциум Юникод. 08.03.2019.
  6. ^ «Стандарты дизайна персонажей – космические символы» . Стандарты дизайна персонажей . Майкрософт . 1998–1999 гг. Архивировано из оригинала 14 марта 2010 года . Проверено 18 мая 2009 г.
  7. ^ Стандарт Unicode 5.0, печатное издание, стр. 205; также доступен на «Глава 6 — Системы письма и пунктуация» (PDF) . Стандарт Unicode 5.0, электронное издание . Консорциум Юникод . 14 июля 2006 г. п. 11 (205) . Проверено 22 декабря 2022 г.
  8. ^ «Общая пунктуация» (PDF) . Стандарт Юникод 5.1 . Юникод Инк . 1991–2008 гг . Проверено 13 мая 2009 г.
  9. ^ Сарджент, Мюррей III (29 августа 2006 г.). «Математическое кодирование почти простого текста в Юникоде (версия 2)» . Техническое примечание Unicode №28 . Юникод Инк . стр. 19–20 . Проверено 19 мая 2009 г.
  10. ^ Гиллам, Ричард (2002). Демистификация Unicode: Практическое руководство программиста по стандарту кодирования . Аддисон-Уэсли. ISBN  0-201-70052-2 .
  11. ^ Jump up to: Перейти обратно: а б Хиксон, Ян . «12.5 Ссылки на именованные символы» . Стандарт HTML . ЧТОРГ .
  12. ^ Вольфрам . «\[NegativeThickSpace]» . Документация по языку Wolfram .
  13. ^ Вольфрам . "\[NegativeMediumSpace]" . Документация по языку Wolfram .
  14. ^ Вольфрам . "\[NegativeThinSpace]" . Документация по языку Wolfram .
  15. ^ Вольфрам . «\[NegativeVeryThinSpace]» . Документация по языку Wolfram .
  16. ^ Фальтстрем, П., изд. (август 2010 г.). «Нулевая ширина без соединения» . Кодовые элементы Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.1. дои : 10.17487/RFC5892 . РФК 5892 . Проверено 4 сентября 2019 г.
  17. ^ Фальтстрем, П., изд. (август 2010 г.). «Столяр нулевой ширины» . Кодовые элементы Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.2. дои : 10.17487/RFC5892 . РФК 5892 . Проверено 4 сентября 2019 г.
  18. ^ «Стандартное приложение Юникода № 44, База данных символов Юникода» .
  19. ^ Jump up to: Перейти обратно: а б «Приложение № 9 к стандарту Unicode: двунаправленный алгоритм Unicode» . Стандарт Юникод . 14 мая 2017 г.
  20. ^ «Стандартное приложение Unicode № 24: Свойство сценария Unicode» . Стандарт Юникод . 01.06.2015.
  21. ^ «UCD: Производный возраст» . База данных символов Юникода . Консорциум Юникод. 28 июля 2023 г.
  22. ^ «Политика стабильности кодировки символов Юникода» . Юникод . Консорциум Юникод . 23 июня 2017 г. Проверено 25 июля 2021 г. После того как символ закодирован, он не будет перемещен или удален.
  23. ^ «3.4: Символы и кодировка, D13: устаревший символ» (PDF) . Стандарт Юникод, версия 15.0 . Маунтин-Вью: Консорциум Unicode . 13 сентября 2022 г. ISBN  978-1-936213-32-0 . Проверено 16 сентября 2022 г.
  24. ^ «PropList-15.1.0.txt» . Юникод . Консорциум Юникод . 01.08.2023 . Проверено 12 сентября 2023 г.
  25. ^ «Глава 23.3: Устаревшие символы формата» (PDF) . Стандарт Юникод, версия 13.0 . Маунтин-Вью: Консорциум Unicode . 10.03.2020. ISBN  978-1-936213-26-9 . Проверено 25 июля 2021 г.
  26. ^ «23.9: Символы тегов, использование устаревших языковых тегов» (PDF) . Стандарт Юникод, версия 13.0 . Маунтин-Вью: Консорциум Unicode . 10.03.2020. ISBN  978-1-936213-26-9 . Проверено 25 июля 2021 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7cda5176b125bfc0f725599cdb0d5488__1714586760
URL1:https://arc.ask3.ru/arc/aa/7c/88/7cda5176b125bfc0f725599cdb0d5488.html
Заголовок, (Title) документа по адресу, URL1:
Unicode character property - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)