Самолет (Юникод)
Эта статья нуждается в дополнительных цитатах для проверки . ( июль 2016 г. ) |
В Unicode стандарте плоскость — это непрерывная группа из 65 536 (2 16 ) кодовые точки . Существует 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00–10 16 первых двух позиций в шестизначном шестнадцатеричном формате (U+ hh hhhh ). Плоскость 0 — это базовая многоязычная плоскость (BMP), содержащая наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами». [1] Последняя кодовая точка в Юникоде — это последняя кодовая точка в плоскости 16, U+10FFFF. Начиная с версии Unicode 15.1, пяти плоскостям присвоены кодовые точки (символы), а семь имеют имена.
Ограничение в 17 плоскостей связано с UTF-16 , который может кодировать 2 20 кодовые точки (16 плоскостей) как пары слов плюс BMP как одно слово. [2] UTF-8 был разработан с гораздо большим пределом в 2. 31 (2 147 483 648) кодовых точек (32 768 плоскостей) и по-прежнему сможет кодировать 2 21 (2 097 152) кодовых точек (32 плоскости) даже при текущем пределе в 4 байта . [3]
17 плоскостей могут вместить 1 114 112 кодовых точек. Из них 2048 являются суррогатными (используются для создания пар в UTF-16), 66 — несимвольными , а 137 468 зарезервированы для частного использования , а 974 530 — для публичного назначения.
Плоскости далее подразделяются на блоки Unicode , которые, в отличие от плоскостей, не имеют фиксированного размера. 328 блоков, определенных в Unicode 15.1, охватывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (шестнадцать блоков) до максимум 65 536 кодовых точек (дополнительная область частного использования-A и -B, которые составляют совокупность плоскостей 15 и 16). Для будущего использования предварительно намечены диапазоны символов для большинства известных современных и древних систем письма. [4]
Обзор
[ редактировать ]Назначенные персонажи
[ редактировать ]Самолет | Выделенные кодовые точки [примечание 1] версия 15.0 | Назначенные персонажи |
---|---|---|
0 БМП | 65,520 | 55,639 |
1 средняя школа | 26,160 | 23,276 |
2 СИП | 61,536 | 61,495 |
3 СОВЕТ | 9,136 | 9,131 |
14 ССП | 368 | 337 |
15 СПУА-А | 65,536 | 0 (по определению) |
16 СПУА-Б | 65,536 | 0 (по определению) |
Итоги | 293,792 | 149,878 |
- ^ Кодовые точки, выделенные в блок Юникода .
Базовая многоязычная плоскость
[ редактировать ]Первая плоскость, плоскость 0 , Basic Multilingual Plane ( BMP ), содержит символы практически всех современных языков и большое количество символов . Основной целью BMP является поддержка унификации предшествующих наборов символов, а также символов для письма . Большинство назначенных кодовых точек в BMP используются для кодирования символов китайского, японского и корейского языков ( CJK ).
Коды High Surrogate ( U+D800–U+DBFF ) и Low Surrogate ( U+DC00–U+DFFF ) зарезервированы для кодирования символов, отличных от BMP, в UTF-16 с использованием пары 16- битных кодов: один High Surrogate. и один низкий суррогатный материнский капитал. Одному суррогатному коду никогда не будет присвоен символ.
65 520 из 65 536 кодовых точек в этой плоскости были выделены блоку Unicode, оставив только 16 кодовых точек в одном нераспределенном диапазоне (2FE0..2FEF).
Начиная с Юникод 15.1 [update], БМП состоит из следующих 164 блоков:
- Алфавитные сценарии слева направо:
- Базовая латиница (нижняя половина ISO/IEC 8859-1 : ISO/IEC 646:1991-IRV, также известная как ASCII ) (0000–007F)
- Дополнение Latin-1 (верхняя половина ISO/IEC 8859-1 ) (0080–00FF)
- Латинский расширенный-A (0100–017F)
- Латинский расширенный-B (0180–024F)
- Расширения IPA (0250–02AF)
- Буквы-модификаторы интервала (02B0–02FF)
- Объединение диакритических знаков (0300–036F)
- Греческий и коптский (0370–03FF)
- Кириллица (0400–04FF)
- Кириллическое дополнение (0500–052F)
- Армянский (0530–058F)
- Семитские абджады и другие письма справа налево:
- Иврит (0590–05FF)
- Арабский (06:00–06FF)
- Сирийский (07:00–074F)
- Арабское приложение (0750–077F)
- Таана (0780–07BF)
- Н'Ко (07C0–07FF)
- Самаритянин (08:00–083F)
- Мандаик (08:40–085F)
- Сирийское приложение (0860–086F)
- Арабский расширенный-B (0870–089F)
- Арабский расширенный-A (08A0–08FF)
- Брахмические сценарии:
- Деванагари (0900–097F)
- Бенгальский (0980–09FF)
- Гурмухи (0A00–0A7F)
- Гуджарати (0A80–0AFF)
- Ория (0B00–0B7F)
- Тамильский (0B80–0BFF)
- Телугу (0C00–0C7F)
- Каннада (0C80–0CFF)
- Малаялам (0D00–0D7F)
- Сингальский (0D80–0DFF)
- Тайский (0E00–0E7F)
- Лаосский (0E80–0EFF)
- Тибетский (0F00–0FFF)
- Мьянма (1000–109F)
- Другие алфавитные или слоговые сценарии с направлением письма слева направо:
- Грузинский (10A0–10FF)
- Хангыль Джамо (11:00–11FF)
- Эфиопский (1200–137F)
- Эфиопское дополнение (1380–139F)
- Чероки (13A0–13FF)
- Единая слоговая письменность канадских аборигенов (1400–167F)
- Огам (1680–169F)
- Рунический (16A0–16FF)
- Филиппинские сценарии:
- Тагальский (1700–171F)
- Хануноо (1720–173 гг.)
- Бухид (1740–175F)
- Тагбанва (1760–177F)
- Кхмерский (1780–1717 гг.)
- Монгольский (1800–18 гг. ВФ)
- Расширенное унифицированное слоговое письмо канадских аборигенов (18B0–18FF)
- Брахмические сценарии:
- Лимбу (1900–194F)
- Этот сценарий:
- Тай Ле (1950–197F)
- Нью Тай Лю (1980–19DF)
- Кхмерские символы (19E0–19FF)
- Бугийский (1A00–1A1F)
- Тай Там (1A20–1AAF)
- Расширенное объединение диакритических знаков (1AB0–1AFF)
- Индонезийские сценарии:
- Лепча (1C00–1C4F)
- Ol Chiki (1C50–1C7F)
- Другие буквенные или слоговые дополнения слева направо:
- Расширенная кириллица-C (1C80–1C8F)
- Грузинский расширенный (1C90–1CBF)
- Суданская добавка (1CC0–1CCF)
- Ведические расширения (1CD0–1CFF)
- Другие буквенные дополнения слева направо:
- Фонетические расширения (1D00–1D7F)
- Дополнение к фонетическим расширениям (1D80–1DBF)
- Дополнение к объединению диакритических знаков (1DC0–1DFF)
- Расширенный латинский язык (1E00–1EFF)
- Греческий расширенный (1F00–1FFF)
- Символы :
- Общая пунктуация (2000–206F)
- Надстрочные и нижние индексы (2070–209F)
- Символы валют (20A0–20CF)
- Объединение диакритических знаков для символов (20D0–20FF)
- Буквенные символы (2100–214F)
- Числовые формы (2150–218F)
- Стрелы (2190–21FF)
- Математические операторы (2200–22FF)
- Разное техническое (2300–23FF)
- Контрольные изображения (2400–243F)
- Оптическое распознавание символов (2440–245F)
- Закрытые буквенно-цифровые символы (2460–24FF)
- Чертеж коробки (2500–257F)
- Блочные элементы (2580–259F)
- Геометрические фигуры (25A0–25FF)
- Разные символы (2600–26FF)
- Дингбаты (2700–27BF)
- Разные математические символы-A (27C0–27EF)
- Дополнительные стрелки-A (27F0–27FF)
- Образцы Брайля (2800–28FF)
- Дополнительные стрелки-Б (2900–297F)
- Разные математические символы-B (2980–29FF)
- Дополнительные математические операторы (2A00–2AFF)
- Разные символы и стрелки (2B00–2BFF)
- Другие алфавитные сценарии или дополнения слева направо:
- Глаголица (2C00–2C5F)
- Расширенная латиница-C (2C60–2C7F)
- Коптский (2C80–2CFF)
- Грузинское приложение (2D00–2D2F)
- Африканские сценарии:
- Тифинаг (2D30–2D7F)
- Эфиопский расширенный (2D80–2DDF)
- Другие буквенные дополнения слева направо:
- Расширенная кириллица-A (2DE0–2DFF)
- Дополнительная пунктуация (2E00–2E7F)
- CJK Скрипты и символы :
- Добавка радикалов CJK (2E80–2EFF)
- Радикалы Канси (2F00–2FDF)
- Символы идеографического описания (2FF0–2FFF)
- Символы и пунктуация CJK (3000–303F)
- Хирагана (3040–309F)
- Катакана (30A0–30FF)
- Бопомофо (3100–312F)
- Джамо, совместимый с хангылем (3130–318F)
- Канбун (3190–319F)
- Бопомофо расширенный (31A0–31BF)
- CJK Удары (31C0–31EF)
- Фонетические расширения катаканы (31F0–31FF)
- Прилагаемые письма и месяцы CJK (3200–32FF)
- Совместимость с CJK (3300–33FF)
- Расширение A унифицированных иероглифов CJK (3400–4DBF)
- Символы гексаграммы Ицзин (4DC0–4DFF)
- Унифицированные иероглифы CJK (4E00–9FFF)
- Мои слоги (A000–A48F)
- Радикалы И (A490–A4CF)
- Lisu (A4D0–A4FF)
- Африканские сценарии:
- Или (А500-А63Ф)
- Другие буквенные дополнения слева направо:
- Расширенная кириллица-B (A640–A69F)
- Африканские сценарии:
- Бамум (A6A0–A6FF)
- Другие буквенные дополнения слева направо:
- Буквы тона модификатора (A700–A71F)
- Расширенная латиница-D (A720–A7FF)
- Брахмические сценарии:
- Силоти Нагри (A800–A82F)
- Общие формы индексных чисел (A830–A83F)
- Фагс-па (A840–A87F)
- Саураштра (A880–A8DF)
- Деванагари расширенный (A8E0 – A8FF)
- Кая Ли (A900–A92F)
- Реджанг (A930–A95F)
- Хангыль Джамо Расширенный-A (A960–A97F)
- Брахмические сценарии:
- Яванский (A980–A9DF)
- Мьянма Расширенный-B (A9E0 – A9FF)
- Чам (AA00–AA5F)
- Мьянма Расширенный-A (AA60–AA7F)
- Тай Вьет (AA80 – AADF)
- Расширения Meetei Mayek (AAE0 – AAFF)
- Эфиопский расширенный-A (AB00–AB2F)
- Латинский расширенный-E (AB30–AB6F)
- Дополнение чероки (AB70–ABBF)
- Встречайте Майек (ABC0 – ABFF)
- Слоги хангыля (AC00–D7AF)
- Хангыль Джамо Расширенный-B (D7B0–D7FF)
- Суррогаты :
- Высшие суррогаты (D800–DB7F)
- Суррогаты с высоким уровнем частного использования (DB80 – DBFF)
- Низкие суррогаты (DC00 – DFFF)
- Зона частного использования (E000–F8FF)
- Идеограммы совместимости CJK (F900–FAFF)
- Алфавитные формы представления (FB00–FB4F)
- Формы презентации на арабском языке-A (FB50–FDFF)
- Селекторы вариантов (FE00–FE0F)
- Вертикальные формы (FE10–FE1F)
- Объединение половинных оценок (FE20–FE2F)
- Формы совместимости CJK (FE30–FE4F)
- Варианты малой формы (FE50–FE6F)
- Формы презентации на арабском языке-B (FE70–FEFF)
- Формы половинной и полной ширины (FF00–FFEF)
- Специальные предложения (FFF0–FFFF)
Дополнительный многоязычный самолет
[ редактировать ]Уровень 1 , дополнительный многоязычный уровень ( SMP ), содержит исторические шрифты (кроме идеографических CJK), а также символы и обозначения, используемые в определенных полях. Сценарии включают линейное письмо B , египетские иероглифы и клинопись . Он также включает английские реформаторские орфографии, такие как Шавиан и Дезерет , и некоторые современные сценарии, такие как Осейдж , Варанг Сити , Адлам , Ванчо и Тото . Символы и обозначения включают исторические и современные нотные обозначения ; математическая буквенно-цифровая обработка ; стенографии; эмодзи и другие наборы пиктограмм; и игровые символы для игральных карт , маджонга и домино .
Начиная с Юникод 15.1 [update], SMP состоит из следующих 151 блоков:
- Архаичный греческий и другие сценарии письма слева направо:
- Слоговое письмо линейного письма B (10000–1007F)
- Идеограммы линейного письма B (10080–100FF)
- Эгейские числа (10100–1013F)
- Древнегреческие числа (10140–1018F)
- Древние символы (10190–101CF)
- Фестский диск (101D0–101FF)
- Ликийский (10280–1029F)
- Поиск (102A0–102DF)
- Номера коптского договора (102E0–102FF)
- Старый курсив (10300–1032F)
- Готика (10330–1034F)
- Старый Пермик (10350–1037F)
- Угаритовый (10380–1039F)
- Древнеперсидский (103A0–103DF)
- Дезерет (10400–1044F)
- Шавиан (10450–1047F)
- Османия (10480–104AF)
- Осейдж (104B0–104FF)
- Эльбасан (10500–1052F)
- Кавказский албанец (10530–1056F)
- Виткуки (10570–105BF)
- Линейное письмо А (10600–1077F)
- Латинский расширенный-F (10780–107BF)
- Скрипты справа налево:
- Кипрское слоговое письмо (10800–1083F)
- Императорский арамейский (10840–1085F)
- Пальмирена (10860–1087F)
- Набатейский (10880–108AF)
- Хатран (108E0–108FF)
- Финикийский (10900–1091F)
- Лидийский (10920–1093F)
- Мероитские иероглифы (10980–1099F)
- Мероитский курсив (109A0–109FF)
- Харости (10A00–10A5F)
- Древнеюжноаравийский (10A60–10A7F)
- Древнесевероаравийский (10A80–10A9F)
- Манихей (10AC0–10AFF)
- Авестийский (10B00–10B3F)
- Надписной парфянский (10B40–10B5F)
- Надпись Пехлеви (10B60–10B7F)
- Псалтирь Пехлеви (10B80–10BAF)
- Древнетюркский (10C00–10C4F)
- Старовенгерский (10C80–10CFF)
- Ханифи Рохинджа (10D00–10D3F)
- Цифровые символы Руми (10E60–10E7F)
- Езиды (10E80–10EBF)
- Арабский расширенный-C (10EC0–10EFF)
- Древнесогдийский (10F00–10F2F)
- Согдийский (10F30–10F6F)
- Старый уйгур (10F70–10FAF)
- Хорезмический (10FB0–10FDF)
- Элимейский (10FE0–10FFF)
- Брахмические сценарии:
- Брахми (11000–1107F)
- Кайти (11080–110CF)
- Сора Сомпенг (110D0–110FF)
- Чакма (11100–1114F)
- Махаджани (11150–1117F)
- Шарада (11180–111DF)
- Сингальские архаичные числа (111E0–111FF)
- Хойки (11200–1124F)
- Мултани (11280–112AF)
- Худавади (112B0–112FF)
- Грантха (11300–1137F)
- Ньюа (11400–1147F)
- Тирхута (11480–114DF)
- Сиддхам (11580–115FF)
- Режимы (11600–1165F)
- Монгольское дополнение (11660–1167F)
- Такри (11680–116CF)
- Ахом (11700–1174F)
- Догра (11800–1184F)
- Магазин Сити (118A0–118FF)
- Дайвс Акуру (11900–1195F)
- Нандинагари (119A0–119FF)
- Площадь Занабазара (11A00–11A4F)
- Сойомбо (11A50–11AAF)
- Унифицированное слоговое письмо канадских аборигенов, расширенное-A (11AB0–11ABF)
- Брахмические сценарии:
- Пау Син Хау (11AC0–11AFF)
- Деванагари Расширенный-A (11B00–11B5F)
- Бхайксуки (11C00–11C6F)
- Марчен (11C70–11CBF)
- Масарам Гонди (11D00–11D5F)
- Гунджала Гонди (11D60–11DAF)
- Макассар (11EE0–11EFF)
- Кави (11F00–11F5F)
- Дополнение Лису (11FB0–11FBF)
- Тамильское дополнение (11FC0–11FFF)
- Клинопись:
- Клинопись (12000–123FF)
- Клинописные цифры и пунктуация (12400–1247F)
- Раннединастическая клинопись (12480–1254 гг.)
- Кипро-минойский (12F90–12FFF)
- Иероглифические сценарии:
- Египетские иероглифы (13000–1342F)
- Элементы управления форматом египетских иероглифов (13430–1345F)
- Анатолийские иероглифы (14400–1467F)
- Дополнение к Бамуму (16800–16A3F)
- Мро (16A40–16A6F)
- Танса (16A70–16ACF)
- Басса Вах (16AD0–16AFF)
- Пахау Хмонг (16B00–16B8F)
- Медефаидрин (16E40–16E9F)
- Мяо (16F00–16F9F)
- Восточноазиатские сценарии:
- Идеографические символы и пунктуация (16FE0–16FFF)
- Тангут (17000–187FF)
- Тангутские компоненты (18800–18АФФ)
- Киданьское маленькое письмо (18B00–18CFF)
- Тангутское дополнение (18D00–18D7F)
- Кана расширенная-B (1AFF0–1AFFF)
- Дополнение Кана (1B000–1B0FF)
- Кана Расширенная-А (1B100–1B12F)
- Малый или удлинитель (1B130–1B16F)
- Нушу (1B170–1B2FF)
- Нотационные системы письма:
- Дуплоян (1BC00–1BC9F)
- Элементы управления сокращенным форматом (1BCA0–1BCAF)
- Символы и цифры:
- Музыкальная нотация :
- Знаменная нотная запись (1CF00–1CFCF)
- Византийские музыкальные символы (1D000–1D0FF)
- Музыкальные символы (1D100–1D1FF)
- Древнегреческая нотная запись (1D200–1D24F)
- Кактовик Числа (1D2C0–1D2DF)
- Цифры майя (1D2E0–1D2FF)
- Математические символы :
- Символы Тай Сюань Цзин (1D300–1D35F)
- Счет стержневых цифр (1D360–1D37F)
- Математические буквенно-цифровые символы (1D400–1D7FF)
- Музыкальная нотация :
- Нотационные системы письма:
- Саттон SignWriting (1D800–1DAAF)
- Другие сценарии слева направо:
- Расширенная латынь-G (1DF00–1DFFF)
- Глаголица дополнение (1E000–1E02F)
- Расширенная кириллица-D (1E030–1E08F)
- Ньякенг Пуачуэ Хмонг (1E100–1E14F)
- Тото (1E290–1E2BF)
- Ванчо (1E2C0–1E2FF)
- Наг Мундари (1E4D0–1E4FF)
- Африканские сценарии:
- Эфиопский расширенный-B (1E7E0–1E7FF)
- Менде Кикакуи (1E800–1E8DF)
- Отскок (1E900–1E95F)
- Символы и цифры:
- Индийские числа Сияка (1EC70–1ECBF)
- Османские сиякские номера (1ED00–1ED4F)
- Арабские математические алфавитные символы (1EE00–1EEFF)
- Игровые плитки и карты:
- Плитки для маджонга (1F000–1F02F)
- Плитки домино (1F030–1F09F)
- Игральные карты (1F0A0–1F0FF)
- Прилагаемое буквенно-цифровое дополнение (1F100–1F1FF)
- Закрытое идеографическое приложение (1F200–1F2FF)
- Разные символы и пиктограммы (1F300–1F5FF)
- Смайлики (1F600–1F64F)
- Декоративные дингбаты (1F650–1F67F)
- Символы транспорта и карты (1F680–1F6FF)
- Алхимические символы (1F700–1F77F)
- Расширенные геометрические фигуры (1F780–1F7FF)
- Дополнительные стрелки-C (1F800–1F8FF)
- Дополнительные символы и пиктограммы (1F900–1F9FF)
- Шахматные символы (1FA00–1FA6F)
- Расширенные символы и пиктограммы-A (1FA70–1FAFF)
- Символы устаревших вычислений (1FB00–1FBFF)
Дополнительная идеографическая плоскость
[ редактировать ]Плоскость 2 , дополнительная идеографическая плоскость ( SIP ), используется для идеографов CJK, в основном унифицированных идеографов CJK , которые не были включены в более ранние стандарты кодирования символов.
Начиная с Юникод 15.1 [update]SIP состоит из следующих семи блоков:
- Расширение B унифицированных иероглифов CJK (20000–2A6DF)
- Расширение C унифицированных идеографов CJK (2A700–2B73F)
- Расширение D унифицированных иероглифов CJK (2B740–2B81F)
- Расширение E унифицированных иероглифов CJK (2B820–2CEAF)
- Расширение F унифицированных иероглифов CJK (2CEB0–2EBEF)
- Расширение I унифицированных иероглифов CJK (2EBF0–2EE5F)
- Дополнение к иероглифам совместимости CJK (2F800–2FA1F)
Третичный идеографический план
[ редактировать ]Плоскость 3 — это третичная идеографическая плоскость (TIP). Расширение CJK Unified Ideographs Extension G было добавлено в TIP в Unicode 13.0, выпущенном в марте 2020 года. [5] Он также предварительно выделен для сценариев Oracle Bone и Small Seal Script . [6]
Начиная с Юникод 15.1 [update], TIP состоит из следующих двух блоков:
- Расширение унифицированных иероглифов CJK G (30000–3134F)
- Расширение унифицированных идеографов CJK H (31350–323AF)
Неназначенные самолеты
[ редактировать ]Самолеты с 4 по 13 (самолеты от 4 до D в шестнадцатеричном формате ): Никакие символы еще не были назначены или предложены для назначения планам с 4 по 13.
Дополнительный самолет специального назначения
[ редактировать ]Самолет 14 ( E в шестнадцатеричном формате) обозначается как Дополнительный самолет специального назначения ( SSP ). Он состоит из следующих двух блоков , начиная с Unicode 15.1. [update]:
- Теги (E0000–E007F)
- Дополнение к селекторам вариантов (E0100–E01EF) – используется для обозначения альтернативных глифов для символов.
Самолеты для частного использования
[ редактировать ]Два самолета 15 и 16 (плоскости Ф и 10 в шестнадцатеричном формате), каждый из которых содержит « Область частного использования ». Они содержат блоки с именами Дополнительная зона частного использования-A ( PUA-A ) и -B ( PUA-B ). Области частного использования доступны для использования сторонами, не входящими в ISO и Unicode (частная кодировка символов).
Ссылки
[ редактировать ]- ^ «Глоссарий» . www.unicode.org . Проверено 27 сентября 2021 г.
- ^ См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf.
- ^ См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf.
- ^ «Дорожные карты для Unicode» . www.unicode.org . Проверено 27 сентября 2021 г.
- ^ «Анонс стандарта Unicode, версия 13.0» .
- ^ «Предлагаемые новые персонажи: Трубопровод» . www.unicode.org .