Jump to content

Самолет (Юникод)

В Unicode стандарте плоскость — это непрерывная группа из 65 536 (2 16 ) кодовые точки . Существует 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00–10 16 первых двух позиций в шестизначном шестнадцатеричном формате (U+ hh hhhh ). Плоскость 0 — это базовая многоязычная плоскость (BMP), содержащая наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами». [1] Последняя кодовая точка в Юникоде — это последняя кодовая точка в плоскости 16, U+10FFFF. Начиная с версии Unicode 15.1, пяти плоскостям присвоены кодовые точки (символы), а семь имеют имена.

Ограничение в 17 плоскостей связано с UTF-16 , который может кодировать 2 20 кодовые точки (16 плоскостей) как пары слов плюс BMP как одно слово. [2] UTF-8 был разработан с гораздо большим пределом в 2. 31 (2 147 483 648) кодовых точек (32 768 плоскостей) и по-прежнему сможет кодировать 2 21 (2 097 152) кодовых точек (32 плоскости) даже при текущем пределе в 4 байта . [3]

17 плоскостей могут вместить 1 114 112 кодовых точек. Из них 2048 являются суррогатными (используются для создания пар в UTF-16), 66 — несимвольными , а 137 468 зарезервированы для частного использования , а 974 530 — для публичного назначения.

Плоскости далее подразделяются на блоки Unicode , которые, в отличие от плоскостей, не имеют фиксированного размера. 328 блоков, определенных в Unicode 15.1, охватывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (шестнадцать блоков) до максимум 65 536 кодовых точек (дополнительная область частного использования-A и -B, которые составляют совокупность плоскостей 15 и 16). Для будущего использования предварительно намечены диапазоны символов для большинства известных современных и древних систем письма. [4]

Обзор [ править ]

Назначенные персонажи [ править ]

Самолет Выделенные кодовые точки [примечание 1] версия 15.0 Назначенные персонажи
0 БМП 65,520 55,639
1 средняя школа 26,160 23,276
2 СИП 61,536 61,495
3 СОВЕТ 9,136 9,131
14 ССП 368 337
15 СПУА-А 65,536 0 (по определению)
16 СПУА-Б 65,536 0 (по определению)
Итоги 293,792 149,878
  1. ^ Кодовые точки, выделенные в блок Юникода .

Базовый многоязычный самолет [ править ]

Карта базовой многоязычной плоскости. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Первая плоскость, плоскость 0 , Basic Multilingual Plane ( BMP ), содержит символы практически всех современных языков и большое количество символов . Основной целью BMP является поддержка унификации предшествующих наборов символов, а также символов для письма . Большинство назначенных кодовых точек в BMP используются для кодирования символов китайского, японского и корейского языков ( CJK ).

Коды High Surrogate ( U+D800–U+DBFF ) и Low Surrogate ( U+DC00–U+DFFF ) зарезервированы для кодирования символов, отличных от BMP, в UTF-16 с использованием пары 16- битных кодов: один High Surrogate. и один низкий суррогатный материнский капитал. Одному суррогатному коду никогда не будет присвоен символ.

65 520 из 65 536 кодовых точек в этой плоскости были выделены блоку Unicode, оставив только 16 кодовых точек в одном нераспределенном диапазоне (2FE0..2FEF).

Начиная с Юникод 15.1 , БМП состоит из следующих 164 блоков:

самолет Дополнительный многоязычный

Карта дополнительной многоязычной плоскости. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Уровень 1 , дополнительный многоязычный уровень ( SMP ), содержит исторические шрифты (кроме идеографических CJK), а также символы и обозначения, используемые в определенных полях. Сценарии включают линейное письмо B , египетские иероглифы и клинопись . Он также включает английские реформаторские орфографии, такие как Шавиан и Дезерет , и некоторые современные сценарии, такие как Осейдж , Варанг Сити , Адлам , Ванчо и Тото . Символы и обозначения включают исторические и современные нотные обозначения ; математическая буквенно-цифровая обработка ; стенографии; эмодзи и другие наборы пиктограмм; и игровые символы для игральных карт , маджонга и домино .

Начиная с Юникод 15.1 , SMP состоит из следующих 151 блоков:

Дополнительная идеографическая плоскость [ править ]

Карта дополнительной идеографической плоскости. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Плоскость 2 , дополнительная идеографическая плоскость ( SIP ), используется для идеографов CJK, в основном унифицированных идеографов CJK , которые не были включены в более ранние стандарты кодирования символов.

Начиная с Юникод 15.1 SIP состоит из следующих семи блоков:

план идеографический Третичный

Карта третичного идеографического плана. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Плоскость 3 — это третичная идеографическая плоскость (TIP). Расширение CJK Unified Ideographs Extension G было добавлено в TIP в Unicode 13.0, выпущенном в марте 2020 года. [5] Он также предварительно выделен для сценариев Oracle Bone и Small Seal Script . [6]

Начиная с Юникод 15.1 , TIP состоит из следующих двух блоков:

Неназначенные самолеты [ править ]

Самолеты с 4 по 13 (самолеты от 4 до D в шестнадцатеричном виде ): Никакие символы еще не были назначены или предложены для назначения планам с 4 по 13.

Дополнительный самолет специального назначения [ править ]

Карта дополнительного самолета специального назначения. Каждый пронумерованный квадрат представляет 256 кодовых точек.

Самолет 14 ( E в шестнадцатеричном формате) обозначается как Дополнительный самолет специального назначения ( SSP ). Он состоит из следующих двух блоков , начиная с Unicode 15.1. :

Самолеты использования для частного

Два самолета 15 и 16 (плоскости Ф и 10 в шестнадцатеричном формате), каждый из которых содержит « Область частного использования ». Они содержат блоки с именами Дополнительная зона частного использования-A ( PUA-A ) и -B ( PUA-B ). Области частного использования доступны для использования сторонами, не входящими в ISO и Unicode (частная кодировка символов).

Ссылки [ править ]

  1. ^ «Глоссарий» . www.unicode.org . Проверено 27 сентября 2021 г.
  2. ^ См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf.
  3. ^ См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf.
  4. ^ «Дорожные карты для Unicode» . www.unicode.org . Проверено 27 сентября 2021 г.
  5. ^ «Анонс стандарта Unicode, версия 13.0» .
  6. ^ «Предлагаемые новые персонажи: Трубопровод» . www.unicode.org .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c55c9e3fd9672d00c3bc8ef79ec62965__1717834620
URL1:https://arc.ask3.ru/arc/aa/c5/65/c55c9e3fd9672d00c3bc8ef79ec62965.html
Заголовок, (Title) документа по адресу, URL1:
Plane (Unicode) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)