Jump to content

ТРОН (кодировка)

ТРОН
Язык(и) английский, китайский, японский, корейский
Создано проект ТРОН
Классификация ДБКС
Преобразует/кодирует ДЖИС С 0208 , ДЖИС С 0212 , ДЖИС С 0213 , ГБ 2312 , КС С 1001 , Биг5 , ГБ 18030 , другие

Код TRON — это многобайтовая кодировка символов, используемая в проекте TRON . Он похож на Unicode , но не использует процесс унификации Unicode Han : каждый символ из каждого набора символов CJK кодируется отдельно, включая архаичные и исторические эквиваленты современных символов. Это означает, что китайский, японский и корейский текст можно смешивать без какой-либо двусмысленности относительно точной формы символов; однако это также означает, что многие [ который? ] символы с эквивалентной семантикой будут кодироваться более одного раза, что усложняет некоторые операции.

В TRON есть место для 150 миллионов кодовых точек. Отдельные кодовые точки для китайского, корейского и японского вариантов более чем 70 000 символов хань в Unicode 4.1 (если бы это было сочтено необходимым) потребовали бы более 200 000 кодовых точек в TRON. TRON включает неханьские символы из Unicode 2.0, но он не соответствует последним выпускам Unicode, поскольку Unicode выходит за пределы базовой многоязычной плоскости и добавляет символы в существующие сценарии. Кодировка TRON была обновлена ​​и теперь включает другие недавние обновления кодовой страницы, такие как JIS X 0213 . [1]

Шрифты для кодировки TRON доступны, но имеют ограничения на коммерческое использование. [2]

Структура [ править ]

Каждый символ в коде TRON кодируется двумя байтами (при условии, что он присутствует в текущей плоскости кодирования). Подобно ISO/IEC 2022 , кодировка символов TRON обрабатывает символы в нескольких наборах символов в рамках одной кодировки символов, используя escape-последовательности, называемые кодами спецификаторов языка, для переключения между плоскостями из 48 400 кодовых точек. Наборы символов, включенные в код TRON, включают существующие наборы символов, такие как JIS X 0208 и GB 2312 , а также другие источники символов, такие как Dai Kan-Wa Jiten , и некоторые сценарии, не включенные в другие кодировки, такие как символы Dongba .

Благодаря включению в код TRON целых наборов символов многие символы с эквивалентной семантикой кодируются несколько раз; например, все символы кандзи в шрифте GT получают свои собственные кодовые точки, несмотря на то, что многие из них перекрываются с другими наборами символов кандзи, которые уже включены, например JIS X 0208. Одним из таких примеров является символ 亜 (расположенный в Юникоде по адресу U). +4E9C), который появляется в регионе JIS X 0208 по адресу 1-3021, в регионе GT Typeface по адресу 2-2464 и в регионе Dai Kan-Wa Jiten по адресу 8-2373.

Коды управления [ править ]

Байты в диапазоне от 0x00 до 0x20 и 0x7F зарезервированы для использования в управляющих кодах.

Коды символов [ править ]

Персонажи в каждой плоскости разделены на четыре зоны. Каждая зона выделяется отдельно; например, в плоскости 1 символы JIS X 0208 находятся в зоне A, начиная с 0x2121, символы JIS X 0213 находятся как в зоне A, так и в зоне B, а символы GB 2312 находятся в зоне C, начиная с 0x2180.

Зона Первый байт Второй байт Нб. кодовых точек
Зона А 0x21–0x7E 0x21–0x7E 0 94 × 0 94 = 0 8,836
Зона Б 0x80–0xFD 0x21–0x7E 126 × 0 94 = 11,844
Зона С 0x21–0x7E 0x80–0xFD 0 94 × 126 = 11,844
Зона Д 0x80–0xFD 0x80–0xFD 126 × 126 = 15,876
Всего на самолет 220 × 220 = 48,400

Кодовые точки TRON обозначаются как «X-YYYY», где «X» — это номер плоскости в десятичном формате, а «YYYY» — это кодовая точка в шестнадцатеричном формате. В качестве альтернативы можно использовать обозначение «0xNNYYYY», где «NN» — второй шестнадцатеричный байт кода спецификатора языка. Текстовый формат "&TNNYYYY;" может использоваться для обозначения кодовой точки TRON в тексте ASCII аналогично ссылкам на числовые символы в HTML, SGML или XML . Однако стандартный и соответствующий анализатор HTML или XML будет рассматривать их как именованные сущности, которые нельзя напрямую и легко сопоставить с действительными и однозначными последовательностями кодовых точек в UCS без обширного DTD для их определения (возможно, с использованием некоторых символы частного использования для escape-символов TRON или селекторы вариантов Unicode, сопоставленные с символами TRON для кодирования разных символов TRON, представленных как один и тот же символ в UCS): для поддержки текстового формата TRON, совместимого с стандартные UTF для UCS.

Коды спецификаторов языка [ править ]

Коды спецификаторов языка имеют префикс 0xFE. Допустимые суффиксы: от 0x21 до 0x7E (ссылаются на плоскости с 1 по 94) и от 0x80 до 0xFE (для будущих плоскостей), многие из которых нераспределены.

Специальные и escape-коды [ править ]

Специальные коды имеют префикс 0xFF.

Самолеты [ править ]

Ниже приведены плоскости, выделенные для использования в коде TRON, а также соответствующие им коды спецификаторов языка и описание наборов символов, включенных в каждую плоскость.

Самолет Код спецификатора языка Описание
1 FE 21JIS X 0208 , JIS X 0212 , JIS X 0213 , GB 2312 , KS X 1001 и шрифт Брайля
2 FE 22Символы шрифта GT
3 FE 23Символы шрифта GT (продолжение)
6 FE 26Большой5
8 FE 28 Дай Кан-Ва Джитен Персонажи
9 FE 29Дай Кан-Ва Джитен, продолжение, хентайгана и разные персонажи
10 FE 2AСценарии меньшинств (символы донгба)
16 FE 30Юникод 2.0 (кроме CJK Unified и Hangul)
17 FE 31Unicode 2.0 (исключая CJK Unified и Hangul) продолжение
22 FE 36ГБ 18030
23 FE 37ГБ 18030 продолжение

Самолеты с 11 по 15 изначально были выделены для хранения набора символов Модзикё , но споры привели к тому, что самолеты были исключены. Все остальные самолеты до 31 в настоящее время зарезервированы для распределения в будущем.

См. также [ править ]

Внешние ссылки [ править ]

Ссылки [ править ]

  1. ^ «Название T-Engine Forum было изменено на TRON Forum» . T-engine.org. 01.04.2015 . Проверено 16 сентября 2018 г.
  2. ^ «Условия использования проекта T Font» . Charcenter.t-engine.org Проверено 16 сентября 2018 г. .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a76d5a908a905fb7058bf543f3e2ff03__1716827340
URL1:https://arc.ask3.ru/arc/aa/a7/03/a76d5a908a905fb7058bf543f3e2ff03.html
Заголовок, (Title) документа по адресу, URL1:
TRON (encoding) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)