ТРОН (кодировка)
Язык(и) | английский, китайский, японский, корейский |
---|---|
Создано | проект ТРОН |
Классификация | ДБКС |
Преобразует/кодирует | ДЖИС С 0208 , ДЖИС С 0212 , ДЖИС С 0213 , ГБ 2312 , КС С 1001 , Биг5 , ГБ 18030 , другие |
Код TRON — это многобайтовая кодировка символов, используемая в проекте TRON . Он похож на Unicode , но не использует процесс унификации Unicode Han : каждый символ из каждого набора символов CJK кодируется отдельно, включая архаичные и исторические эквиваленты современных символов. Это означает, что китайский, японский и корейский текст можно смешивать без какой-либо двусмысленности относительно точной формы символов; однако это также означает, что многие [ который? ] символы с эквивалентной семантикой будут кодироваться более одного раза, что усложняет некоторые операции.
В TRON есть место для 150 миллионов кодовых точек. Отдельные кодовые точки для китайского, корейского и японского вариантов более чем 70 000 символов хань в Unicode 4.1 (если бы это было сочтено необходимым) потребовали бы более 200 000 кодовых точек в TRON. TRON включает неханьские символы из Unicode 2.0, но он не соответствует последним выпускам Unicode, поскольку Unicode выходит за пределы базовой многоязычной плоскости и добавляет символы в существующие сценарии. Кодировка TRON была обновлена и теперь включает другие недавние обновления кодовой страницы, такие как JIS X 0213 . [1]
Шрифты для кодировки TRON доступны, но имеют ограничения на коммерческое использование. [2]
Структура [ править ]
Каждый символ в коде TRON кодируется двумя байтами (при условии, что он присутствует в текущей плоскости кодирования). Подобно ISO/IEC 2022 , кодировка символов TRON обрабатывает символы в нескольких наборах символов в рамках одной кодировки символов, используя escape-последовательности, называемые кодами спецификаторов языка, для переключения между плоскостями из 48 400 кодовых точек. Наборы символов, включенные в код TRON, включают существующие наборы символов, такие как JIS X 0208 и GB 2312 , а также другие источники символов, такие как Dai Kan-Wa Jiten , и некоторые сценарии, не включенные в другие кодировки, такие как символы Dongba .
Благодаря включению в код TRON целых наборов символов многие символы с эквивалентной семантикой кодируются несколько раз; например, все символы кандзи в шрифте GT получают свои собственные кодовые точки, несмотря на то, что многие из них перекрываются с другими наборами символов кандзи, которые уже включены, например JIS X 0208. Одним из таких примеров является символ 亜 (расположенный в Юникоде по адресу U). +4E9C), который появляется в регионе JIS X 0208 по адресу 1-3021, в регионе GT Typeface по адресу 2-2464 и в регионе Dai Kan-Wa Jiten по адресу 8-2373.
Коды управления [ править ]
Байты в диапазоне от 0x00 до 0x20 и 0x7F зарезервированы для использования в управляющих кодах.
Коды символов [ править ]
Персонажи в каждой плоскости разделены на четыре зоны. Каждая зона выделяется отдельно; например, в плоскости 1 символы JIS X 0208 находятся в зоне A, начиная с 0x2121, символы JIS X 0213 находятся как в зоне A, так и в зоне B, а символы GB 2312 находятся в зоне C, начиная с 0x2180.
Зона | Первый байт | Второй байт | Нб. кодовых точек |
---|---|---|---|
Зона А | 0x21–0x7E | 0x21–0x7E | 94 × 94 = 8,836 |
Зона Б | 0x80–0xFD | 0x21–0x7E | 126 × | 94 = 11,844
Зона С | 0x21–0x7E | 0x80–0xFD | 94 × 126 = 11,844 |
Зона Д | 0x80–0xFD | 0x80–0xFD | 126 × 126 = 15,876 |
Всего на самолет | 220 × 220 = 48,400 |
Кодовые точки TRON обозначаются как «X-YYYY», где «X» — это номер плоскости в десятичном формате, а «YYYY» — это кодовая точка в шестнадцатеричном формате. В качестве альтернативы можно использовать обозначение «0xNNYYYY», где «NN» — второй шестнадцатеричный байт кода спецификатора языка. Текстовый формат "&TNNYYYY;" может использоваться для обозначения кодовой точки TRON в тексте ASCII аналогично ссылкам на числовые символы в HTML, SGML или XML . Однако стандартный и соответствующий анализатор HTML или XML будет рассматривать их как именованные сущности, которые нельзя напрямую и легко сопоставить с действительными и однозначными последовательностями кодовых точек в UCS без обширного DTD для их определения (возможно, с использованием некоторых символы частного использования для escape-символов TRON или селекторы вариантов Unicode, сопоставленные с символами TRON для кодирования разных символов TRON, представленных как один и тот же символ в UCS): для поддержки текстового формата TRON, совместимого с стандартные UTF для UCS.
Коды спецификаторов языка [ править ]
Коды спецификаторов языка имеют префикс 0xFE. Допустимые суффиксы: от 0x21 до 0x7E (ссылаются на плоскости с 1 по 94) и от 0x80 до 0xFE (для будущих плоскостей), многие из которых нераспределены.
Специальные и escape-коды [ править ]
Специальные коды имеют префикс 0xFF.
Самолеты [ править ]
Ниже приведены плоскости, выделенные для использования в коде TRON, а также соответствующие им коды спецификаторов языка и описание наборов символов, включенных в каждую плоскость.
Самолет | Код спецификатора языка | Описание |
---|---|---|
1 | FE 21 | JIS X 0208 , JIS X 0212 , JIS X 0213 , GB 2312 , KS X 1001 и шрифт Брайля |
2 | FE 22 | Символы шрифта GT |
3 | FE 23 | Символы шрифта GT (продолжение) |
6 | FE 26 | Большой5 |
8 | FE 28 | Дай Кан-Ва Джитен Персонажи |
9 | FE 29 | Дай Кан-Ва Джитен, продолжение, хентайгана и разные персонажи |
10 | FE 2A | Сценарии меньшинств (символы донгба) |
16 | FE 30 | Юникод 2.0 (кроме CJK Unified и Hangul) |
17 | FE 31 | Unicode 2.0 (исключая CJK Unified и Hangul) продолжение |
22 | FE 36 | ГБ 18030 |
23 | FE 37 | ГБ 18030 продолжение |
Самолеты с 11 по 15 изначально были выделены для хранения набора символов Модзикё , но споры привели к тому, что самолеты были исключены. Все остальные самолеты до 31 в настоящее время зарезервированы для распределения в будущем.
См. также [ править ]
Внешние ссылки [ править ]
- Система кодов TRON Система кодов TRON в спецификации BTRON
- сбора персонажей ТРОН Центр
- Super Kanji со стандартом BTRON Операционная система
- Шрифт GT明朝 Tron GT-Mincho
- Архив проекта ITRON
- Страница активного персонажа TRON
- Обработка китайских иероглифов и кода TRON
Ссылки [ править ]
- ^ «Название T-Engine Forum было изменено на TRON Forum» . T-engine.org. 01.04.2015 . Проверено 16 сентября 2018 г.
- ^ «Условия использования проекта T Font» . Charcenter.t-engine.org Проверено 16 сентября 2018 г. .