Т.51/ИСО/МЭК 6937
Наборы кодированных символов на основе латиницы для телематических услуг. | |
Статус | Действующий |
---|---|
Год начался | 1984 |
Последняя версия | (09/92) сентябрь 1992 г. |
Организация | ЭТО Т |
комитет | Исследовательская комиссия VIII |
Сопутствующие стандарты | T.61 , ETS 300 706 , ISO/IEC 10367 , ISO/IEC 2022 , ISO 5426 |
Домен | кодирование |
Лицензия | Свободно доступен |
Веб-сайт | https://www.itu.int/rec/T-REC-T.51 |
Псевдоним(а) |
|
---|---|
Стандартный | |
На основе | ЭТО Т.61 |
Другая связанная кодировка(и) | |
T.51 / ISO/IEC 6937:2001 , Информационные технологии. Кодированный графический набор символов для текстовой связи. Латинский алфавит , представляет собой многобайтовое расширение ASCII , или, точнее, ISO/IEC 646 -IRV. [1] Он был разработан совместно с ITU-T (тогда CCITT ) для телематических служб под названием T.51 и впервые стал стандартом ISO в 1983 году. Определенные байтовые коды используются в качестве ведущих байтов для букв с диакритическими знаками ( ударениями ). Значение ведущего байта часто указывает, какой диакритический знак имеет буква, а следующий байт затем имеет значение ASCII для буквы, на которой находится диакритический знак.
Архитекторами ISO/IEC 6937 были Хью МакГрегор Росс , Питер Фенвик, Бернард Марти и Люк Зекендорф .
ISO6937/2 определяет 327 символов, встречающихся в современных европейских языках с использованием латинского алфавита . Нелатинские европейские символы, такие как кириллица и греческий , в стандарт не включены. Кроме того, некоторые диакритические знаки, используемые в латинском алфавите, такие как румынская запятая , не включены, вместо этого используется седилль, поскольку в то время не было сделано никакого различия между седилем и запятой, указанными ниже.
IANA зарегистрировало имена кодировок ISO_6937-2-25 и ISO_6937-2-add для двух (более старых) версий этого стандарта (плюс управляющие коды). Но на практике эта кодировка символов в Интернете не используется.
Однобайтовые символы
[ редактировать ]Основной набор (первая половина) первоначально соответствовал ISO 646-IRV до пересмотра ISO/IEC 646:1991 , то есть в основном следовал ASCII , но с символом 0x24, который по-прежнему обозначался как « знак международной валюты » (¤) вместо знака доллара. ($). Издание ITU T.51 1992 года разрешает существующим службам CCITT продолжать интерпретировать 0x24 как знак международной валюты, но предусматривает, что новые телекоммуникационные приложения должны использовать его в качестве знака доллара (т. е. в соответствии с действующим стандартом ISO 646-IRV) и вместо этого представлять знак международной валюты с использованием дополнительного набора. [2]
Дополнительный набор (вторая половина) содержит набор графических символов с пробелами и без пробелов, дополнительные символы и некоторые места, зарезервированные для будущей стандартизации.
Оба они представляют собой наборы графических символов ISO/IEC 2022 , причем основной набор представляет собой набор из 94 кодов, а вторичный набор — из 96 кодов. В контекстах, где методы расширения кода ISO 2022 не используются, основной набор обозначается как набор G0 и вызывается через GL ( 0x 20..0x7F), тогда как дополнительный набор обозначается как набор G2 и вызывается через GR (0xA0 ..0xFF) в 8-битной среде или с помощью управляющего кода 0x19 в качестве одиночной смены в 7-битной среде. [3] Эта кодировка кода Single Shift Two соответствует его местоположению в ISO-IR -106. [4]
ISO/IEC 2022 Escape-последовательность для обозначения дополнительного набора ISO/IEC 6937 как набора G2: ESC . R
(шестнадцатеричный 1B 2E 52
). [2] [5] [6] Более старый дополнительный набор ISO 6937/2:1983 зарегистрирован как набор из 94 кодов и обозначен G2 с ESC * l
(шестнадцатеричный 1B 2A 6C
). [5] [7]
Двухбайтовые символы
[ редактировать ]Буквы с акцентом, которым не присвоены отдельные коды в основном или дополнительном наборе, кодируются с использованием двух байтов. За первым байтом, «диакритическим знаком без пробелов», следует буква из базового набора, например:
small e with acute accent (é) = [Acute]+e
Стандарт ITU T.51 выделяет столбец 4 дополнительного набора (т. е. 0x C0–CF при использовании в 8-битном формате) непробельным диакритическим символам. [2] Однако ISO/IEC 6937 определяет полностью определенный набор символов, сопоставляя список последовательностей композиции с именами символов ISO/IEC 10646 . Изолированные байты без пробелов не включены в этот репертуар, хотя варианты диакритических знаков, которые иначе не присутствуют в ASCII, включены, при этом пробел ASCII является завершающим байтом. [5] [8] Следовательно, только определенные комбинации ведущего и последующего байта соответствуют стандарту ISO/IEC.
Этот репертуар также прикреплен к версии спецификации МСЭ как Приложение А, хотя версия МСЭ не ссылается на него в основном тексте. Он описывается как «унифицированный расширенный набор» репертуара символов латинского алфавита. [2] Он соответствует репертуару ISO/IEC 10367 наборы ASCII, Latin-1 (или Latin-5 ), Latin-2 и дополнительные наборы латиницы . , когда используются [5]
Unicode Эта система также отличается от системы комбинируемых символов тем, что диакритический код предшествует букве (а не следует за ней), что делает ее более похожей на ANSEL .
Небольшая аномалия заключается в том, что латинская строчная буква G с седилем кодируется так, как если бы она была с акутом, то есть с ведущим байтом 0xC2, поскольку из-за того, что ее нисходящий элемент мешает седилле, строчная буква обычно с перевернутой запятой вверху. : Гарантированная победа .
Всего за 13 диакритическими знаками могут следовать выбранные символы из основного набора:
Акцент | Код | Второй персонаж | Результат |
---|---|---|---|
Могила | 0xC1 | AEIOUaeiou | ÀÈÌÒÙàèìòù |
Острый | 0xC2 | ACEILNORSUYZacegilnorsuyz | ÁĆÉÍĹŃÓŔŚÚÝŹáćéģíĺńóŕśúýź |
Циркумфлекс | 0xC3 | ACEGHIJOSUWYaceghijosuwy | ÂĈÊĜĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŷŷ |
Тильда | 0xC4 | АЙНОУайну | ÃĨÑÕŨãìñõũ |
Макрон | 0xC5 | AEIOUaeiou | Да |
Краткий | 0xC6 | АГУагу | ĂĞăğŭ |
Точка | 0xC7 | CEGIZcegz | ЦЕКЕЦЭЦЕ |
Умлаут или диэрезис | 0xC8 | AEIOUYaeiouy | ÄËÏÖÜŸäëïöüÿ |
Кольцо | 0xCA | Оуу | ÅŮåů |
Седиль | 0xCB | CGKLNRSTcklnrst | ÇĢĶĻŅŖŞŢçķļņŗşţţ |
Двойной острый | 0xCD | Оуу | Он |
Хвост | 0xCE | Долги Долги | Да |
Кэрон | 0xCF | CDELNRSTZcdelnrstz | ČĎĽŇŘŠŤŽčďěľňřšťž |
Макет кодовой страницы
[ редактировать ]Ссылка на объединение символов в диапазоне U+0300–U+036F для кодов в диапазоне 0xC1–0xCF ниже подлежит оговоркам, упомянутым выше; их нельзя просто сопоставить с перечисленными кодовыми точками. Кроме того, Unicode различает 0xE2 на прописные буквы D с штрихом и прописные буквы Eth , которые обычно выглядят по-разному для строчных букв (0xF2 и 0xF3).
В старом издании ITU T.51 1988 года определены две версии дополнительного набора: в первой версии отсутствуют неразрывный пробел , мягкий дефис , отсутствие знака ( ¬ ) и прерывистая черта ( ¦ ), присутствующие во второй версии. Первая версия была определена как расширение дополнительного набора T.61 , а вторая версия как расширение первой версии. [9] Текущее издание (1992 г.) включает только вторую версию, объявляет устаревшими определенные символы и обновляет основной набор до текущего ISO-646-IRV ( ASCII ), хотя существующим телематическим службам разрешено сохранять старое поведение. [2]
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
0x | ||||||||||||||||
1x | ||||||||||||||||
2x | СП | ! | " | # | $ / ¤ [а] | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | И | Ф | Г | ЧАС | я | Дж | К | л | М | Н | ТО |
5x | П | вопрос | Р | С | Т | В | V | В | Х | И | С | [ | \ | ] | ^ | _ |
6x | ` | а | б | с | д | и | ж | г | час | я | дж | к | л | м | н | тот |
7x | п | д | р | с | т | в | v | В | х | и | С | { | | | } | ~ | |
8x | ||||||||||||||||
9x | ||||||||||||||||
Топор | НБСП | ¡ | ¢ | £ | $ [б] | ¥ | # [б] | § | ¤ | ‘ | “ | « | ← | ↑ | → | ↓ |
Бх | ° | ± | ² | ³ | × | м | ¶ | · | ÷ | ’ | ” | » | ¼ | ½ | ¾ | ¿ |
Сх | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̆ | ◌̇ | ◌̈ | ◌̊ | ◌̧ | ◌̲ [с] | ◌̋ | ◌̨ | ◌̌ | ||
Дх | ― | ¹ | ® | © | ™ | ♪ | ¬ | ¦ | ⅛ | ⅜ | ⅝ | ⅞ | ||||
Бывший | Ой | Ой | А / Д | й | ЧАС | [д] | IJ | Ŀ | Л | Ø | О | й | че | Ŧ | С | а |
Форекс | ĸ | ой | Д | д | час | я | ij | ŀ | л | ø | œ | SS | то есть | » | ŋ | ЗАСТЕНЧИВЫЙ |
Версия Видеотекс
[ редактировать ]Версии дополнительного набора, используемые стандартом ITU T.101 для Videotex, основаны на первом дополнительном наборе редакции T.51 1988 года.
Набор G2 по умолчанию для синтаксиса данных 2 добавляет ΅ в 0xC0 для комбинации с кодами из основного греческого набора. [10]
Дополнительный набор для Data Syntax 3 добавляет непромежуточные знаки для «векторной верхней черты», косой черты и нескольких полуграфических символов . [11]
Версия ETS 300 706
[ редактировать ]Стандарт ETS 300 706 для телетекста World System основывает набор G2 на ISO 6937. [12] Это расширенный набор дополнительного набора T.61 и расширенный набор первого дополнительного набора издания T.51 1988 года, но в некоторых позициях он конфликтует с текущим изданием T.51. Диакритические коды в версии ETS указаны как «для связи с» используемыми символами из набора G0 . [12] например US-ASCII или BS_viewdata . Эта версия показана на диаграмме ниже.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
Топор | СП | ¡ | ¢ | £ | $ | ¥ | # | § | ¤ | ‘ | “ | « | ← | ↑ | → | ↓ |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Бх | ° | ± | ² | ³ | × | м | ¶ | · | ÷ | ’ | ” | » | ¼ | ½ | ¾ | ¿ |
Сх | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̆ | ◌̇ | ◌̈ | ̣◌̣ | ◌̊ | ◌̧ | ◌̲ | ◌̋ | ◌̨ | ◌̌ | |
Дх | ― | ¹ | ® | © | ™ | ♪ | ₠ | ‰ | а | ⅛ | ⅜ | ⅝ | ⅞ | |||
Бывший | Ой | Ой | А / Д | й | ЧАС | IJ | Ŀ | Л | Ø | О | й | че | Ŧ | С | а | |
Форекс | ĸ | ой | Д | д | час | я | ij | ŀ | л | ø | œ | SS | то есть | » | ŋ | ■ |
См. также
[ редактировать ]Сноски
[ редактировать ]- ^ Продолжение использования ¤ разрешено только для существующих служб CCITT. [2]
- ^ Jump up to: а б Разрешено только для существующих служб CCITT, в противном случае следует использовать представление ASCII. [2]
- ^ Отмечено в версии стандарта ITU как существующее использование подчеркнутого текста в сочетании с любыми другими символами, включая символы с диакритическими знаками. Хотя этот код включен в издание ITU 1988 года, [9] издание ITU 1992 года не рекомендует отправлять этот код в пользу escape-последовательностей ANSI , хотя и упоминает, что его следует правильно интерпретировать при получении применимыми системами. [2] Предыдущие редакции версии стандарта ISO/IEC также позволяли комбинировать этот код с любым символом в определенном репертуаре. [7] тогда как более поздние версии не включают этот код. [5]
- ↑ В раннем проекте œ поместилось на эту позицию.
Ссылки
[ редактировать ]- ^ «T.51: Наборы кодированных символов на основе латиницы для телематических услуг» . www.itu.int . Архивировано из оригинала 08.10.2019 . Проверено 14 ноября 2019 г.
- ^ Jump up to: а б с д и ж г час МККТТ (18 сентября 1992 г.). Наборы кодированных символов на основе латиницы для телематических услуг (изд. 1992 г.). Рекомендация Т.51.
- ^ МСЭ-Т (11 августа 1995 г.). Рекомендация T.51 (1992 г.) Поправка 1 .
- ^ МСЭ (1 августа 1985 г.). Основной набор функций управления Teletex (PDF) . ITSCJ/ IPSJ . ИСО-ИК -106.
- ^ Jump up to: а б с д и ISO/IEC JTC 1/SC 2/WG 3 (15 апреля 1998 г.). WD 6937, Кодированный набор графических символов для текстовой связи — латиница (PDF) . JTC1/SC2/N454.
{{citation}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ ISO/IEC JTC 1/SC 2/WG 3 (15 декабря 1991 г.). Дополнительный комплект ISO/IEC 6937:1992 (PDF) . ITSCJ/ IPSJ . ИСО-ИК -156.
{{citation}}
: CS1 maint: числовые имена: список авторов ( ссылка ) (слева — US-ASCII .) - ^ Jump up to: а б ISO/TC97/SC2/WG4 (10 января 1985 г.). Дополнительный набор латинских алфавитных и неалфавитных графических символов (PDF) . ITSCJ/ IPSJ . ИСО-ИК -90.
{{citation}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Петерсен, Дж. К. (29 мая 2002 г.). Иллюстрированный словарь по телекоммуникациям . ЦРК Пресс. п. 888. ИСБН 978-1-4200-4067-8 .
- ^ Jump up to: а б МККТТ (1988). Наборы кодированных символов для телематических служб (изд. 1988 г.). Рекомендация Т.51.
- ^ МККТТ (1 ноября 1988 г.). Дополнительный набор графических символов для Videotex (PDF) . ITSCJ/ IPSJ . ИСО-ИК -70.
- ^ МККТТ (30 ноября 1986 г.). Дополнительный набор графических символов для Рекомендации CCITT T.101, Синтаксис данных III (PDF) . ITSCJ/ IPSJ . ИСО-ИК -128.
- ^ Jump up to: а б с ETSI (1997). «15.6.3 Набор Latin G2». Спецификация расширенного телетекста (PDF) (PDF) . п. 116. ETS 300 706.
Внешние ссылки
[ редактировать ]- Рекомендация МСЭ T.51
- Страницы ISO: ISO 6937-1:1983 , ISO 6937-2:1983 , ISO 6937-2:1983/Добавить 1:1989 , ISO/IEC 6937:1994 , ISO/IEC 6937:2001.
- WD 6937, Набор кодированных графических символов для текстовой связи — латинский алфавит (пересмотр ISO/IEC 6937:1994) (проект ISO/IEC 6937:1994)
- ISO-IR-156 ( по ISO-IR ) регистрация правой части