Jump to content

Т.51/ИСО/МЭК 6937

Т.51
Наборы кодированных символов на основе латиницы для телематических услуг.
Статус Действующий
Год начался 1984
Последняя версия (09/92)
сентябрь 1992 г.
Организация ЭТО Т
комитет Исследовательская комиссия VIII
Сопутствующие стандарты T.61 , ETS 300 706 , ISO/IEC 10367 , ISO/IEC 2022 , ISO 5426
Домен кодирование
Лицензия Свободно доступен
Веб-сайт https://www.itu.int/rec/T-REC-T.51
Т.51
Псевдоним(ы)
  • Кодовая страница 20269
  • ИСО-ИР -90 (старый)
  • ИСО-ИР-142 (старый)
  • ИСО-ИР-156
Стандартный
На основе ЭТО Т.61
Другая связанная кодировка(и)

T.51 / ISO/IEC 6937:2001 , Информационные технологии. Кодированный графический набор символов для текстовой связи. Латинский алфавит , представляет собой многобайтовое расширение ASCII , или, точнее, ISO/IEC 646 -IRV. [1] Он был разработан совместно с ITU-T (тогда CCITT ) для телематических служб под названием T.51 и впервые стал стандартом ISO в 1983 году. Определенные байтовые коды используются в качестве ведущих байтов для букв с диакритическими знаками ( ударениями ). Значение ведущего байта часто указывает, какой диакритический знак имеет буква, а следующий байт затем имеет значение ASCII для буквы, на которой находится диакритический знак.

Архитекторами ISO/IEC 6937 были Хью МакГрегор Росс , Питер Фенвик, Бернард Марти и Люк Зекендорф .

ISO6937/2 определяет 327 символов, встречающихся в современных европейских языках с использованием латинского алфавита . Нелатинские европейские символы, такие как кириллица и греческий , в стандарт не включены. Кроме того, некоторые диакритические знаки, используемые в латинском алфавите, такие как румынская запятая , не включены, вместо этого используется седилль, поскольку в то время не было сделано никакого различия между седилем и запятой, указанными ниже.

IANA зарегистрировало имена кодировок ISO_6937-2-25 и ISO_6937-2-add для двух (более старых) версий этого стандарта (плюс управляющие коды). Но на практике эта кодировка символов в Интернете не используется.

Однобайтовые символы [ править ]

Основной набор (первая половина) первоначально соответствовал ISO 646-IRV до пересмотра ISO/IEC 646:1991 , то есть в основном следовал ASCII , но с символом 0x24, который по-прежнему обозначался как « знак международной валюты » (¤) вместо знака доллара. ($). Издание ITU T.51 1992 года разрешает существующим службам CCITT продолжать интерпретировать 0x24 как знак международной валюты, но предусматривает, что новые телекоммуникационные приложения должны использовать его в качестве знака доллара (т. е. в соответствии с действующим стандартом ISO 646-IRV) и вместо этого представлять знак международной валюты с использованием дополнительного набора. [2]

Дополнительный набор (вторая половина) содержит набор графических символов с пробелами и без пробелов, дополнительные символы и некоторые места, зарезервированные для будущей стандартизации.

Оба они представляют собой наборы графических символов ISO/IEC 2022 , причем основной набор представляет собой набор из 94 кодов, а вторичный набор — из 96 кодов. В контекстах, где методы расширения кода ISO 2022 не используются, основной набор обозначается как набор G0 и вызывается через GL ( 0x 20..0x7F), тогда как дополнительный набор обозначается как набор G2 и вызывается через GR (0xA0 ..0xFF) в 8-битной среде или с помощью управляющего кода 0x19 в качестве одиночной смены в 7-битной среде. [3] Эта кодировка кода Single Shift Two соответствует его местоположению в ISO-IR -106. [4]

ISO/IEC 2022 Escape-последовательность для обозначения дополнительного набора ISO/IEC 6937 как набора G2: ESC . R (шестнадцатеричный 1B 2E 52). [2] [5] [6] Более старый дополнительный набор ISO 6937/2:1983 зарегистрирован как набор из 94 кодов и обозначен G2 с ESC * l (шестнадцатеричный 1B 2A 6C). [5] [7]

Двухбайтовые символы [ править ]

Буквы с акцентом, которым не присвоены отдельные коды в основном или дополнительном наборе, кодируются с использованием двух байтов. За первым байтом, «диакритическим знаком без пробелов», следует буква из базового набора, например:

small e with acute accent (é) = [Acute]+e

Стандарт ITU T.51 выделяет столбец 4 дополнительного набора (т. е. 0x C0–CF при использовании в 8-битном формате) непробельным диакритическим символам. [2] Однако ISO/IEC 6937 определяет полностью определенный набор символов, сопоставляя список последовательностей композиции с именами символов ISO/IEC 10646 . Изолированные байты без пробелов не включены в этот репертуар, хотя варианты диакритических знаков, которые иначе не присутствуют в ASCII, включены, при этом пробел ASCII является завершающим байтом. [5] [8] Следовательно, только определенные комбинации ведущего и последующего байта соответствуют стандарту ISO/IEC.

Этот репертуар также прикреплен к версии спецификации МСЭ как Приложение А, хотя версия МСЭ не ссылается на него в основном тексте. Он описывается как «унифицированный расширенный набор» репертуара символов латинского алфавита. [2] Он соответствует репертуару ISO/IEC 10367 наборы ASCII, Latin-1 (или Latin-5 ), Latin-2 и дополнительные наборы латиницы . , когда используются [5]

Unicode Эта система также отличается от системы комбинируемых символов тем, что диакритический код предшествует букве (а не следует за ней), что делает ее более похожей на ANSEL .

Небольшая аномалия заключается в том, что латинская строчная буква G с седилем кодируется так, как если бы она была с акутом, то есть с ведущим байтом 0xC2, поскольку из-за того, что ее нисходящий элемент мешает седилле, строчная буква обычно с перевернутой запятой вверху. : Гарантированная победа .

Всего за 13 диакритическими знаками могут следовать выбранные символы из основного набора:

Акцент Код Второй персонаж Результат
Могила 0xC1 AEIOUaeiou ÀÈÌÒÙàèìòù
Острый 0xC2 ACEILNORSUYZacegilnorsuyz ÁĆÉÍĹŃÓŔŚÚÝŹáćéģíĺńóŕśúýź
Циркумфлекс 0xC3 ACEGHIJOSUWYaceghijosuwy ÂĈÊĜĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŷŷ
Тильда 0xC4 АЙНОУайну ÃĨÑÕŨãìñõũ
Макрон 0xC5 AEIOUaeiou Да
Краткий 0xC6 АГУагу ĂĞăğŭ
Точка 0xC7 CEGIZcegz ЦЕКЕЦЭЦЕ
Умлаут или диэрезис 0xC8 AEIOUYaeiouy ÄËÏÖÜŸäëïöüÿ
Кольцо 0xCA Оуу ÅŮåů
Седиль 0xCB CGKLNRSTcklnrst ÇĢĶĻŅŖŞŢçķļņŗşţţ
Двойной острый 0xCD Оуу Он
Хвост 0xCE Долги Долги Да
Кэрон 0xCF CDELNRSTZcdelnrstz ČĎĽŇŘŠŤŽčďěľňřšťž

Макет кодовой страницы [ править ]

Ссылка на объединение символов в диапазоне U+0300–U+036F для кодов в диапазоне 0xC1–0xCF ниже подлежит оговоркам, упомянутым выше; их нельзя просто сопоставить с перечисленными кодовыми точками. Кроме того, Unicode различает 0xE2 на прописные буквы D с штрихом и прописные буквы Eth , которые обычно выглядят по-разному для строчных букв (0xF2 и 0xF3).

В старом издании ITU T.51 1988 года определены две версии дополнительного набора: в первой версии отсутствуют неразрывный пробел , мягкий дефис , отсутствие знака ( ¬ ) и прерывистая черта ( ¦ ), присутствующие во второй версии. Первая версия была определена как расширение дополнительного набора T.61 , а вторая версия как расширение первой версии. [9] Текущее издание (1992 г.) включает только вторую версию, объявляет устаревшими определенные символы и обновляет основной набор до текущего ISO-646-IRV ( ASCII ), хотя существующим телематическим службам разрешено сохранять старое поведение. [2]

ISO/IEC 6937 или ITU T.51 (латиница)
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
0x
1x
2x  СП   ! " # $ / ¤ [а] % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ А Б С Д И Ф Г ЧАС я Дж К л М Н ТО
5x П вопрос Р С Т В V В Х И С [ \ ] ^ _
6x ` а б с д и ж г час я дж к л м н тот
7x п д р с т в v В х и С { | } ~
8x
9x
Топор НБСП ¡ ¢ £ $ [б] ¥ # [б] § ¤ «
Бх ° ± ² ³ × м · ÷ » ¼ ½ ¾ ¿
Сх ◌̀ ◌́ ◌̂ ◌̃ ◌̄ ◌̆ ◌̇ ◌̈ ◌̊ ◌̧ ◌̲ [с] ◌̋ ◌̨ ◌̌
Дх ¹ ® © ¬ ¦
Бывший Ой Ой А / Д й ЧАС [д] IJ Ŀ Л Ø О й че Ŧ С а
Форекс ĸ ой Д д час я ij ŀ л ø œ SS то есть » ŋ ЗАСТЕНЧИВЫЙ
  Отличия от Т.61

Версия Videotex [ править ]

Версии дополнительного набора, используемые стандартом ITU T.101 для Videotex, основаны на первом дополнительном наборе редакции T.51 1988 года.

Набор G2 по умолчанию для синтаксиса данных 2 добавляет ΅ в 0xC0 для комбинации с кодами из основного греческого набора. [10]

Дополнительный набор для Data Syntax 3 добавляет непромежуточные знаки для «векторной верхней черты», косой черты и нескольких полуграфических символов . [11]

Версия ETS 300 706 [ править ]

Стандарт ETS 300 706 для телетекста World System основывает набор G2 на ISO 6937. [12] Это расширенный набор дополнительного набора T.61 и расширенный набор первого дополнительного набора издания T.51 1988 года, но в некоторых позициях он конфликтует с текущим изданием T.51. Диакритические коды в версии ETS указаны как «для связи с» используемыми символами из набора G0 . [12] например US-ASCII или BS_viewdata . Эта версия показана на диаграмме ниже.

Телетекст мировой системы, набор Latin G2 (ETS 300 706:1997) [12]
0 1 2 3 4 5 6 7 8 9 А Б С Д И Ф
Топор  СП   ¡ ¢ £ $ ¥ # § ¤ «
Бх ° ± ² ³ × м · ÷ » ¼ ½ ¾ ¿
Сх ◌̀ ◌́ ◌̂ ◌̃ ◌̄ ◌̆ ◌̇ ◌̈ ̣◌̣ ◌̊ ◌̧ ◌̲ ◌̋ ◌̨ ◌̌
Дх ¹ ® © а
Бывший Ой Ой А / Д й ЧАС IJ Ŀ Л Ø О й че Ŧ С а
Форекс ĸ ой Д д час я ij ŀ л ø œ SS то есть » ŋ
  Отличия от Т.51

См. также [ править ]

Сноски [ править ]

  1. ^ Продолжение использования ¤ разрешено только для существующих служб CCITT. [2]
  2. Перейти обратно: Перейти обратно: а б Разрешено только для существующих служб CCITT, в противном случае следует использовать представление ASCII. [2]
  3. ^ Отмечено в версии стандарта ITU как существующее использование подчеркнутого текста в сочетании с любыми другими символами, включая символы с диакритическими знаками. Хотя этот код включен в издание ITU 1988 года, [9] издание ITU 1992 года не рекомендует отправлять этот код в пользу escape-последовательностей ANSI , хотя и упоминает, что его следует правильно интерпретировать при получении применимыми системами. [2] Предыдущие редакции версии стандарта ISO/IEC также позволяли комбинировать этот код с любым символом в определенном репертуаре. [7] тогда как более поздние версии не включают этот код. [5]
  4. В раннем проекте œ поместилось на эту позицию.

Ссылки [ править ]

  1. ^ «T.51: Наборы кодированных символов на основе латиницы для телематических услуг» . www.itu.int . Архивировано из оригинала 08.10.2019 . Проверено 14 ноября 2019 г.
  2. Перейти обратно: Перейти обратно: а б с д и ж г час МККТТ (18 сентября 1992 г.). Наборы кодированных символов на основе латиницы для телематических услуг (изд. 1992 г.). Рекомендация Т.51.
  3. ^ МСЭ-Т (11 августа 1995 г.). Рекомендация T.51 (1992 г.) Поправка 1 .
  4. ^ МСЭ (1 августа 1985 г.). Основной набор функций управления Teletex (PDF) . ITSCJ/ IPSJ . ИСО-ИК -106.
  5. Перейти обратно: Перейти обратно: а б с д и ISO/IEC JTC 1/SC 2/WG 3 (15 апреля 1998 г.). WD 6937, Кодированный набор графических символов для текстовой связи — латиница (PDF) . JTC1/SC2/N454. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
  6. ^ ISO/IEC JTC 1/SC 2/WG 3 (15 декабря 1991 г.). Дополнительный комплект ISO/IEC 6937:1992 (PDF) . ITSCJ/ IPSJ . ИСО-ИК -156. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка ) (слева — US-ASCII .)
  7. Перейти обратно: Перейти обратно: а б ISO/TC97/SC2/WG4 (10 января 1985 г.). Дополнительный набор латинских алфавитных и неалфавитных графических символов (PDF) . ITSCJ/ IPSJ . ИСО-ИК -90. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
  8. ^ Петерсен, Дж. К. (29 мая 2002 г.). Иллюстрированный словарь по телекоммуникациям . ЦРК Пресс. п. 888. ИСБН  978-1-4200-4067-8 .
  9. Перейти обратно: Перейти обратно: а б МККТТ (1988). Наборы кодированных символов для телематических служб (изд. 1988 г.). Рекомендация Т.51.
  10. ^ МККТТ (1 ноября 1988 г.). Дополнительный набор графических символов для Videotex (PDF) . ITSCJ/ IPSJ . ИСО-ИК -70.
  11. ^ МККТТ (30 ноября 1986 г.). Дополнительный набор графических символов для Рекомендации CCITT T.101, Синтаксис данных III (PDF) . ITSCJ/ IPSJ . ИСО-ИК -128.
  12. Перейти обратно: Перейти обратно: а б с ETSI (1997). «15.6.3 Набор Latin G2». Спецификация расширенного телетекста (PDF) (PDF) . п. 116. ETS 300 706.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c44f6585da34606d459009c11faa1b52__1713520140
URL1:https://arc.ask3.ru/arc/aa/c4/52/c44f6585da34606d459009c11faa1b52.html
Заголовок, (Title) документа по адресу, URL1:
T.51/ISO/IEC 6937 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)