ИСО/МЭК 2022

ИСО 2022
Язык(и)	Различный.
Стандартный	ИСО/МЭК 2022 ; ЭКМА -35 ; АНСИ Х3.41 ; ДЖИС Х 0202 ; ГБ/Т 2311 ;
Классификация	с сохранением состояния Система кодировок (с предварительно настроенными подмножествами без сохранения состояния)
Преобразует/кодирует	US-ASCII и, в зависимости от реализации: ГБ 2312 ; ДЖИС Х 0201 ; ДЖИС Х 0208 ; ДЖИС Х 0212 ; ДЖИС Х 0213 ; КС Х 1001 ; ЦНС 11643 ; ИСО/МЭК 646 ; ИСО/ 8859/10367 МЭК ; различные другие ;
Преемник	ISO/IEC 10646 ( Юникод )
Другая связанная кодировка(и)	Подмножества с состоянием : ISO-2022-JP ; ИСО-2022-CN ; ИСО-2022-КР ; Составной текст ; Предварительно настроенные версии : ИСО/МЭК 4873 ; EUC ;
	v ; т ; и ;

ISO/IEC 2022 Информационные технологии. Структура кода символов и методы расширения — это стандарт ISO / IEC в области кодирования символов . Он эквивалентен ECMA стандарту ECMA-35 . ^[1]^[2] ANSI стандарт ANSI X3.41 ^[3] и японский промышленный стандарт JIS X 0202 . Созданный в 1971 году, последний раз он был пересмотрен в 1994 году. ^[4]

ISO 2022 определяет общую структуру, которой могут соответствовать кодировки символов, выделяя определенные диапазоны байтов ( 0x 00–1F и 0x7F–9F), которые будут использоваться для непечатаемых управляющих кодов. ^[5] для форматирования и внутриполосных инструкций (таких как разрывы строк или инструкции форматирования для текстовых терминалов ), а не для графических символов . Он также определяет синтаксис escape-последовательностей, многобайтовых последовательностей, начинающихся с Код управления ESC , который также можно использовать для внутриполосных инструкций. ^[6] Конкретные наборы управляющих кодов и escape-последовательностей, разработанные для использования с ISO 2022, включают ISO/IEC 6429 , части которого реализованы с помощью ANSI.SYS и эмуляторов терминала .

Сам ISO 2022 также определяет конкретные управляющие коды и escape-последовательности, которые можно использовать для переключения между различными наборами кодированных символов (например, между ASCII и японским JIS X 0208 ), чтобы использовать несколько в одном документе. ^[7] эффективно объединяя их в единую кодировку с сохранением состояния (функция, менее важная с появлением Unicode ). Он предназначен для использования как в 8-битных, так и в 7-битных средах (в тех, где в байте можно использовать только семь бит, например электронная почта без 8BITMIME ). ^[8]

Кодировки и соответствие [ править ]

Набор символов ASCII поддерживает базовый латинский алфавит ISO (эквивалент английского алфавита ) и не обеспечивает хорошей поддержки языков, в которых используются дополнительные буквы или вообще используется другая система письма . Другие системы письма с относительно небольшим количеством символов, такие как греческая , кириллица , арабский или иврит , а также формы латинского алфавита с использованием диакритических знаков или букв, отсутствующих в базовом латинском алфавите ISO, исторически были представлены на персональных компьютерах с различными 8- битными , однобайтовые , расширенные кодировки ASCII, которые следуют за ASCII, когда старший бит равен 0 (т. е. байты 0x00–7F, если они представлены в шестнадцатеричном формате ), и включают дополнительные символы для старшего значащего бита 1 (т. е. байты 0x80–FF). Некоторые из них, например серия ISO 8859 , соответствуют стандарту ISO 2022. ^[9]^[10] в то время как другие, такие как кодовая страница DOS 437, этого не делают, обычно из-за того, что байты 0x80–9F не зарезервированы для управляющих кодов.

Некоторые восточноазиатские языки, в частности китайский , японский и корейский (совместно « CJK »), записываются с использованием гораздо большего количества символов, чем максимум в 256, которые могут быть представлены в одном байте, и впервые были представлены на компьютерах с помощью специфичного для языка двойного байта. -байтовые кодировки или кодировки переменной ширины ; некоторые из них (например, на упрощенном китайском языке кодировка GB 2312 ) соответствуют ISO 2022 , а другие (например, на традиционном китайском языке кодировка Big5 ) — нет. Коды управления в ISO 2022 всегда представляются одним байтом, независимо от количества байтов, используемых для графических символов. Кодировкам CJK, используемым в 7-битных средах, использующих механизмы ISO 2022 для переключения между наборами символов, часто присваиваются имена, начинающиеся с «ISO-2022-», особенно ISO-2022-JP , хотя некоторые другие кодировки CJK, такие как EUC-JP, также использовать механизмы ISO 2022. ^[11]^[12]

Поскольку первые 256 кодовых точек Unicode управляющих кодов были взяты из ISO 8859-1 , Unicode наследует концепцию C0 и C1 добавляет и другие непечатаемые символы из ISO 2022, хотя помимо управляющих кодов ISO 2022 . Однако форматы преобразования Unicode, такие как UTF-8, обычно по-разному отличаются от структуры ISO 2022, в том числе:

Использование 8-битных байтов, но не представление кодов C1 в их однобайтовых формах, указанных в ISO 2022 (большинство UTF, за одним исключением является устаревший UTF-1 ).
Представление всех символов, включая управляющие коды, в виде нескольких байтов (например, UTF-16 , UTF-32 ).
Смешивание байтов с установленным и неустановленным старшим битом в кодированном представлении для одной кодовой точки (например, UTF-1, GB 18030 ).

Однако escape-последовательности ISO 2022 существуют для переключения на UTF-8 и обратно как « система кодирования, отличная от системы ISO 2022 ». ^[13] которые поддерживаются некоторыми эмуляторами терминала, такими как xterm . ^[14]

Обзор [ править ]

Элементы [ править ]

ISO/IEC 2022 определяет следующее:

Инфраструктура множества наборов символов с определенными структурами, которые могут быть включены в одну систему кодирования символов , включая несколько наборов графических символов и несколько наборов как первичных (C0), так и вторичных (C1) управляющих кодов . ^[15]
Формат кодирования этих наборов, предполагающий, что на байт доступно 8 бит. ^[16]
Формат для кодирования этих наборов в одной и той же системе кодирования, когда на байт доступно только 7 бит. ^[17] и способ преобразования любых соответствующих символьных данных для прохождения через такую 7-битную среду, ^[8]
Общая структура escape-кодов ANSI , ^[6] и
Специальные форматы escape-кодов для идентификации отдельных наборов символов, ^[7] для объявления об использовании определенных функций или подмножеств кодирования, ^[18] и для взаимодействия или переключения на другие системы кодирования. ^[18]

Версии кода [ править ]

Конкретная реализация не обязательно должна реализовывать весь стандарт; уровень соответствия и поддерживаемые наборы символов определяются реализацией. Хотя многие механизмы, определенные стандартом ISO/IEC 2022, используются нечасто, несколько установленных кодировок основаны на подмножестве системы ISO/IEC 2022. ^[19] В частности, 7-битные системы кодирования, использующие механизмы ISO/IEC 2022, включают ISO-2022-JP (или кодировку JIS ), которая в основном используется в электронной почте на японском языке . 8-битные системы кодирования, соответствующие ISO/IEC 2022, включают ISO/IEC 4873 (ECMA-43), который, в свою очередь, соответствует ISO/IEC 8859 . ^[9]^[10] и расширенный код Unix , который используется для восточноазиатских языков. ^[11] Более специализированные приложения ISO 2022 включают систему кодирования MARC-8 , используемую в библиотечных записях MARC 21 . ^[3]

Обозначение escape-последовательностей [ править ]

Escape-последовательности для переключения на определенные наборы символов или кодировки регистрируются в реестре ISO-IR (за исключением тех, которые предназначены для частного использования, значения которых определяются поставщиками или спецификациями протокола, такими как ARIB STD-B24 ) и следовать шаблонам, определенным в стандарте. Кодировки символов, использующие эти escape-последовательности, требуют последовательной обработки данных в прямом направлении, поскольку правильная интерпретация данных зависит от ранее встречавшихся escape-последовательностей.

Определенные профили, такие как ISO-2022-JP, могут налагать дополнительные условия, например, что текущий набор символов сбрасывается на US-ASCII перед концом строки. Более того, escape-последовательности, объявляющие наборы национальных символов, могут отсутствовать, если конкретная кодировка на основе ISO-2022 разрешает или требует этого и требует использования определенных наборов национальных символов. Например, ISO-8859-1 утверждает, что определение escape-последовательности не требуется.

Многобайтовые символы [ править ]

Для представления больших наборов символов ISO/IEC 2022 основывается на свойстве ISO/IEC 646 , согласно которому семибитное представление символов обычно может представлять 94 графических (печатных) символа (помимо пробела и 33 управляющих символов); если исключены только управляющие коды C0 (узко определенные), их можно расширить до 96 символов. Таким образом, используя два байта, можно представить до 8836 (94×94) символов; и, используя три байта, до 830 584 (94×94×94) символов. Хотя стандарт определяет это, ни один зарегистрированный набор символов не использует три байта (хотя EUC-TW незарегистрированный G2 использует это, как и аналогично незарегистрированный CCCII ).

Для двухбайтовых наборов символов кодовая точка каждого символа обычно указывается в так называемой ячейке строки или кутене. ^[а] форма, состоящая из двух чисел от 1 до 94 включительно, определяющая строку ^[б] и клетка ^[с] этого персонажа в зоне. Для трехбайтового набора дополнительная плоскость ^[д] номер указан в начале. ^[20] Escape-последовательности не только объявляют, какой набор символов используется, но также является ли этот набор однобайтовым или многобайтовым (но не сколько байтов он использует, если он многобайтовый), а также содержит ли каждый байт 94 символа. или 96 разрешенных значений.

Структура кода [ править ]

Обозначения и номенклатура [ править ]

Кодирование ISO/IEC 2022 определяет двухуровневое сопоставление между кодами символов и отображаемыми символами. Escape-последовательности позволяют «обозначить» любой из большого реестра наборов графических символов. ^[21] в один из четырех рабочих наборов, названных от G0 до G3, а более короткие управляющие последовательности определяют «вызываемый» рабочий набор. ^[22] для интерпретации байтов в потоке.

Значения байтов кодирования («битовые комбинации») часто задаются в виде строк столбцов , где два десятичных числа в диапазоне 00–15 (каждое соответствует одной шестнадцатеричной цифре) разделены косой чертой. ^[23] Следовательно, например, коды с 2/0 (0x20) по 2/15 (0x2F) включительно могут называться «столбцом 02». Это обозначение, используемое в самом стандарте ISO/IEC 2022/ECMA-35. ^[24] Их можно описать в другом месте, используя шестнадцатеричный код , как это часто используется в этой статье, или соответствующие символы ASCII. ^[25] хотя escape-последовательности фактически определяются в виде значений байтов, и изображение, назначенное этому значению байта, может быть изменено, не затрагивая управляющую последовательность.

Значения байтов из 7-битного графического диапазона ASCII (шестнадцатеричные 0x20–0x7F), находящиеся в левой части таблицы кодов символов, называются кодами «GL» (где «GL» означает «оставшаяся графика»), а байты из диапазона «высокого ASCII» (0xA0–0xFF), если он доступен (т. е. в 8-битной среде), называются кодами «GR» («графическое право») . ^[5] Термины «CL» (0x00–0x1F) и «CR» (0x80–0x9F) определены для диапазонов управления, но диапазон CL всегда вызывает основные элементы управления (C0), тогда как диапазон CR всегда либо вызывает вторичные (C1) элементы управления. ) контролирует или не используется. ^[5]

Фиксированные кодированные символы [ править ]

Символ удаления DEL (0x7F), escape-символ ESC (0x1B) и пробел SP (0x20) обозначаются как «фиксированные» кодированные символы. ^[26] и всегда доступны, когда G0 вызывается через GL, независимо от того, какие наборы символов обозначены. других размеров или типов Они не могут быть включены в наборы графических символов, хотя символы пробелов могут быть включены. ^[27]

Общий синтаксис escape-последовательностей [ править ]

Последовательности, использующие символ ESC (escape), принимают вид ESC [I...] F, где за символом ESC следует ноль или более промежуточных байтов ^[28] ( I ) из диапазона 0x20–0x2F и один последний байт ^[29] ( F ) из диапазона 0x30–0x7E. ^[30]

Первый I- байт или его отсутствие определяет тип escape-последовательности; оно может, например, обозначать рабочий набор или обозначать одну функцию управления. Во всех типах escape-последовательностей F -байты в диапазоне 0x30–0x3F зарезервированы для незарегистрированного частного использования, определенного по предварительному соглашению между сторонами. ^[31]

Функции управления из некоторых наборов могут использовать дополнительные байты, следующие за управляющей последовательностью. Например, функция управления ISO 6429 » За вводной управляющей последовательностью , которую можно представить с помощью escape-последовательности, следует ноль или более байтов в диапазоне 0x30–0x3F, затем ноль или более байтов в диапазоне 0x20–0x2F, затем один байт в диапазоне 0x40– 0x7E, причем вся последовательность называется «управляющей последовательностью». ^[32]

Наборы графических символов [ править ]

Каждый из четырех рабочих наборов G0–G3 может представлять собой набор из 94 символов или набор из 94 символов. ^н-символьный многобайтовый набор . Кроме того, от G1 до G3 могут быть 96 или 96. ^н- набор символов.

В 96- или 96-м ^н-набор символов, байты от 0x20 до 0x7F при вызове GL или от 0xA0 до 0xFF при вызове GR выделяются и могут использоваться набором. В 94- или 94-м ^н-набор символов, байты 0x20 и 0x7F не используются. ^[33] Когда 96- или 96-й ^н-набор символов вызывается в регионе GL, символы пробела и удаления (коды 0x20 и 0x7F) недоступны до 94- или 94 ^нНабор символов (например, набор G0) вызывается в GL. ^[5] Наборы из 96 символов не могут быть назначены G0.

Регистрация набора как набора из 96 символов не обязательно означает, что байты 0x20/A0 и 0x7F/FF фактически назначаются набором; некоторые примеры наборов графических символов, которые зарегистрированы как 96-наборы, но не используют эти байты, включают набор G1 IS 434 , ^[34] набор чертежей коробки из ISO/IEC 10367 , ^[35] и ISO-IR-164 (подмножество набора G1 ISO-8859-8, содержащее только буквы, используемые CCITT ). ^[36]

Объединение персонажей [ править ]

Ожидается, что символы будут пробелами, а не объединяющими символами, если иное не указано в рассматриваемом графическом наборе. ^[37] ISO 2022 / ECMA-35 также признает использование управляющих символов возврата и возврата каретки как средства комбинирования символов, разделенных иначе, а также последовательности CSI «Комбинация графических символов» (GCC). ^[37] ( CSI 0x20 (SP) 0x5F (_)). ^[38]

Использование возврата каретки и возврата каретки таким образом разрешено ISO/IEC 646 , но запрещено ISO/IEC 4873 /ECMA-43. ^[39] и ISO/IEC 8859 , ^[40]^[41] на том основании, что он оставляет неопределенным репертуар графических персонажей. Однако ISO/IEC 4873/ECMA-43 разрешает использование функции GCC при условии, что последовательность символов сохраняется прежней и просто отображается в одном месте, а не перепечатывается для формирования символа с другим значением. . ^[42]

Наборы управляющих символов [ править ]

Наборы управляющих символов классифицируются как «первичные» или «вторичные» наборы управляющих кодов. ^[43] соответственно также называемые наборами управляющих кодов «C0» и «C1». ^[44]

Набор элементов управления C0 должен содержать управляющий символ ESC (escape) по адресу 0x1B. ^[45] (набор C0, содержащий только ESC, зарегистрирован как ISO-IR-104), ^[46] тогда как набор элементов управления C1 может вообще не содержать элемента управления escape. ^[33] Следовательно, это совершенно отдельные регистрации: набор C0 является только набором C0, а набор C1 является только набором C1. ^[44]

Если коды из набора C0 стандарта ISO 6429/ECMA-48, то есть управляющие коды ASCII , появляются в наборе C0, они должны появиться в своих местах согласно ISO 6429/ECMA-48. ^[45] Включение символов управления передачей в набор C0, помимо десяти, включенных в ISO 6429/ECMA-48 (а именно SOH, STX, ETX, EOT, ENQ, ACK, DLE, NAK, SYN и ETB), ^[47] или включение любого из этих десяти в набор C1 также запрещено стандартом ISO/IEC 2022/ECMA-35. ^[45]^[33]

Набор элементов управления C0 вызывается в диапазоне CL от 0x00 до 0x1F. ^[48] тогда как функция управления C1 может быть вызвана в диапазоне CR от 0x80 до 0x9F (в 8-битной среде) или с использованием escape-последовательностей (в 7-битной или 8-битной среде), ^[43] но не оба. Какой стиль вызова C1 используется, должен быть указан в определении версии кода. ^[49] Например, ISO/IEC 4873 определяет байты CR для элементов управления C1, которые он использует (SS2 и SS3). ^[50] При необходимости о том, какой вызов используется, можно сообщить с помощью последовательностей диктора .

В последнем случае отдельные функции управления из набора управляющих кодов C1 вызываются с использованием escape-последовательностей типа Fe, ^[33] это означает те, где за управляющим символом ESC следует байт из столбцов 04 или 05 (то есть, ESC 0x40 (@) через ESC 0x5F (_)). ^[51]

Другие функции управления [ править ]

Дополнительные функции управления назначаются escape-последовательностям типа Fs (в диапазоне ESC 0x60 (`) через ESC 0x7E (~)); они имеют постоянно присвоенные значения, а не зависят от обозначений C0 или C1. ^[51]^[52] Регистрация функций управления для последовательностей типа «Fs» должна быть одобрена ISO/IEC JTC 1/SC 2 . ^[52] Другие отдельные функции управления могут быть зарегистрированы для escape-последовательностей типа «3Ft» (в диапазоне ESC 0x23 (#) [I...] 0x40 (@) через ESC 0x23 (#) [I...] 0x7E (~)), ^[53] хотя последовательности «3Ft» в настоящее время не назначены (по состоянию на 2019 год). ^[54] Некоторые из них указаны в ECMA-35 (ISO 2022/ANSI X3.41), другие – в ECMA-48 (ISO 6429/ANSI X3.64). ^[55] ECMA-48 называет их «независимыми функциями управления». ^[56]

Код	Шестигранник	Сокр.	Имя	Эффект ^[54]
ESC `	`1B 60`	ДМИ	Отключить ручной ввод	Отключает некоторые или все возможности ручного ввода устройства.
`ESC a`	`1B 61`	ИНТ.	Прерывать	Прерывает текущий процесс.
`ESC b`	`1B 62`	я	Включить ручной ввод	Включает возможности ручного ввода устройства.
`ESC c`	`1B 63`	РИС	Сброс в исходное состояние	Сбрасывает устройство в исходное состояние после включения. ^[57]
`ESC d`	`1B 64`	КМД	Разделитель метода кодирования	Используется при взаимодействии с внешней системой кодирования/представления, см. ниже.
`ESC n`	`1B 6E`	ЛС2	Блокировка второй смены	Функцию сдвига, см. ниже.
`ESC o`	`1B 6F`	ЛС3	Блокировка третьей смены	Функцию сдвига, см. ниже.
`ESC \|`	`1B 7C`	ЛС3Р	Блокировка переключения три вправо	Функцию сдвига, см. ниже.
`ESC }`	`1B 7D`	ЛС2Р	Блокировка второй смены вправо	Функцию сдвига, см. ниже.
`ESC ~`	`1B 7E`	ЛС1Р	Блокировка сдвига вправо	Функцию сдвига, см. ниже.

Escape-последовательности типа «Fp» ( ESC 0x30 (0) через ESC 0x3F (?)) или типа «3Fp» ( ESC 0x23 (#) [I...] 0x30 (0) через ESC 0x23 (#) [I...] 0x3F (?)) зарезервированы для отдельных контрольных кодов частного использования по предварительному соглашению между сторонами. ^[58] Несколько таких последовательностей обоих типов используются терминалами DEC , такими как VT100 , и, таким образом, поддерживаются эмуляторами терминалов . ^[14]

Функции смены [ править ]

По умолчанию коды GL обозначают символы G0, а коды GR (там, где они доступны) указывают символы G1; иное может быть указано по предварительному соглашению. Набор, вызываемый для каждой области, также может быть изменен с помощью управляющих кодов, называемых сдвигами, как показано в таблице ниже. ^[59]

8-битный код может иметь коды GR, определяющие символы G1, т.е. с соответствующим 7-битным кодом, использующим Shift In и Shift Out для переключения между наборами (например, JIS X 0201 ), ^[60] хотя некоторые вместо этого имеют коды GR, определяющие символы G2, при этом соответствующий 7-битный код использует односдвиговый код для доступа ко второму набору (например, T.51 ). ^[61]

Коды, показанные в таблице ниже, являются наиболее распространенными кодировками этих кодов управления, соответствующими стандарту ISO/IEC 6429 . Сдвиги LS2, LS3, LS1R, LS2R и LS3R регистрируются как отдельные функции управления и всегда кодируются как escape-последовательности, перечисленные ниже: ^[54] тогда как остальные являются частью набора управляющих кодов C0 или C1 (как показано ниже, SI (LS0) и SO (LS1) являются элементами управления C0, а SS2 и SS3 являются элементами управления C1), что означает, что их кодирование и доступность могут различаться в зависимости от того, какой назначены наборы элементов управления: они должны присутствовать в назначенных наборах элементов управления, если используется их функционал. ^[48]^[49] Сами элементы управления C1, как упоминалось выше, могут быть представлены с помощью escape-последовательностей или 8-битных байтов, но не того и другого.

Альтернативные кодировки односменных кодов управления C0 доступны в определенных наборах управляющих кодов. Например, SS2 и SS3 обычно доступны по адресам 0x19 и 0x1D соответственно в T.51. ^[61] и Т.61 . ^[62] Это кодирование в настоящее время рекомендуется ISO/IEC 2022/ECMA-35 для приложений, требующих 7-битных однобайтовых представлений SS2 и SS3. ^[63] а также может использоваться только для SS2, ^[64] хотя существуют и более старые наборы кодов с SS2 по адресу 0x1C, ^[65]^[66]^[67] и были упомянуты как таковые в более ранней редакции стандарта. ^[68] Кодирование одиночных смен 0x8E и 0x8F, как показано ниже, является обязательным для уровней 2 и 3 ISO/IEC 4873 . ^[69]

Код	Шестигранник	Сокр.	Имя	Эффект
`SI`	`0F`	И ЛС0	Сдвиг Блокировка смещения нуля	GL теперь кодирует G0 ^[70]^[71]
`SO`	`0E`	ТАК ЛС1	Сдвиг Блокировка первой смены	GL теперь кодирует G1 ^[70]^[71]
`ESC n`	`1B 6E`	ЛС2	Блокировка второй смены	GL теперь кодирует G2 ^[70]^[71]
`ESC o`	`1B 6F`	ЛС3	Блокировка третьей смены	GL теперь кодирует G3 ^[70]^[71]
Район ЧР: `SS2` Код выхода: `ESC N`	Район ЧР: `8E` Код выхода: `1B 4E`	СС2	Две смены в одну смену	GL или GR (см. ниже) кодируют G2 только для следующего символа. ^[72]
Район ЧР: `SS3` Код выхода: `ESC O`	Район ЧР: `8F` Код выхода: `1B 4F`	СС3	Одна смена три	GL или GR (см. ниже) кодируют G3 только для следующего символа. ^[72]
`ESC ~`	`1B 7E`	ЛС1Р	Блокировка сдвига вправо	GR теперь кодирует G1 ^[73]
`ESC }`	`1B 7D`	ЛС2Р	Блокировка второй смены вправо	GR теперь кодирует G2 ^[73]
`ESC \|`	`1B 7C`	ЛС3Р	Блокировка переключения три вправо	GR теперь кодирует G3 ^[73]

Хотя официально односменные коды считаются кодами смен и называются соответственно, они не всегда рассматриваются как смены. ^[12] и их можно просто рассматривать как байты префикса (т.е. первые байты в многобайтовой последовательности), ^[11] поскольку они не требуют, чтобы кодер сохранял текущий активный набор как состояние , в отличие от блокировки кодов сдвига. В 8-битных средах в качестве области с одной сменой можно использовать либо GL, либо GR, но не оба одновременно. Это должно быть указано в определении версии кода. ^[72] Например, ISO/IEC 4873 определяет GL, тогда как упакованный EUC указывает GR. В 7-битных средах в качестве односменной области используется только GL. ^[74]^[75] При необходимости о том, какая односменная зона используется, можно сообщить с помощью последовательностей дикторов .

Имена «блокировка смещения нуля» (LS0) и «блокировка смещения единицы» (LS1) относятся к той же паре управляющих символов C0 (0x0F и 0x0E), что и имена «смещение внутрь» (SI) и «смещение наружу» (SO ). Однако стандарт называет их LS0 и LS1, когда они используются в 8-битных средах, и как SI и SO, когда они используются в 7-битных средах. ^[59]

Стандарт ISO/IEC 2022/ECMA-35 разрешает, но не рекомендует использовать G1, G2 или G3 одновременно в GL и GR. ^[76]

Регистрация наборов графических и управляющих кодов [ править ]

В Международном реестре наборов кодированных символов, которые будут использоваться с escape-последовательностями (ISO-IR), в Международном реестре ISO (ISO-IR) перечислены наборы графических символов, наборы управляющих кодов, отдельные управляющие коды и т. д., которые были зарегистрированы для использования в стандарте ISO/IEC 2022. Процедура регистрации коды и наборы с реестром ISO-IR определены стандартом ISO/IEC 2375 . Каждая регистрация получает уникальную escape-последовательность и уникальный номер записи реестра для ее идентификации. ^[77]^[78] Например, набор символов CCITT для упрощенного китайского языка известен как ISO-IR-165 .

Регистрация наборов кодированных символов в реестре ISO-IR идентифицирует документы, определяющие набор символов или функцию управления, связанную с escape-последовательностью нечастного использования ISO/IEC 2022. Это может быть стандартный документ; однако регистрация не создает новый стандарт ISO, не обязывает ISO или IEC принимать его в качестве международного стандарта и не обязывает ISO или IEC добавлять какие-либо символы в универсальный набор кодированных символов . ^[79]

Зарегистрированные в ISO-IR escape-последовательности также используются, инкапсулированные в формальный общедоступный идентификатор , для идентификации наборов символов, используемых для числовых ссылок на символы в SGML (ISO 8879). Например, строка ISO 646-1983//CHARSET International Reference Version (IRV)//ESC 2/5 4/0 может использоваться для идентификации международной справочной версии ISO 646-1983, ^[80] и спецификация HTML 4.01 использует ISO Registration Number 177//CHARSET ISO/IEC 10646-1:1993 UCS-4 with implementation level 3//ESC 2/5 2/15 4/6 для идентификации Юникод. ^[81] Текстовое представление escape-последовательности, включенное в третий элемент FPI, будет распознаваться реализациями SGML для поддерживаемых наборов символов. ^[80]

Обозначения наборов символов [ править ]

Escape-последовательности для обозначения наборов символов принимают форму ESC I [I...] F. Как упоминалось выше, промежуточные ( I ) байты находятся в диапазоне 0x20–0x2F, а последний ( F ) байт — в диапазоне 0x30–0x7E. Первый байт I (или, для многобайтового набора, первые два) идентифицирует тип набора символов и рабочий набор, которому он должен быть назначен, тогда как байт F (и любые дополнительные байты I ) идентифицируют набор символов. сам по себе, как назначено в реестре ISO-IR (или, для escape-последовательностей частного использования, по предварительному соглашению).

Дополнительные I байты могут быть добавлены перед байтом F , чтобы расширить F. диапазон байтов В настоящее время это используется только с наборами из 94 символов, где коды вида ESC ( ! F были назначены. ^[82] С другой стороны, никаких многобайтовых 96-множеств не зарегистрировано, поэтому приведенные ниже последовательности являются строго теоретическими.

Как и в случае с другими типами escape-последовательностей, диапазон 0x30–0x3F зарезервирован для F -байтов частного использования. ^[31] в данном случае для определений наборов символов частного использования (которые могут включать незарегистрированные наборы, определенные такими протоколами, как ARIB STD-B24). ^[83] или MARC-8 , ^[3] или наборы конкретных поставщиков, такие как DEC Special Graphics ). ^[84] Однако в последовательности графического обозначения набора, если второй байт I (для однобайтового набора) или третий байт I (для двухбайтового набора) равен 0x20 (пробел), обозначаемый набор представляет собой « динамически переопределяемый символ». набор » (DRCS), определенный по предварительному соглашению, ^[85] что также считается частным использованием. ^[31] Графический набор, рассматриваемый как DRCS, подразумевает, что он представляет собой шрифт, состоящий из точных глифов, а не набора абстрактных символов. ^[86] Способ передачи, выделения и управления наборами DRCS и связанными с ними шрифтами не предусмотрен самим стандартом ISO/IEC 2022/ECMA-35, хотя он рекомендует выделять их последовательно, начиная с F -байта 0x40 ( @); ^[87] однако способ передачи шрифтов DRCS определен в некоторых телекоммуникационных протоколах, таких как World System Teletext . ^[88]

Есть также три особых случая для многобайтовых кодов. Кодовые последовательности ESC $ @, ESC $ A, и ESC $ B все были зарегистрированы, когда современная версия стандарта допускала многобайтовые наборы только в G0, поэтому их следует принимать вместо последовательностей ESC $ ( @ через ESC $ ( B для обозначения набора символов G0. ^[89]

Существуют дополнительные (редко используемые) функции для переключения наборов управляющих символов, но это одноуровневый поиск, в котором (как отмечалось выше) набор C0 всегда вызывается через CL, а набор C1 всегда вызывается через CR или через используя escape-коды. Как отмечалось выше, необходимо, чтобы любой набор символов C0 включал символ ESC в позиции 0x1B, чтобы были возможны дальнейшие изменения. Последовательности обозначения набора элементов управления (в отличие от графических наборов) также могут использоваться из ISO/IEC 10646 (UCS/Unicode) в контекстах, где обработка escape-кодов ANSI уместна , при условии, что каждый байт в последовательности дополняется до размер кодовой единицы кодирования. ^[90]

Ниже приведена таблица управляющих последовательностей I байтов и обозначение или другая функция, которую они выполняют. ^[91]

Код	Шестигранник	Сокр.	Имя	Эффект	Пример
`ESC SP F`	`1B 20 F`	СКУД	Анонсировать структуру кода	Указывает используемые функции кода, например рабочие наборы (см. ниже ). ^[92]	`ESC SP L` ( ISO 4873 уровень 1)
`ESC ! F`	`1B 21 F`	CZD	C0-обозначить	`F` выбирает набор управляющих символов C0, который будет использоваться. ^[93]	`ESC ! @` ( коды ASCII C0 )
`ESC " F`	`1B 22 F`	C1D	C1-обозначить	`F` выбирает набор управляющих символов C1, который будет использоваться. ^[94]	`ESC " C` ( Коды ISO 6429 C1 )
`ESC # F`	`1B 23 F`	-	(Единая функция управления)	(Зарезервировано для последовательностей функций управления, см. выше .)	`ESC # 6` (частное пользование: линия двойной ширины DEC ) ^[95]
`ESC $ F`^[и] `ESC $ ( F`	`1B 24 F`^[и] `1B 24 28 F`	ГЗДМ4	G0-обозначает многобайтовый набор из 94 символов	`F` выбирает 94 ^н-набор символов, который будет использоваться для G0. ^[89]	`ESC $ ( C` ( КС X 1001 в G0)
`ESC $ ) F`	`1B 24 29 F`	Г1ДМ4	G1-обозначение многобайтового набора из 94 символов	`F` выбирает 94 ^н-набор символов, который будет использоваться для G1. ^[89]	`ESC $ ) A` ( ГБ 2312 в G1)
`ESC $ * F`	`1B 24 2A F`	Г2ДМ4	G2-обозначение многобайтового набора из 94 байтов	`F` выбирает 94 ^н-набор символов, который будет использоваться для G2. ^[89]	`ESC $ * B` ( JIS X 0208 в G2)
`ESC $ + F`	`1B 24 2B F`	Г3ДМ4	G3-обозначает многобайтовый набор из 94 символов	`F` выбирает 94 ^н-набор символов, который будет использоваться для G3. ^[89]	`ESC $ + D` ( JIS X 0212 в G3)
`ESC $ , F`	`1B 24 2C F`	-	(не используется)	(не используется) ^[ф]	-
`ESC $ - F`	`1B 24 2D F`	Г1ДМ6	G1-обозначение многобайтового набора из 96 символов	`F` выбирает 96 ^н-набор символов, который будет использоваться для G1. ^[89]	`ESC $ - 1` (частное пользование)
`ESC $ . F`	`1B 24 2E F`	Г2ДМ6	G2-обозначение многобайтового набора из 96 символов	`F` выбирает 96 ^н-набор символов, который будет использоваться для G2. ^[89]	`ESC $ . 2` (частное пользование)
`ESC $ / F`	`1B 24 2F F`	Г3ДМ6	G3-обозначает многобайтовый набор из 96 символов	`F` выбирает 96 ^н-набор символов, который будет использоваться для G3. ^[89]	`ESC $ / 3` (частное пользование)
`ESC % F`	`1B 25 F`	ДОКС	Укажите другую систему кодирования	Систему кодирования переключателей см. ниже .	`ESC % G` ( UTF-8 )
`ESC & F`	`1B 26 F`	внутренняя норма доходности	Определить измененную регистрацию	Префиксы обозначения escape для обозначения версии. ^[г]	`ESC & @ ESC $ B` ( JIS X 0208:1990 в G0)
`ESC ' F`	`1B 27 F`	-	(не используется)	(не используется)	-
`ESC ( F`	`1B 28 F`	ГЖД4	G0-обозначение 94-набора	`F` выбирает набор из 94 символов, который будет использоваться для G0. ^[89]	`ESC ( B` ( ASCII в G0)
`ESC ) F`	`1B 29 F`	G1D4	G1-обозначение 94-комплекта	`F` выбирает набор из 94 символов, который будет использоваться для G1. ^[89]	`ESC ) I` ( ДЖИС
`ESC * F`	`1B 2A F`	G2D4	G2-обозначение 94-комплекта	`F` выбирает набор из 94 символов, который будет использоваться для G2. ^[89]	`ESC * v` ( ITU T.61 RHS в G2)
`ESC + F`	`1B 2B F`	Г3Д4	G3-обозначение 94-комплекта	`F` выбирает набор из 94 символов, который будет использоваться для G3. ^[89]	`ESC + D` ( NATS-SEFI-ADD в G3)
`ESC , F`	`1B 2C F`	-	(не используется)	(не используется) ^[час]	-
`ESC - F`	`1B 2D F`	G1D6	G1-обозначение 96-комплект	`F` выбирает набор из 96 символов, который будет использоваться для G1. ^[89]	`ESC - A` ( ISO 8859-1 RHS в G1)
`ESC . F`	`1B 2E F`	G2D6	G2-обозначение 96-комплект	`F` выбирает набор из 96 символов, который будет использоваться для G2. ^[89]	`ESC . B` ( ISO 8859-2 RHS в G2)
`ESC / F`	`1B 2F F`	G3D6	G3-обозначение 96-комплект	`F` выбирает набор из 96 символов, который будет использоваться для G3. ^[89]	`ESC / b` ( ISO 8859-15 RHS в G3)

Обратите внимание, что реестр F -байтов независим для разных типов. Графический набор из 94 символов, обозначенный ESC ( A через ESC + A никак не связан с набором из 96 символов, обозначенным ESC - A через ESC / A. И ни один из них не имеет отношения к 94-му. ^н-набор символов, обозначенный ESC $ ( A через ESC $ + A, и так далее; последние байты должны интерпретироваться в контексте. (Действительно, без каких-либо промежуточных байтов, ESC A это способ указания управляющего кода C1 0x81.)

Также обратите внимание, что наборы управляющих символов C0 и C1 независимы; набор управляющих символов C0, обозначенный ESC ! A (который является набором управляющих символов NATS для передачи газетного текста) не совпадает с набором управляющих символов C1, обозначенным ESC " A ( CCITT набор атрибутов для Videotex ).

Взаимодействие с другими системами кодирования [ править ]

Стандарт также определяет способ определения систем кодирования, которые не соответствуют его собственной структуре.

Также определена последовательность возврата к ISO/IEC 2022; регистрации, которые поддерживают эту последовательность, закодированную в ISO/IEC 2022, включают (по состоянию на 2019 год) различные Videotex форматы , UTF-8 и UTF-1 . ^[99] Второй I байт 0x2F ( /) включен в последовательности обозначений кодов, которые не используют эту последовательность байтов для возврата к ISO 2022; у них могут быть свои собственные средства для возврата к ISO 2022 (например, другая или дополненная последовательность) или вообще никаких средств. ^[100] Все существующие регистрации последнего типа (по состоянию на 2019 год) представляют собой либо прозрачные необработанные данные, форматы Unicode/UCS , либо их подмножества. ^[101]

Код	Шестигранник	Сокр.	Имя	Эффект
`ESC % @`	`1B 25 40`	ДОКС	Укажите другую систему кодирования («стандартный возврат»).	Вернитесь к ISO/IEC 2022 из другой кодировки. ^[100]
`ESC % F`	`1B 25 F`		Обозначить другую систему кодирования («со стандартным возвратом») ^[99]	`F` выбирает 8-битный код; использовать `ESC % @` вернуться. ^[100]
`ESC % / F`	`1B 25 2F F`		Обозначить другую систему кодирования («без стандартного возврата») ^[101]	`F` выбирает 8-битный код; стандартного способа возврата не существует. ^[100]
`ESC d`	`1B 64`	КМД	Разделитель метода кодирования	Обозначает конец кодовой последовательности ISO/IEC 2022. ^[102]

Особый интерес представляют последовательности, которые переключаются на форматы ISO/IEC 10646 ( Unicode ), которые не соответствуют структуре ISO/IEC 2022. К ним относятся UTF-8 (которая не резервирует диапазон 0x80–0x9F для управляющих символов), ее предшественница UTF-1 (которая смешивает байты GR и GL в многобайтовых кодах), а также UTF-16 и UTF-32 (которые используют более широкие единицы кодирования). ^[99]^[101]

Также было зарегистрировано несколько кодов для подмножеств (уровни 1 и 2) UTF-8, UTF-16 и UTF-32, а также для трёх уровней UCS-2 . ^[101] Однако единственными кодами, указанными в настоящее время в ISO/IEC 10646, являются коды уровня 3 для UTF-8, UTF-16 и UTF-32 и код неопределенного уровня для UTF-8, а остальные указаны как устаревшие. ^[103] ISO/IEC 10646 предусматривает, что форматы UTF-16 и UTF-32 с обратным порядком байтов обозначаются их escape-последовательностями. ^[104]

Формат Юникод	Код(ы)	Шестигранник ^[103]	Устаревшие коды	Устаревший шестнадцатеричный код ^[99]^[101]^[103]
UTF-1	(UTF-1 отсутствует в текущем ISO/IEC 10646.)		`ESC % B`	`1B 25 42`
UTF-8	`ESC % G`, `ESC % / I`	`1B 25 47`, ^[13] `1B 25 2F 49`^[105]	`ESC % / G`, `ESC % / H`	`1B 25 2F 47`, `1B 25 2F 48`
UTF-16	`ESC % / L`	`1B 25 2F 4C`^[106]	`ESC % / @`, `ESC % / C`, `ESC % / E`, `ESC % / J`, `ESC % / K`	`1B 25 2F 40`, `1B 25 2F 43`, `1B 25 2F 45`, `1B 25 2F 4A`, `1B 25 2F 4B`
UTF-32	`ESC % / F`	`1B 25 2F 46`	`ESC % / A`, `ESC % / D`	`1B 25 2F 41`, `1B 25 2F 44`

Из последовательностей, переходящих на UTF-8, ESC % G тот, который поддерживается, например, xterm . ^[14]

Хотя использование варианта стандартной возвращаемой последовательности из UTF-16 и UTF-32 разрешено, байты escape-последовательности должны быть дополнены до размера кодовой единицы кодировки (т. е. 001B 0025 0040 для UTF-16), т. е. кодирование стандартной возвращаемой последовательности не совсем соответствует ISO/IEC 2022. По этой причине в обозначениях UTF-16 и UTF-32 используется синтаксис без стандартного возврата. ^[107]

Для указания кодировок с помощью меток X Консорциума формат Compound Text определяет пять последовательностей DOCS для частного использования. ^[108]

Объявления о структуре кода [ править ]

Последовательность «объявить структуру кода» ( ESC SP (0x20) F) используется для объявления определенной структуры кода или определенной группы средств ISO 2022, которые используются в определенной версии кода. Хотя объявления можно комбинировать, некоторые противоречивые комбинации (в частности, использование блокирующих объявлений смены 16–23 с объявлениями 1, 3 и 4) запрещены стандартом, как и использование дополнительных объявлений поверх ISO/IEC 4873. объявлений уровня 12–14 ^[92] (которые полностью уточняют допустимые конструктивные особенности). Последовательность объявлений следующая:

Число	Код	Шестигранник	Объявлена функция версии кода ^[92]
1	`ESC SP A`	`1B 20 41`	G0 в GL, GR отсутствует или не используется, блокировки сдвигов нет.
2	`ESC SP B`	`1B 20 42`	G0 и G1 вызываются для GL путем блокировки сдвигов, GR отсутствует или не используется.
3	`ESC SP C`	`1B 20 43`	G0 в GL, G1 в GR, без блокировки сдвигов, требуется 8-битная среда.
4	`ESC SP D`	`1B 20 44`	G0 в GL, G1 в GR, если 8-битная версия, блокировка сдвигов отсутствует, кроме как в 7-битной среде.
5	`ESC SP E`	`1B 20 45`	Функции сдвига сохраняются при преобразовании 7-бит/8-бит.
6	`ESC SP F`	`1B 20 46`	C1 управляет с помощью escape-последовательностей.
7	`ESC SP G`	`1B 20 47`	C1 управляет областью CR в 8-битных средах, в противном случае — escape-последовательностями.
8	`ESC SP H`	`1B 20 48`	Только графические наборы из 94 символов.
9	`ESC SP I`	`1B 20 49`	Графические наборы из 94 и/или 96 символов.
10	`ESC SP J`	`1B 20 4A`	Использует 7-битный код, даже если для использования доступен восьмой бит.
11	`ESC SP K`	`1B 20 4B`	Требуется 8-битный код.
12	`ESC SP L`	`1B 20 4C`	Соответствует стандарту ISO/IEC 4873 (ECMA-43), уровень 1.
13	`ESC SP M`	`1B 20 4D`	Соответствует стандарту ISO/IEC 4873 (ECMA-43), уровень 2.
14	`ESC SP N`	`1B 20 4E`	Соответствует стандарту ISO/IEC 4873 (ECMA-43), уровень 3.
16	`ESC SP P`	`1B 20 50`	Используется SI/LS0.
18	`ESC SP R`	`1B 20 52`	Используется SO/LS1.
19	`ESC SP S`	`1B 20 53`	LS1R используется в 8-битных средах, SO используется в 7-битных средах.
20	`ESC SP T`	`1B 20 54`	Используется ЛС2.
21	`ESC SP U`	`1B 20 55`	LS2R используется в 8-битных средах, LS2 используется в 7-битных средах.
22	`ESC SP V`	`1B 20 56`	Используется LS3.
23	`ESC SP W`	`1B 20 57`	LS3R используется в 8-битных средах, LS3 используется в 7-битных средах.
26	`ESC SP Z`	`1B 20 5A`	Используется SS2.
27	`ESC SP [`	`1B 20 5B`	Используется SS3.
28	`ESC SP \`	`1B 20 5C`	Односменный вызов через GR.

Версии кода ISO/IEC 2022 [ править ]

(Скриншот старой версии Firefox, показывающий Big5, GB 2312, GBK, GB 18030, HZ, ISO-2022-CN, Big5-HKSCS, EUC-TW, EUC-JP, ISO-2022-JP, Shift_JIS, EUC- KR, UHC, Johab и ISO-2022-KR в качестве доступных кодировок в подменю CJK.) — Различные кодировки ISO 2022 и другие CJK, поддерживаемые Mozilla Firefox с 2004 года. (Эта поддержка была сокращена в более поздних версиях, чтобы избежать определенных с использованием межсайтовых сценариев .) атак

Шесть 7-битных версий кода ISO 2022 (ISO-2022-CN, ISO-2022-CN-EXT, ISO-2022-JP, ISO-2022-JP-1, ISO-2022-JP-2 и ISO-2022-KR ) определяются документами IETF RFC , из которых в прошлом широко использовались ISO-2022-JP и ISO-2022-KR. ^[109] Ряд других вариантов определены поставщиками, включая IBM . ^[110] Хотя UTF-8 является предпочтительной кодировкой в HTML5 , устаревший контент в ISO-2022-JP остается достаточно распространенным, поэтому стандарт кодирования WHATWG сохраняет его поддержку. ^[111] в отличие от сопоставления ISO-2022-KR, ISO-2022-CN и ISO-2022-CN-EXT ^[112] полностью на заменяющий символ , ^[113] из-за опасений по поводу атак с внедрением кода, таких как межсайтовый скриптинг . ^[111]^[113]

Версии 8-битного кода включают расширенный код Unix . ^[11]^[12] Кодировки ISO/IEC 8859 также соответствуют ISO 2022 в подмножестве, предусмотренном ISO/IEC 4873. ^[9]^[10]

Японские версии электронной почты [ править ]

ISO-2022-JP [ править ]

ISO-2022-JP — широко используемая кодировка японского языка, особенно в электронной почте . Он был представлен для использования в сети JUNET и позже кодифицирован в IETF RFC 1468 от 1993 года. ^[114] Его преимущество перед другими кодировками японского языка заключается в том, что он не требует 8-битной чистой передачи. Microsoft называет это кодовой страницей 50220 . ^[115] Он начинается в ASCII и включает следующие escape-последовательности:

ESC ( B для переключения на ASCII (1 байт на символ)
ESC ( J для перехода на JIS X 0201-1976 (ISO/IEC 646:JP) Римский набор (1 байт на символ)
ESC $ @ для перехода на JIS X 0208-1978 (2 байта на символ)
ESC $ B для перехода на JIS X 0208-1983 (2 байта на символ)

Использование двух символов, добавленных в JIS X 0208-1990, разрешено, но без включения последовательности IRR, т. е. с использованием той же escape-последовательности, что и в JIS X 0208-1983. ^[114] Кроме того, из-за регистрации до того, как стало возможным назначение многобайтовых наборов, кроме G0, escape-последовательности для JIS X 0208 не включают второй I -байт. (. ^[89]

RFC отмечает, что некоторые существующие системы не различают ESC ( B от ESC ( J, или не отличил ESC $ @ от ESC $ B, но предусматривает, что escape-последовательности не должны изменяться системами, просто передающими сообщения, такие как электронные письма. ^[114] Стандарт WHATWG кодирования HTML5. , на который ссылаются дескрипторы ESC ( B и ESC ( J отчетливо, но относится ESC $ @ то же, что ESC $ B при декодировании и использует только ESC $ B для JIS X 0208 при кодировании. ^[116] RFC также отмечает, что некоторые предыдущие системы ошибочно использовали последовательность ESC ( H отказаться от JIS X 0208, который фактически зарегистрирован как ISO-IR-11 (шведский вариант ISO 646 и World System Teletext ). ^[114]^[я]

Версии с половинной ширины катаканой

Использование ESC ( I для перехода на набор Kana JIS X 0201-1976 (1 байт на символ) не является частью профиля ISO-2022-JP, ^[114] но также иногда используется. Python допускает это в варианте, который он обозначает ISO-2022-JP-EXT (который также включает JIS X 0212, как описано ниже, завершая покрытие EUC-JP ); ^[117]^[118] по названию и структуре это близко к кодировке, обозначенной -2022-JPext ISO DEC , которая, кроме того, добавляет двухбайтовую пользовательскую область, доступ к которой осуществляется с помощью ESC $ ( 0 чтобы завершить описание кандзи Super DEC . ^[119] Вариант WHATWG/HTML5 позволяет декодировать катакану JIS X 0201 во входных данных ISO-2022-JP, но при кодировании преобразует символы в их эквиваленты JIS X 0208. ^[116] Кодовая страница Microsoft для ISO-2022-JP с дополнительно разрешенным кана JIS X 0201 — кодовая страница 50221 . ^[115]

Другие, более старые варианты, известные как JIS7 и JIS8, основаны непосредственно на 7-битных и 8-битных кодировках, определенных JIS X 0201 , и позволяют использовать кану JIS X 0201 из G1 без escape-последовательностей, используя Shift Out и Shift In или устанавливая восьмую бит (вызываемый GR) соответственно. ^[120] Они не получили широкого распространения; ^[120] Поддержка JIS X 0208 в расширенном 8-битном JIS X 0201 чаще достигается с помощью Shift JIS . Кодовая страница Microsoft для ISO 2022 на основе JIS X 0201 с однобайтовой катаканой через Shift Out и Shift In — кодовая страница 50222 . ^[115]

ISO-2022-JP-2 [ править ]

ISO-2022-JP-2 — это многоязычное расширение ISO-2022-JP, определенное в RFC 1554 (от 1993 г.), которое допускает следующие escape-последовательности в дополнение к последовательностям ISO-2022-JP. Части ISO/IEC 8859 представляют собой наборы из 96 символов, которые не могут быть обозначены как G0, и доступны из G2 с использованием 7-битной escape-последовательности односменного кода SS2: ^[121]

ESC $ A для переключения на GB 2312-1980 (2 байта на символ)
ESC $ ( C для перехода на KS X 1001-1992 (2 байта на символ)
ESC $ ( D для перехода на JIS X 0212-1990 (2 байта на символ)
ESC . A для переключения на старшую часть ISO/IEC 8859-1 , набор расширенной латиницы 1 (1 байт на символ) [обозначается G2]
ESC . F для переключения на старшую часть ISO/IEC 8859-7 , набор базового греческого языка (1 байт на символ) [обозначается как G2]

ISO-2022-JP с представлением ISO-2022-JP-2 для JIS X 0212, но не с другими расширениями, впоследствии был назван ISO-2022-JP-1 в RFC 2237 от 1997 года. ^[122]

IBM, японский TCP [ править ]

IBM реализует девять 7-битных кодировок японского языка на основе ISO 2022, каждая из которых использует свой набор escape-последовательностей: IBM-956, IBM-957, IBM-958, IBM-959, IBM-5052, IBM-5053, IBM-5054, IBM-5055 и ISO-2022-JP, которые вместе называются «наборами японских кодированных символов TCP/IP». ^[123] CCSID 9148 — это стандарт (RFC 1468) ISO-2022-JP. ^[124]

Варианты IBM ISO-2022-JP
Кодовая страница/CCSID	Номер определения ACRI	Escape-последовательности для ACRI ^[110]
956 ^[125]	TCP-01	`ESC ( J` (ИИСУС X 0201 Роман) `ESC $ ( B` (JIS X 0208, 1983+, длинная escape-последовательность) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D`
957 ^[126]	TCP-02	`ESC ( J` (ИИСУС X 0201 Роман) `ESC $ ( @` (JIS X 0208, 1978, длинная escape-последовательность) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
958 ^[127]	TCP-03	`ESC ( A` (ASCII) `ESC $ ( B` (JIS X 0208, 1983+, длинная escape-последовательность) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
959 ^[128]	TCP-04	`ESC ( A` (ASCII) `ESC $ ( @` (JIS X 0208, 1978, длинная escape-последовательность) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
5052 ^[129]	TCP-05	`ESC ( J` (ИИСУС X 0201 Роман) `ESC $ B` (JIS X 0208, 1983+) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
5053 ^[130]	TCP-06	`ESC ( J` (ИИСУС X 0201 Роман) `ESC $ @` (JIS X 0208, 1978 г.) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
5054 ^[131]	TCP-07	`ESC ( A` (ASCII) `ESC $ B` (JIS X 0208, 1983+) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
5055 ^[132]	TCP-08	`ESC ( A` (ASCII) `ESC $ @` (JIS X 0208, 1978 г.) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
9148 ^[124]	TCP-16	`ESC ( A` (ASCII) `ESC ( J` (ИИСУС X 0201 Роман) `ESC $ @` (JIS X 0208, 1978 г.) `ESC $ B` (JIS X 0208, 1983+)

JIS X 0213 [ править ]

Стандарт JIS X 0213 , впервые опубликованный в 2000 году, определяет обновленную версию ISO-2022-JP без расширений ISO-2022-JP-2, получившую название ISO-2022-JP-3 . Дополнения, внесенные в JIS X 0213 по сравнению с базовым стандартом JIS X 0208, привели к новой регистрации расширенной плоскости JIS 1, а новая плоскость 2 получила собственную регистрацию. Дальнейшие дополнения к плоскости 1 в редакции стандарта 2004 года привели к добавлению дополнительной регистрации к дальнейшей версии профиля, получившей название ISO-2022-JP-2004 . Помимо основных кодов обозначений ISO-2022-JP, признаются следующие обозначения:

ESC ( I для перехода на набор Kana JIS X 0201-1976 (1 байт на символ)
ESC $ ( O для переключения на JIS X 0213-2000 Plane 1 (2 байта на символ)
ESC $ ( P для перехода на JIS X 0213-2000 Plane 2 (2 байта на символ)
ESC $ ( Q для переключения на плоскость 1 JIS X 0213-2004 (2 байта на символ, только ISO-2022-JP-2004)

Другие 7-битные версии [ править ]

ISO-2022-KR определен в RFC 1557 от 1993 года. ^[133] Он кодирует ASCII и корейский двухбайтовый код KS X 1001-1992 . ^[134]^[135] ранее назывался KS C 5601-1987. В отличие от ISO-2022-JP-2, он использует символы Shift Out и Shift In для переключения между ними после включения ESC $ ) C один раз в начале строки для обозначения от KS X 1001 до G1. ^[133]

ISO-2022-CN и ISO-2022-CN-EXT определены в RFC 1922, датированном 1996 годом. Это 7-битные кодировки, в которых используются функции Shift Out и Shift In (для переключения между G0 и G1), а также 7-битный escape-код. формы односменных функций SS2 и SS3 (для доступа к G2 и G3). ^[136] Они поддерживают наборы символов GB 2312 (для упрощенного китайского ) и CNS 11643 (для традиционного китайского ).

Базовый профиль ISO-2022-CN использует ASCII в качестве набора G0 (сдвиг), а также включает GB 2312 и первые две плоскости CNS 11643 (поскольку этих двух плоскостей достаточно для представления всех традиционных китайских иероглифов из обычных Big5 , к которому RFC приводит соответствие в приложении): ^[136]

ESC $ ) A для переключения на GB 2312-1980 (2 байта на символ) [обозначается G1]
ESC $ ) G для переключения на CNS 11643-1992 Plane 1 (2 байта на символ) [обозначается G1]
ESC $ * H для переключения на CNS 11643-1992 Plane 2 (2 байта на символ) [обозначается как G2]

Профиль ISO-2022-CN-EXT допускает следующие дополнительные наборы и плоскости. ^[136]

ESC $ ) E для переключения на ISO-IR-165 (2 байта на символ) [обозначается G1]
ESC $ + I для переключения на CNS 11643-1992 Plane 3 (2 байта на символ) [обозначается G3]
ESC $ + J для переключения на CNS 11643-1992 Plane 4 (2 байта на символ) [обозначается как G3]
ESC $ + K для переключения на CNS 11643-1992 Plane 5 (2 байта на символ) [обозначается G3]
ESC $ + L для переключения на CNS 11643-1992 Plane 6 (2 байта на символ) [обозначается G3]
ESC $ + M для переключения на CNS 11643-1992 Plane 7 (2 байта на символ) [обозначается G3]

В профиле ISO-2022-CN-EXT дополнительные стандартные графические наборы Guobiao перечислены как разрешенные, но при условии, что им присвоены зарегистрированные escape-последовательности ISO 2022: ^[136]

ГБ 12345 в G1
GB 7589 или GB 13131 в G2
ГБ 7590 или ГБ 13132 в G3

Персонаж после ESC (для однобайтовых наборов символов) или ESC $ (для многобайтовых наборов символов) указывает тип набора символов и назначенный рабочий набор. В приведенных выше примерах персонаж ( (0x28) обозначает набор из 94 символов в наборе символов G0, тогда как ), * или + (0x29–0x2B) обозначает наборы символов G1–G3.

ISO-2022-KR и ISO-2022-CN используются реже, чем ISO-2022-JP, и иногда намеренно не поддерживаются из соображений безопасности. Примечательно, что стандарт кодирования WHATWG , используемый HTML5 , сопоставляет ISO-2022-KR, ISO-2022-CN и ISO-2022-CN-EXT (а также HZ-GB-2312 ) с «замещающим» декодером, ^[112] который сопоставляет все входные данные с символом замены (�), чтобы предотвратить определенные межсайтовые сценарии и связанные с ними атаки, которые используют разницу в поддержке кодирования между клиентом и сервером. ^[113] Хотя та же проблема безопасности (позволяющая по-разному интерпретировать последовательности байтов ASCII) также применима к ISO-2022-JP и UTF-16 , они не могут быть обработаны таким образом из-за того, что они гораздо чаще используются в развернутом контенте. ^[111]

В апреле 2024 года обнаружена брешь в безопасности. ^[137] был найден в реализации ISO-2022-CN-EXT в glibc , что привело к рекомендациям полностью отключить кодирование в системах Linux. ^[138]

ИСО/МЭК 4873 [ править ]

Подмножество ISO 2022, применяемое к 8-битным однобайтовым кодировкам, определяется стандартом ISO/IEC 4873 , также опубликованным Ecma International как ECMA-43. ISO/IEC 8859 определяет 8-битные коды для ISO/IEC 4873 (или ECMA-43) уровня 1. ^[9]^[10]

ISO/IEC 4873/ECMA-43 определяет три уровня кодирования: ^[139]

Уровень 1, который включает набор C0, набор ASCII G0, дополнительный набор C1 и дополнительный однобайтовый (94- или 96-символьный) набор G1. G0 вызывается через GL, а G1 вызывается через GR. Использование функций сдвига не допускается.
Уровень 2, который включает однобайтовый набор G2 и/или G3 (94 или 96 символов) в дополнение к обязательному набору G1. Разрешены только функции одной смены SS2 и SS3 (т.е. блокирующие сдвиги запрещены), и они вызываются в области GL (включая 0x20 и 0x7F в случае набора 96). SS2 и SS3 должны быть доступны в C1 по адресам 0x8E и 0x8F соответственно. Этот минимальный необходимый набор C1 для ISO 4873 зарегистрирован как ISO-IR-105. ^[69]
Уровень 3, который разрешает функции блокировки-переключения GR LS1R, LS2R и LS3R в дополнение к одиночным переключениям, но в остальном имеет те же ограничения, что и уровень 2.

Более ранние версии стандарта допускали присвоения не-ASCII в наборе G0 при условии, что инвариантные позиции ISO/IEC 646 были сохранены, что другие позиции были назначены пробельным (не объединяемым) символам, что 0x23 был назначен либо £ , либо #. , и этот 0x24 был назначен либо $ , либо ¤ . ^[140] Например, 8-битная кодировка JIS X 0201 совместима с более ранними редакциями. Впоследствии это было изменено, чтобы полностью определить набор ISO / IEC 646: 1991 IRV / ISO-IR № 6 (ASCII). ^[141]^[142]^[143]

Использование ISO/IEC 646 IRV (синхронизировано с ASCII с 1991 года) по ISO/IEC 4873 уровня 1 без набора C1 или G1, т.е. использование IRV в 8-битной среде, в которой не используются коды сдвига и высокие бит всегда равен нулю, известен как ISO 4873 DV , где DV означает «Версия по умолчанию». ^[144]

В случаях, когда повторяющиеся символы доступны в разных наборах, действующая редакция ISO/IEC 4873/ECMA-43 разрешает использовать эти символы только в рабочем наборе с наименьшим номером, в котором они встречаются. ^[145] Например, если символ присутствует как в наборе G1, так и в наборе G3, его необходимо использовать из набора G1. Однако использование других наборов разрешено в более ранних выпусках. ^[143]

ISO/IEC 8859 определяет полные кодировки на уровне 1 ISO/IEC 4873 и не допускает совместного использования нескольких частей ISO/IEC 8859. Он предусматривает, что ISO/IEC 10367 . вместо уровней 2 и 3 ISO/IEC 4873 следует использовать ^[9]^[10] ISO/IEC 10367:1991 включает наборы G0 и G1, соответствующие тем, которые использовались в первых девяти частях ISO/IEC 8859 (т.е. те, которые существовали по состоянию на 1991 год, когда он был опубликован), а также некоторые дополнительные наборы. ^[146]

Escape-последовательности обозначения набора символов используются для идентификации или переключения между версиями во время обмена информацией только в том случае, если этого требует дополнительный протокол; в этом случае стандарт требует последовательности объявлений ISO/IEC 2022, определяющей уровень ISO/IEC 4873, за которой следует полный набор escape-символов, определяющих обозначения наборов символов для C0, C1, G0, G1, G2 и G3 соответственно (но опуская обозначения G2 и G3 для уровня 1), с F -байтом 0x7E, обозначающим пустой набор. Каждый уровень ISO/IEC 4873 имеет свою собственную последовательность объявлений ISO/IEC 2022, а именно: ^[147]

Код	Шестигранник	Объявление
`ESC SP L`	`1B 20 4C`	ИСО 4873 уровень 1
`ESC SP M`	`1B 20 4D`	ИСО 4873 уровень 2
`ESC SP N`	`1B 20 4E`	ИСО 4873 уровень 3

Расширенный код Unix [ править ]

переменной ширины, Расширенный код Unix (EUC) — это 8-битная система кодирования символов используемая в основном для японского , корейского и упрощенного китайского языков . Он основан на ISO 2022, и только наборы символов, соответствующие структуре ISO 2022, могут иметь формы EUC. Могут быть представлены до четырех наборов кодированных символов (в G0, G1, G2 и G3). Набор G0 вызывается через GL, набор G1 вызывается через GR, а наборы G2 и G3 (если они присутствуют) вызываются с использованием одиночных сдвигов SS2 и SS3, которые используются как байты CR (т. е. 0x8E и 0x8F соответственно) и вызывать через GR (не GL). ^[11] Коды блокировки смены не используются. ^[12]

страны, Код, назначенный набору G0, — это ASCII или национальный набор символов ISO 646 например KS-Roman (KS X 1003) или JIS-Roman (нижняя половина JIS X 0201 ). ^[11] Следовательно, 0x5C ( обратная косая черта в US-ASCII) используется для обозначения знака иены в некоторых версиях EUC-JP и знака вона в некоторых версиях EUC-KR.

G1 используется для кодированного набора символов 94x94, представленного двумя байтами. EUC -CN Форма GB 2312 и EUC-KR являются примерами таких двухбайтовых кодов EUC. EUC-JP включает символы, представленные тремя байтами (т. е. SS3 плюс два байта), тогда как один символ в EUC-TW может занимать до четырех байтов (т. е. SS2 плюс три байта).

Сам код EUC не использует последовательности объявлений или обозначений из ISO 2022; однако это соответствует следующей последовательности из четырех последовательностей дикторов, значения которых распределяются следующим образом. ^[148]

Индивидуальная последовательность	Шестнадцатеричный	Особенность EUC обозначена
`ESC SP C`	`1B 20 43`	ISO-8 (8 бит, G0 в GL, G1 в GR)
`ESC SP Z`	`1B 20 5A`	Доступ к G2 осуществляется через SS2
`ESC SP [`	`1B 20 5B`	Доступ к G3 осуществляется через SS3
`ESC SP \`	`1B 20 5C`	Односменный вызов через GR

Составной текст (X11) [ править ]

Консорциум X определил профиль ISO 2022 под названием Compound Text в качестве формата обмена в 1989 году. ^[149] При этом используются только четыре управляющих кода: ХТ ( 0x09), NL (новая строка, кодируется как ЛФ , 0x0A) , ЭСК ( 0x1B) и CSI (в 8-битном представлении 0x9B), ^[150] с СДС ( CSI … ]) Последовательность CSI используется для управления двунаправленным текстом. ^[151] Это 8-битный код, использующий G0 и G1 для GL и GR, и соответствует ISO-8859-1 . в исходном состоянии ^[152] Используются следующие F-байты:

Последовательности обозначений ISO 2022, используемые в составном тексте X11 ^[153]
Тип escape-последовательности	Последний байт	Графический набор
GZD4, G1D4 (для наборов из 94 символов)	`B` ( `0x42`)	ASCII
	`I` ( `0x49`)	JIS X 0201 катакана
	`J` ( `0x4A`)	ИИСУС X 0201 Романтика
G1D6 (для наборов из 96 символов)	`A` ( `0x41`)	ISO-8859-1 верхняя часть
	`B` ( `0x42`)	ISO-8859-2 верхняя часть
	`C` ( `0x43`)	ISO-8859-3 верхняя часть
	`D` ( `0x44`)	ISO-8859-4 верхняя часть
	`F` ( `0x46`)	ISO-8859-7 верхняя часть
	`G` ( `0x47`)	ISO-8859-6 верхняя часть
	`H` ( `0x48`)	ISO-8859-8 верхняя часть
	`L` ( `0x4C`)	ISO-8859-5 верхняя часть
	`M` ( `0x4D`)	ISO-8859-9 верхняя часть
GZDM4, G1DM4 (для 2-байтовых наборов)	`A` ( `0x41`)	ГБ 2312
	`B` ( `0x42`)	ДЖИС Х 0208
	`C` ( `0x43`)	КС С 5601

Для указания кодировок с помощью меток X11 Compound Text определяет пять последовательностей DOCS для частного использования: ESC % / 0 ( 1B 25 2F 30) для кодировок переменной длины и ESC % / 1 через ESC % / 4 для кодировок фиксированной длины с использованием от одного до четырех байтов соответственно. Вместо использования другой escape-последовательности для возврата к ISO 2022 два байта, следующие за исходной escape-последовательностью, определяют оставшуюся длину в байтах, закодированную в базе 128 с использованием байтов. 0x80–FF. Метка кодировки включается в ISO 8859-1 перед закодированным текстом и заканчивается СТХ ( 0x02). ^[108]

Сравнение с другими кодировками [ править ]

Преимущества [ править ]

Поскольку весь диапазон кодировок графических символов ISO/IEC 2022 можно использовать через GL, доступные глифы существенно не ограничены невозможностью представления GR и C1, например, в системе, ограниченной 7-битными кодировками. Соответственно, это позволяет представлять в такой системе большой набор символов. Как правило, эта 7-битная совместимость на самом деле не является преимуществом, за исключением обратной совместимости со старыми системами. Подавляющее большинство современных компьютеров используют 8 бит на каждый байт.
По сравнению с Unicode, ISO/IEC 2022 обходит унификацию Хань , используя коды последовательности для переключения между дискретными кодировками для разных восточноазиатских языков. Это позволяет избежать проблем ^{[ нужна ссылка ]} связанные с унификацией, например трудности с поддержкой нескольких языков CJK с соответствующими вариантами символов в одном документе и шрифте.

Недостатки [ править ]

Поскольку ISO/IEC 2022 представляет собой кодировку с отслеживанием состояния, программа не может переходить в середину блока текста для поиска, вставки или удаления символов. Это делает манипуляции с текстом очень громоздкими и медленными по сравнению с кодировками без сохранения состояния. Любой переход в середину текста может потребовать резервного копирования предыдущей escape-последовательности, прежде чем можно будет интерпретировать байты, следующие за escape-последовательностью.
Из-за особенностей ISO/IEC 2022 с отслеживанием состояния идентичный и эквивалентный символ может быть закодирован в разных наборах символов, которые могут быть обозначены как любой из G0–G3, который может быть вызван с использованием одиночных сдвигов или с использованием блокирующих сдвигов для GL или ГР. Следовательно, символы могут быть представлены разными способами, а это означает, что две визуально идентичные и эквивалентные строки не могут быть надежно сопоставлены на предмет равенства.
Некоторые системы, такие как DICOM и некоторые клиенты электронной почты, используют вариант ISO-2022 (например, «ISO 2022 IR 100»). ^[154]) в дополнение к поддержке нескольких других кодировок. ^[155] Этот тип вариаций затрудняет портативную передачу текста между компьютерными системами.
UTF-1 , многобайтовый формат преобразования Unicode , совместимый с представлением 8-битных управляющих символов ISO/IEC 2022, имеет различные недостатки по сравнению с UTF-8 и переключением с других кодировок или на другие кодировки, поддерживаемые ISO/IEC 2022. , обычно не требуется в документах Unicode.
Благодаря escape-последовательностям можно создавать последовательности атакующих байтов, в которых вредоносная строка (например, межсайтовый скриптинг ) маскируется до тех пор, пока она не будет декодирована в Unicode, что может позволить ей обойти очистку. ^[156] Таким образом, использование этой кодировки рассматривается комплектами защиты от вредоносных программ как подозрительное. ^[157]^{[ нужен лучший источник ]} а 7-битные данные ISO 2022 (за исключением ISO-2022-JP) полностью сопоставляются с символом замены в HTML5 для предотвращения атак. ^[112]^[113] Ограниченные версии 8-битного кода ISO 2022, которые не используют escape-символы обозначения или коды блокировки блокировки, такие как расширенный код Unix , не разделяют эту проблему.
Конкатенация может создать проблемы. Такие профили, как ISO-2022-JP, указывают, что поток начинается в состоянии ASCII и должен заканчиваться в состоянии ASCII. ^[114] Это необходимо для того, чтобы гарантировать, что символы в объединенных потоках ISO-2022-JP и/или ASCII будут интерпретироваться в правильном наборе. Это приводит к тому, что если поток, который заканчивается многобайтовым символом, объединяется с потоком, который начинается с многобайтового символа, генерируется пара escape-кодов, переключающихся на ASCII и сразу же от него. Однако, как указано в Техническом отчете Unicode № 36 («Вопросы безопасности Unicode»), пары escape-последовательностей ISO 2022 без символов между ними должны генерировать замещающий символ («�»), чтобы предотвратить их использование для маскировки вредоносных последовательностей, таких как как межсайтовый скриптинг . ^[158] Реализация этой меры, например, в Mozilla Thunderbird , привела к проблемам совместимости, поскольку при объединении двух потоков ISO-2022-JP генерировались неожиданные символы «��». ^[156]

См. также [ править ]

Сноски [ править ]

^ Японский : 区 , латинизированный : кутен ; китайский : местоположение ; пиньинь : qūwèi ; корейский : 행렬 ; RR : хэннёль ; 点
^ Японский : 区 , латинизированный : ку , букв. 'зона'; Китайский : 区 ; пиньинь : цю ; Корейский 행: Ханджа : 行 ; RR : Хэнг
^ Японский : 点 , латинизированный : десять , букв. 'точка'; Китайский : 位 ; пиньинь : вэй ; горит. 'позиция'; Корейский : 열 ; Ханджа : 列 ; РР : йёль
^ Японский : 面 , латинизированный : мужчины , букв. 'лицо'
↑ Перейти обратно: Перейти обратно: ^а ^б Указано для F байтов 0x40 ( @), 0x41 ( A) и 0x42 ( B) только по историческим причинам. ^[89] В некоторых реализациях, таких как SoftBank 2G кодировка смайлов , используются дополнительные escape-символы этой формы для целей, не соответствующих ISO-2022. ^[96]
^ Внесено в список MARC-8 . ^[3] См. сноску для ESC , F ниже для фона.
^ F , скорректированный в диапазоне 1-63, указывает, какая (совместимая с предыдущими версиями) версия следующей регистрации необходима, чтобы старые системы знали, что они устарели. ^[97]
^ В более ранних выпусках наборов из 96 символов не существовало, а escape-коды, которые теперь используются для наборов из 96 символов, были зарезервированы как место для дополнительных наборов из 94 символов. Соответственно, ESC 0x1B 0x2C последовательность была определена в ранних редакциях стандарта как обозначение дальнейших наборов из 94 символов для G0. ^[98] Поскольку наборы из 96 символов не могут быть обозначены как G0, этот первый байт I не используется текущей редакцией стандарта. Однако он по-прежнему указан в MARC-8 . ^[3]
^ См. также, например, Printronix (2012 г.), Справочное руководство программиста OKI® (PDF) , стр. 26 для более новой системы, которая использует ESC ( H для переключения на ASCII из DBCS.

Ссылки [ править ]

^ ECMA-35 (1994) , Краткая история
^ ECMA-35 (1994) , с. 51, приложение Д
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и «Техника 2: Использование стандартных альтернативных наборов графических символов» . MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена . Библиотека Конгресса . 05.12.2007. Архивировано из оригинала 22 июля 2020 г. Проверено 19 июля 2020 г.
^ «ECMA-35: Структура кода символов и методы расширения (веб-страница)» . Экма Интернешнл . Архивировано из оригинала 25 апреля 2022 г. Проверено 27 апреля 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , стр. 15–16, глава 8.1.
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , глава 13
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , главы 12, 14
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , глава 11
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ISO/IEC FDIS 8859-10 (1998) , стр. 1, глава 1 («Объем применения»)
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ECMA-144 (2000) , с. 1, глава 1 («Объем применения»)
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж Лунде (2008) , стр. 242–245, глава 4 («Методы кодирования»), раздел «Кодирование EUC».
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д Лунде (2008) , стр. 253–255, глава 4 («Методы кодирования»), раздел «Кодировки EUC и ISO-2022».
↑ Перейти обратно: Перейти обратно: ^а ^б ИСО-ИР-196 (1996 г.)
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Мой, Эдвард; Гильдеа, Стивен; Дикки, Томас. «Управление, начинающееся с ESC» . Управляющие последовательности XTerm . Архивировано из оригинала 10 октября 2019 г. Проверено 4 октября 2019 г.
^ ECMA-35 (1994) , главы 6, 7.
^ ECMA-35 (1994) , глава 8
^ ECMA-35 (1994) , глава 9
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , глава 15
^ Лунде (2008) , стр. 228–234, глава 4 («Методы кодирования»), раздел «Кодирование ISO-2022»
^ Лунде (2008) , стр. 19–20, Глава 1 («Обзор обработки информации CJKV»), раздел «Что такое строка-ячейка и плоская-строка-ячейка?»
^ ECMA-35 (1994) , с. 4, определение 4.11
^ ECMA-35 (1994) , с. 5, определение 4.18
^ См., например, ISO-IR-14 (1975) , определяющий обозначение G0 римского набора JIS X 0201 как ESC 2/8 4/10.
^ ECMA-35 (1994) , с. 5, глава 5.1
^ См., например, RFC 1468 (1993) , определяющий обозначение G0 римского набора JIS X 0201 как ESC ( J.
^ ECMA-35 (1994) , с. 7, глава 6.2
^ ECMA-35 (1994) , с. 10, глава 6.3.2
^ ECMA-35 (1994) , с. 4, определение 4.17
^ ECMA-35 (1994) , с. 4, определение 4.14
^ ECMA-35 (1994) , с. 28, глава 13.1
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 33, глава 13.3.3
^ ECMA-48 (1991) , стр. 24–26, глава 5.4.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 11, глава 6.4.3
^ ИСО-ИР-208 (1999)
^ ИСО-ИР-155 (1990)
^ ИСО-ИР-164 (1992)
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 10, глава 6.3.3
^ Google Inc. (2014). "ansi.go, строка 134" . Библиотека escape-последовательностей ANSI для Go . Архивировано из оригинала 30 апреля 2022 г. Проверено 14 сентября 2019 г.
^ ECMA-43 (1991) , с. 5, глава 7 («Спецификация символов 8-битного кода»)
^ ISO/IEC FDIS 8859-10 (1998) , стр. 3, глава 6 («Спецификация кодированного набора символов»)
^ ECMA-144 (2000) , с. 3, глава 6 («Спецификация кодированного набора символов»)
^ ECMA-43 (1991) , с. 19, приложение С («Композитные графические символы»)
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 10, глава 6.4.1
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 11, глава 6.4.4
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 11, глава 6.4.2
^ ИСО-ИР-104 (1985)
^ ИСО-ИР-1 (1975)
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 19, глава 8.5.1
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 19, глава 8.5.2
^ ECMA-43 (1991) , с. 8, глава 7.6 («Набор C1»)
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 29, глава 13.2.1
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 12, глава 6.5.1
^ ECMA-35 (1994) , с. 12, глава 6.5.2
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ИСО-ИР , с. 19, глава 2.7 («Отдельные функции управления»)
^ ECMA-35 (1994) , с. 12, глава 6.5.4
^ ECMA-48 (1991) , глава 5.5.
^ ISO/TC 97/SC 2 (30 декабря 1976 г.). Возврат к исходному состоянию (RIS) (PDF) . ITSCJ/ IPSJ . ИСО-ИК -35. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
^ ECMA-35 (1994) , с. 12, глава 6.5.3
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 14, глава 7.3, таблица 2
^ ИСО-ИР-14 (1975)
↑ Перейти обратно: Перейти обратно: ^а ^б МСЭ-Т (11 августа 1995 г.). Рекомендация T.51 (1992 г.) Поправка 1 . Архивировано из оригинала 2 августа 2020 г. Проверено 25 декабря 2019 г.
^ ИСО-ИР-106 (1985)
^ ECMA-35 (1994) , с. 15, глава 7.3, примечание 23
^ ИСО-ИР-140 (1987)
^ ИСО-ИР-7 (1975)
^ ИСО-ИР-26 (1976)
^ ИСО-ИР-36 (1977)
^ ECMA-35 (1980) , с. 8, глава 5.1.7
↑ Перейти обратно: Перейти обратно: ^а ^б ИСО-ИР-105 (1985 г.)
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 17, глава 8.3.1
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 23, глава 9.3.1
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 19, глава 8.4
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 17, глава 8.3.2
^ ECMA-35 (1994) , стр. 23–24, глава 9.4.
^ ECMA-35 (1994) , с. 27, глава 11.1
^ ECMA-35 (1994) , с. 17, глава 8.3.3
^ ECMA-35 (1994) , с. 47, приложение Б
^ ИСО-ИК , с. 2, глава 1 («Введение»)
^ ИСО/МЭК 2375 (2003)
↑ Перейти обратно: Перейти обратно: ^а ^б «Обработка декларации SGML в SP» . SP: система SGML, соответствующая международному стандарту ISO 8879 .
^ «20: Декларация SGML HTML 4» . Спецификация HTML 4.01 . W3C .
^ ИСО-ИК , с. 10, глава 2.2 («Набор графических символов из 94 символов со вторым промежуточным байтом»)
^ ARIB STD-B24 (2008) , с. 39, часть 2, Таблица 7-3
^ Масчек, Свен; Ле Бретон, Стефан; Гамильтон, Ричард Л. «Об« альтернативном наборе символов рисования линий » » . ~sven_mascheck/ . Архивировано из оригинала 29 декабря 2019 г. Проверено 8 января 2020 г.
^ ECMA-35 (1994) , с. 36, глава 14.4
^ ECMA-35 (1994) , с. 36, глава 14.4.2, примечание 48
^ ECMA-35 (1994) , с. 36, глава 14.4.2, примечание 47
^ ETS 300 706 (1997) , с. 103, глава 14 («Динамически переопределяемые символы»)
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д ECMA-35 (1994) , стр. 35–36, глава 14.3.2.
^ ISO/IEC 10646 (2017) , стр. 19–20, глава 12.4 («Идентификация набора функций управления»)
^ ECMA-35 (1994) , с. 32, таблица 5
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , стр. 37–41, глава 15.2.
^ ECMA-35 (1994) , с. 34, глава 14.2.2
^ ECMA-35 (1994) , с. 34, глава 14.2.3
^ Цифровой . «DECDWL — линия двойной ширины и одинарной высоты» . Информация о программаторе видеотерминала VT510 . Архивировано из оригинала 2 августа 2020 г. Проверено 17 января 2020 г.
^ Кавасаки, Юсуке (2010). «Кодировать::JP::Emoji::Кодировка» . Кодировать-JP-Emoji . Строка 268. Архивировано из оригинала 30 апреля 2022 г. Проверено 28 мая 2020 г.
^ ECMA-35 (1994) , стр. 36–37, глава 14.5.
^ ECMA-35 (1980) , стр. 14–15, глава 5.3.7.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ИСО-ИР , с. 20, глава 2.8.1 («Системы кодирования со стандартным возвратом»)
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , стр. 41–42, глава 15.4.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ИСО-ИР , с. 21, глава 2.8.2 («Системы кодирования без стандартного возврата»)
^ ECMA-35 (1994) , с. 41, глава 15.3
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ISO/IEC 10646 (2017) , стр. 19, глава 12.2 («Идентификация схемы кодирования UCS»)
^ ISO/IEC 10646 (2017) , стр. 18–19, глава 12.1 («Цель и контекст идентификации»).
^ ИСО-ИР-192 (1996)
^ ИСО-ИР-195 (1996)
^ ISO/IEC 10646 (2017) , с. 20, глава 12.5 («Идентификация системы кодирования ISO/IEC 2022»)
↑ Перейти обратно: Перейти обратно: ^а ^б Шайфлер (1989) , § Кодировки нестандартных наборов символов
^ Лунде (2008) , стр. 229–230, глава 4 («Методы кодирования»), раздел «Кодировка ISO-2022» «Те кодировки, которые широко использовались в прошлом или продолжают использоваться сегодня для некоторых целей, были выделены».
↑ Перейти обратно: Перейти обратно: ^а ^б «Дополнительная необходимая информация, связанная с кодированием» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 7 января 2015 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Стандарт кодирования WHATWG , раздел 2 («Безопасность»).
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Стандарт кодирования WHATWG , глава 4.2 («Имена и метки»), привязка «замена»
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д Стандарт кодирования WHATWG , раздел 14.1 («замена»)
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж RFC 1468 (1993)
↑ Перейти обратно: Перейти обратно: ^а ^б ^с «Идентификаторы кодовых страниц» . Центр разработки Windows . Майкрософт. Архивировано из оригинала 16 июня 2019 г. Проверено 16 сентября 2019 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Стандарт кодирования WHATWG , раздел 12.2 («ISO-2022-JP»)
^ Чанг, Хе-Шик. «Модули/cjkcodecs/_codecs_iso2022.c, строка 1122» . Дерево исходного кода cPython . Фонд программного обеспечения Python. Архивировано из оригинала 30 апреля 2022 г. Проверено 15 сентября 2019 г.
^ «кодеки — реестр кодеков и базовые классы § Стандартные кодировки» . Документация Python 3.7.4 . Фонд программного обеспечения Python. Архивировано из оригинала 28 июля 2019 г. Проверено 16 сентября 2019 г.
^ «2: Кодовые наборы и преобразование кодовых наборов» . Технический справочник DIGITAL UNIX по использованию японских функций . Корпорация цифрового оборудования , Compaq . ^{[ мертвая ссылка ]}
↑ Перейти обратно: Перейти обратно: ^а ^б Лунде (2008) , стр. 236–238, глава 4 («Методы кодирования»), раздел «Предшественник кодировки ISO-2022-JP — кодировка JIS».
^ RFC 1554 (1993)
^ RFC 2237 (1997)
^ «PQ02042: Новая функция для поддержки C/370 iconv() для японского ISO-2022-JP» . ИБМ . 19 января 2021 г. Архивировано из оригинала 4 января 2022 г. Проверено 4 января 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б «CCSID 9148» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
^ «CCSID 956» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 2 декабря 2014 г.
^ «CCSID 957» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 30 ноября 2014 г.
^ «CCSID 958» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 1 декабря 2014 г.
^ «CCSID 959» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 2 декабря 2014 г.
^ «CCSID 5052» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
^ «CCSID 5053» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
^ «CCSID 5054» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
^ «CCSID 5055» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
↑ Перейти обратно: Перейти обратно: ^а ^б RFC 1557 (1993)
^ «КС Х 1001:1992» (PDF) . Архивировано (PDF) из оригинала 26 сентября 2007 г. Проверено 12 июля 2007 г.
^ ИСО-ИР-149 (1988)
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д РФК 1922 (1996)
^ «CVE-2024-2961» .
^ «Уязвимость GLIBC на серверах, обслуживающих PHP» .
^ ECMA-43 (1991) , стр. 9–10, глава 8 («Уровни»).
^ ECMA-43 (1985) , стр. 7–11, глава 7.3 («Набор G0»)
^ ECMA-43 (1991) , стр. 6–8, глава 7.4 («Набор G0»)
^ ECMA-43 (1991) , с. 11, глава 10.3 («Идентификация версии»)
↑ Перейти обратно: Перейти обратно: ^а ^б ECMA-43 (1991) , с. 23, приложение E («Основные различия между вторым изданием (1985 г.) и настоящим (третьим) изданием настоящего стандарта ECMA»)
^ ИПТК (1995). Рекомендуемый формат сообщения IPTC (PDF) (5-е изд.). IPTC TEC 7901. Архивировано (PDF) из оригинала 25 января 2022 г. Проверено 14 января 2020 г.
^ ECMA-43 (1991) , стр. 10, глава 9.2 («Уникальное кодирование символов»)
^ ван Винген, Йохан В. (1999). «8. Расширение кода, ISO 2022 и 2375, ISO 4873 и 10367» . Наборы символов. Буквы, жетоны и коды . Терена. Архивировано из оригинала 01 августа 2020 г. Проверено 2 октября 2019 г.
^ ECMA-43 (1991) , стр. 10–11, глава 10 («Идентификация версии и уровня»).
^ ИБМ . «Архитектура представления символьных данных (CDRA)» . ИБМ . стр. 157–162. Архивировано из оригинала 23 июня 2019 г. Проверено 18 июня 2020 г.
^ Шайфлер (1989)
^ Шайфлер (1989) , § Управляющие персонажи
^ Шайфлер (1989) , § Направленность
^ Шайфлер (1989) , § Кодировки стандартного набора символов
^ Шайфлер (1989) , § Утвержденные стандартные кодировки
^ «DICOM PS3.2 2016d — соответствие; D.6.2 Наборы символов; D.6 Поддержка наборов символов» . Архивировано из оригинала 16 февраля 2020 г. Проверено 21 мая 2020 г.
^ «Вариант DICOM ISO 2022» . Архивировано из оригинала 30 апреля 2013 г. Проверено 25 июля 2009 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Сивонен, Анри (17 декабря 2018 г.). «(НЕОТПРАВЛЕННЫЙ ЧЕРНОВИК) Нет генерации U + FFFD для содержимого ASCII-состояния нулевой длины между Escape-последовательностями ISO-2022-JP» (PDF) . Архивировано (PDF) из оригинала 21 февраля 2019 г. Проверено 21 февраля 2019 г.
^ «935453 — Соберите телеметрию о HZ и других кодировках, которые мы можем попытаться удалить» . Архивировано из оригинала 19 мая 2017 г. Проверено 18 июня 2018 г.
^ Дэвис, Марк; Суиньяр, Мишель (19 сентября 2014 г.). «3.6.2 Некоторые выходные данные для всех входных данных» . Технический отчет Unicode № 36: Вопросы безопасности Unicode (версия 15) . Консорциум Юникод. Архивировано из оригинала 22 февраля 2019 г. Проверено 21 февраля 2019 г.

Другие опубликованные работы цитируются [ править ]

Лунде, Кен (2008). Обработка информации CJKV (2-е изд.). О'Рейли Медиа . ISBN 9780596514471 .

Дальнейшее чтение [ править ]

Лунде, Кен (1998). Обработка информации CJKV . Кембридж, Массачусетс: O'Reilly & Associates . ISBN 1-56592-224-7 .

Внешние ссылки [ править ]

ИСО/МЭК 2022:1994.
ИСО/МЭК 2022:1994/Кор 1:1999
ECMA-35 , эквивалент ISO/IEC 2022, доступен для бесплатной загрузки.
Международный реестр наборов кодированных символов, которые будут использоваться с Escape-последовательностями , полный список назначенных наборов символов и их escape-последовательностей.
История кодов символов в Северной Америке, Европе и Восточной Азии с 1999 г., ред. 2004 г.
Кена Лунде : CJK.INF документ по кодированию китайского, японского и корейского (CJK) языков, включая обсуждение различных вариантов ISO/IEC 2022.

[20] Японский : 区 , латинизированный : кутен ; китайский : местоположение ; пиньинь : qūwèi ; корейский : 행렬 ; RR : хэннёль ; 点

[21] Японский : 区 , латинизированный : ку , букв. 'зона'; Китайский : 区 ; пиньинь : цю ; Корейский 행: Ханджа : 行 ; RR : Хэнг

[22] Японский : 点 , латинизированный : десять , букв. 'точка'; Китайский : 位 ; пиньинь : вэй ; горит. 'позиция'; Корейский : 열 ; Ханджа : 列 ; РР : йёль

[23] Японский : 面 , латинизированный : мужчины , букв. 'лицо'

[legacygzdm4-101] Перейти обратно: Перейти обратно: ^а ^б Указано для F байтов 0x40 ( @), 0x41 ( A) и 0x42 ( B) только по историческим причинам. ^[89] В некоторых реализациях, таких как SoftBank 2G кодировка смайлов , используются дополнительные escape-символы этой формы для целей, не соответствующих ISO-2022. ^[96]

[102] Внесено в список MARC-8 . ^[3] См. сноску для ESC , F ниже для фона.

[104] F , скорректированный в диапазоне 1-63, указывает, какая (совместимая с предыдущими версиями) версия следующей регистрации необходима, чтобы старые системы знали, что они устарели. ^[97]

[106] В более ранних выпусках наборов из 96 символов не существовало, а escape-коды, которые теперь используются для наборов из 96 символов, были зарезервированы как место для дополнительных наборов из 94 символов. Соответственно, ESC 0x1B 0x2C последовательность была определена в ранних редакциях стандарта как обозначение дальнейших наборов из 94 символов для G0. ^[98] Поскольку наборы из 96 символов не могут быть обозначены как G0, этот первый байт I не используется текущей редакцией стандарта. Однако он по-прежнему указан в MARC-8 . ^[3]

[125] См. также, например, Printronix (2012 г.), Справочное руководство программиста OKI® (PDF) , стр. 26 для более новой системы, которая использует ESC ( H для переключения на ASCII из DBCS.

[1] ECMA-35 (1994) , Краткая история

[2] ECMA-35 (1994) , с. 51, приложение Д

[marc-escs-3] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и «Техника 2: Использование стандартных альтернативных наборов графических символов» . MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена . Библиотека Конгресса . 05.12.2007. Архивировано из оригинала 22 июля 2020 г. Проверено 19 июля 2020 г.

[4] «ECMA-35: Структура кода символов и методы расширения (веб-страница)» . Экма Интернешнл . Архивировано из оригинала 25 апреля 2022 г. Проверено 27 апреля 2022 г.

[8.1-5] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , стр. 15–16, глава 8.1.

[ch13-6] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , глава 13

[ch12_14-7] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , главы 12, 14

[ch11-8] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , глава 11

[8859-10-s1-9] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ISO/IEC FDIS 8859-10 (1998) , стр. 1, глава 1 («Объем применения»)

[ecma-144-s1-10] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ECMA-144 (2000) , с. 1, глава 1 («Объем применения»)

[lundeeuc-11] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж Лунде (2008) , стр. 242–245, глава 4 («Методы кодирования»), раздел «Кодирование EUC».

[lundeeucvs-12] Перейти обратно: Перейти обратно: ^а ^б ^с ^д Лунде (2008) , стр. 253–255, глава 4 («Методы кодирования»), раздел «Кодировки EUC и ISO-2022».

[iso-ir-196-13] Перейти обратно: Перейти обратно: ^а ^б ИСО-ИР-196 (1996 г.)

[xtctrlesc-14] Перейти обратно: Перейти обратно: ^а ^б ^с Мой, Эдвард; Гильдеа, Стивен; Дикки, Томас. «Управление, начинающееся с ESC» . Управляющие последовательности XTerm . Архивировано из оригинала 10 октября 2019 г. Проверено 4 октября 2019 г.

[15] ECMA-35 (1994) , главы 6, 7.

[16] ECMA-35 (1994) , глава 8

[17] ECMA-35 (1994) , глава 9

[ch15-18] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , глава 15

[lunde2022-19] Лунде (2008) , стр. 228–234, глава 4 («Методы кодирования»), раздел «Кодирование ISO-2022»

[lundekuten-24] Лунде (2008) , стр. 19–20, Глава 1 («Обзор обработки информации CJKV»), раздел «Что такое строка-ячейка и плоская-строка-ячейка?»

[25] ECMA-35 (1994) , с. 4, определение 4.11

[26] ECMA-35 (1994) , с. 5, определение 4.18

[27] См., например, ISO-IR-14 (1975) , определяющий обозначение G0 римского набора JIS X 0201 как ESC 2/8 4/10.

[28] ECMA-35 (1994) , с. 5, глава 5.1

[29] См., например, RFC 1468 (1993) , определяющий обозначение G0 римского набора JIS X 0201 как ESC ( J.

[30] ECMA-35 (1994) , с. 7, глава 6.2

[31] ECMA-35 (1994) , с. 10, глава 6.3.2

[32] ECMA-35 (1994) , с. 4, определение 4.17

[33] ECMA-35 (1994) , с. 4, определение 4.14

[13.1-34] ECMA-35 (1994) , с. 28, глава 13.1

[13.3.3-35] Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 33, глава 13.3.3

[36] ECMA-48 (1991) , стр. 24–26, глава 5.4.

[6.4.3-37] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 11, глава 6.4.3

[38] ИСО-ИР-208 (1999)

[39] ИСО-ИР-155 (1990)

[40] ИСО-ИР-164 (1992)

[6.3.3-41] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 10, глава 6.3.3

[42] Google Inc. (2014). "ansi.go, строка 134" . Библиотека escape-последовательностей ANSI для Go . Архивировано из оригинала 30 апреля 2022 г. Проверено 14 сентября 2019 г.

[43] ECMA-43 (1991) , с. 5, глава 7 («Спецификация символов 8-битного кода»)

[8859-10-s6-44] ISO/IEC FDIS 8859-10 (1998) , стр. 3, глава 6 («Спецификация кодированного набора символов»)

[ecma-144-s6-45] ECMA-144 (2000) , с. 3, глава 6 («Спецификация кодированного набора символов»)

[46] ECMA-43 (1991) , с. 19, приложение С («Композитные графические символы»)

[6.4.1-47] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 10, глава 6.4.1

[6.4.4-48] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 11, глава 6.4.4

[6.4.2-49] Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 11, глава 6.4.2

[50] ИСО-ИР-104 (1985)

[51] ИСО-ИР-1 (1975)

[8.5.1-52] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 19, глава 8.5.1

[8.5.2-53] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 19, глава 8.5.2

[ecma-43-7.6-54] ECMA-43 (1991) , с. 8, глава 7.6 («Набор C1»)

[13.12.1-55] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 29, глава 13.2.1

[6.5.1-56] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 12, глава 6.5.1

[6.5.2-57] ECMA-35 (1994) , с. 12, глава 6.5.2

[irfixctrl-58] Перейти обратно: Перейти обратно: ^а ^б ^с ИСО-ИР , с. 19, глава 2.7 («Отдельные функции управления»)

[6.5.4-59] ECMA-35 (1994) , с. 12, глава 6.5.4

[60] ECMA-48 (1991) , глава 5.5.

[ris-61] ISO/TC 97/SC 2 (30 декабря 1976 г.). Возврат к исходному состоянию (RIS) (PDF) . ITSCJ/ IPSJ . ИСО-ИК -35. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )

[6.5.3-62] ECMA-35 (1994) , с. 12, глава 6.5.3

[table2-63] Перейти обратно: Перейти обратно: ^а ^б ECMA-35 (1994) , с. 14, глава 7.3, таблица 2

[64] ИСО-ИР-14 (1975)

[T.51-amd1995-65] Перейти обратно: Перейти обратно: ^а ^б МСЭ-Т (11 августа 1995 г.). Рекомендация T.51 (1992 г.) Поправка 1 . Архивировано из оригинала 2 августа 2020 г. Проверено 25 декабря 2019 г.

[reg106-66] ИСО-ИР-106 (1985)

[67] ECMA-35 (1994) , с. 15, глава 7.3, примечание 23

[reg140-68] ИСО-ИР-140 (1987)

[reg7-69] ИСО-ИР-7 (1975)

[reg26-70] ИСО-ИР-26 (1976)

[reg36-71] ИСО-ИР-36 (1977)

[72] ECMA-35 (1980) , с. 8, глава 5.1.7

[harvp|ISO-IR-105|1985-73] Перейти обратно: Перейти обратно: ^а ^б ИСО-ИР-105 (1985 г.)

[8.3.1-74] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 17, глава 8.3.1

[9.3.1-75] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 23, глава 9.3.1

[8.4-76] Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 19, глава 8.4

[8.3.2-77] Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 17, глава 8.3.2

[9.4-78] ECMA-35 (1994) , стр. 23–24, глава 9.4.

[11.1-79] ECMA-35 (1994) , с. 27, глава 11.1

[8.3.3-80] ECMA-35 (1994) , с. 17, глава 8.3.3

[81] ECMA-35 (1994) , с. 47, приложение Б

[irintro-82] ИСО-ИК , с. 2, глава 1 («Введение»)

[83] ИСО/МЭК 2375 (2003)

[sp-84] Перейти обратно: Перейти обратно: ^а ^б «Обработка декларации SGML в SP» . SP: система SGML, соответствующая международному стандарту ISO 8879 .

[85] «20: Декларация SGML HTML 4» . Спецификация HTML 4.01 . W3C .

[irsecond94-86] ИСО-ИК , с. 10, глава 2.2 («Набор графических символов из 94 символов со вторым промежуточным байтом»)

[87] ARIB STD-B24 (2008) , с. 39, часть 2, Таблица 7-3

[88] Масчек, Свен; Ле Бретон, Стефан; Гамильтон, Ричард Л. «Об« альтернативном наборе символов рисования линий » » . ~sven_mascheck/ . Архивировано из оригинала 29 декабря 2019 г. Проверено 8 января 2020 г.

[14.4-89] ECMA-35 (1994) , с. 36, глава 14.4

[note48-90] ECMA-35 (1994) , с. 36, глава 14.4.2, примечание 48

[note47-91] ECMA-35 (1994) , с. 36, глава 14.4.2, примечание 47

[92] ETS 300 706 (1997) , с. 103, глава 14 («Динамически переопределяемые символы»)

[14.3.2-93] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д ECMA-35 (1994) , стр. 35–36, глава 14.3.2.

[iso10646czdc1d-94] ISO/IEC 10646 (2017) , стр. 19–20, глава 12.4 («Идентификация набора функций управления»)

[table5-95] ECMA-35 (1994) , с. 32, таблица 5

[15.2-96] Перейти обратно: Перейти обратно: ^а ^б ^с ECMA-35 (1994) , стр. 37–41, глава 15.2.

[14.2.2-97] ECMA-35 (1994) , с. 34, глава 14.2.2

[14.2.3-98] ECMA-35 (1994) , с. 34, глава 14.2.3

[99] Цифровой . «DECDWL — линия двойной ширины и одинарной высоты» . Информация о программаторе видеотерминала VT510 . Архивировано из оригинала 2 августа 2020 г. Проверено 17 января 2020 г.

[100] Кавасаки, Юсуке (2010). «Кодировать::JP::Emoji::Кодировка» . Кодировать-JP-Emoji . Строка 268. Архивировано из оригинала 30 апреля 2022 г. Проверено 28 мая 2020 г.

[14.5-103] ECMA-35 (1994) , стр. 36–37, глава 14.5.

[105] ECMA-35 (1980) , стр. 14–15, глава 5.3.7.

[irdocs-107] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ИСО-ИР , с. 20, глава 2.8.1 («Системы кодирования со стандартным возвратом»)

[15.4-108] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , стр. 41–42, глава 15.4.

[irdocsslash-109] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ИСО-ИР , с. 21, глава 2.8.2 («Системы кодирования без стандартного возврата»)

[15.3-110] ECMA-35 (1994) , с. 41, глава 15.3

[iso10646docs-111] Перейти обратно: Перейти обратно: ^а ^б ^с ISO/IEC 10646 (2017) , стр. 19, глава 12.2 («Идентификация схемы кодирования UCS»)

[112] ISO/IEC 10646 (2017) , стр. 18–19, глава 12.1 («Цель и контекст идентификации»).

[iso-ir-192-113] ИСО-ИР-192 (1996)

[114] ИСО-ИР-195 (1996)

[iso10646stdret-115] ISO/IEC 10646 (2017) , с. 20, глава 12.5 («Идентификация системы кодирования ISO/IEC 2022»)

[scheiflerdocs-116] Перейти обратно: Перейти обратно: ^а ^б Шайфлер (1989) , § Кодировки нестандартных наборов символов

[lunde2022rfcs-117] Лунде (2008) , стр. 229–230, глава 4 («Методы кодирования»), раздел «Кодировка ISO-2022» «Те кодировки, которые широко использовались в прошлом или продолжают использоваться сегодня для некоторых целей, были выделены».

[ibmacri-118] Перейти обратно: Перейти обратно: ^а ^б «Дополнительная необходимая информация, связанная с кодированием» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 7 января 2015 г.

[whatwg-security-119] Перейти обратно: Перейти обратно: ^а ^б ^с Стандарт кодирования WHATWG , раздел 2 («Безопасность»).

[whatwg-replacement-labels-120] Перейти обратно: Перейти обратно: ^а ^б ^с Стандарт кодирования WHATWG , глава 4.2 («Имена и метки»), привязка «замена»

[whatwg-replacement-121] Перейти обратно: Перейти обратно: ^а ^б ^с ^д Стандарт кодирования WHATWG , раздел 14.1 («замена»)

[rfc1468-122] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж RFC 1468 (1993)

[wdc-123] Перейти обратно: Перейти обратно: ^а ^б ^с «Идентификаторы кодовых страниц» . Центр разработки Windows . Майкрософт. Архивировано из оригинала 16 июня 2019 г. Проверено 16 сентября 2019 г.

[whatwgiso2022jp-124] Перейти обратно: Перейти обратно: ^а ^б Стандарт кодирования WHATWG , раздел 12.2 («ISO-2022-JP»)

[126] Чанг, Хе-Шик. «Модули/cjkcodecs/_codecs_iso2022.c, строка 1122» . Дерево исходного кода cPython . Фонд программного обеспечения Python. Архивировано из оригинала 30 апреля 2022 г. Проверено 15 сентября 2019 г.

[127] «кодеки — реестр кодеков и базовые классы § Стандартные кодировки» . Документация Python 3.7.4 . Фонд программного обеспечения Python. Архивировано из оригинала 28 июля 2019 г. Проверено 16 сентября 2019 г.

[decunix-128] «2: Кодовые наборы и преобразование кодовых наборов» . Технический справочник DIGITAL UNIX по использованию японских функций . Корпорация цифрового оборудования , Compaq . ^{[ мертвая ссылка ]}

[lundejisenc-129] Перейти обратно: Перейти обратно: ^а ^б Лунде (2008) , стр. 236–238, глава 4 («Методы кодирования»), раздел «Предшественник кодировки ISO-2022-JP — кодировка JIS».

[130] RFC 1554 (1993)

[131] RFC 2237 (1997)

[132] «PQ02042: Новая функция для поддержки C/370 iconv() для японского ISO-2022-JP» . ИБМ . 19 января 2021 г. Архивировано из оригинала 4 января 2022 г. Проверено 4 января 2022 г.

[ibm-9148-133] Перейти обратно: Перейти обратно: ^а ^б «CCSID 9148» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[134] «CCSID 956» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 2 декабря 2014 г.

[135] «CCSID 957» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 30 ноября 2014 г.

[136] «CCSID 958» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 1 декабря 2014 г.

[137] «CCSID 959» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 2 декабря 2014 г.

[138] «CCSID 5052» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[139] «CCSID 5053» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[140] «CCSID 5054» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[141] «CCSID 5055» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[rfc1557-142] Перейти обратно: Перейти обратно: ^а ^б RFC 1557 (1993)

[ksx-143] «КС Х 1001:1992» (PDF) . Архивировано (PDF) из оригинала 26 сентября 2007 г. Проверено 12 июля 2007 г.

[ksc-144] ИСО-ИР-149 (1988)

[rfc1922-145] Перейти обратно: Перейти обратно: ^а ^б ^с ^д РФК 1922 (1996)

[gconv-vulnerability-146] «CVE-2024-2961» .

[gconv-workaround-147] «Уязвимость GLIBC на серверах, обслуживающих PHP» .

[ecma-43-8-148] ECMA-43 (1991) , стр. 9–10, глава 8 («Уровни»).

[149] ECMA-43 (1985) , стр. 7–11, глава 7.3 («Набор G0»)

[ecma-43-7.4-150] ECMA-43 (1991) , стр. 6–8, глава 7.4 («Набор G0»)

[ecma-43-10.3-151] ECMA-43 (1991) , с. 11, глава 10.3 («Идентификация версии»)

[ecma-43-annexE-152] Перейти обратно: Перейти обратно: ^а ^б ECMA-43 (1991) , с. 23, приложение E («Основные различия между вторым изданием (1985 г.) и настоящим (третьим) изданием настоящего стандарта ECMA»)

[iptc7901-153] ИПТК (1995). Рекомендуемый формат сообщения IPTC (PDF) (5-е изд.). IPTC TEC 7901. Архивировано (PDF) из оригинала 25 января 2022 г. Проверено 14 января 2020 г.

[ecma-43-9.2-154] ECMA-43 (1991) , стр. 10, глава 9.2 («Уникальное кодирование символов»)

[vanWingen-155] ван Винген, Йохан В. (1999). «8. Расширение кода, ISO 2022 и 2375, ISO 4873 и 10367» . Наборы символов. Буквы, жетоны и коды . Терена. Архивировано из оригинала 01 августа 2020 г. Проверено 2 октября 2019 г.

[ecma-43-10-156] ECMA-43 (1991) , стр. 10–11, глава 10 («Идентификация версии и уровня»).

[cdra-157] ИБМ . «Архитектура представления символьных данных (CDRA)» . ИБМ . стр. 157–162. Архивировано из оригинала 23 июня 2019 г. Проверено 18 июня 2020 г.

[158] Шайфлер (1989)

[159] Шайфлер (1989) , § Управляющие персонажи

[160] Шайфлер (1989) , § Направленность

[161] Шайфлер (1989) , § Кодировки стандартного набора символов

[162] Шайфлер (1989) , § Утвержденные стандартные кодировки

[163] «DICOM PS3.2 2016d — соответствие; D.6.2 Наборы символов; D.6 Поддержка наборов символов» . Архивировано из оригинала 16 февраля 2020 г. Проверено 21 мая 2020 г.

[DICOM-164] «Вариант DICOM ISO 2022» . Архивировано из оригинала 30 апреля 2013 г. Проверено 25 июля 2009 г.

[sivonen2018-165] Перейти обратно: Перейти обратно: ^а ^б Сивонен, Анри (17 декабря 2018 г.). «(НЕОТПРАВЛЕННЫЙ ЧЕРНОВИК) Нет генерации U + FFFD для содержимого ASCII-состояния нулевой длины между Escape-последовательностями ISO-2022-JP» (PDF) . Архивировано (PDF) из оригинала 21 февраля 2019 г. Проверено 21 февраля 2019 г.

[166] «935453 — Соберите телеметрию о HZ и других кодировках, которые мы можем попытаться удалить» . Архивировано из оригинала 19 мая 2017 г. Проверено 18 июня 2018 г.

[167] Дэвис, Марк; Суиньяр, Мишель (19 сентября 2014 г.). «3.6.2 Некоторые выходные данные для всех входных данных» . Технический отчет Unicode № 36: Вопросы безопасности Unicode (версия 15) . Консорциум Юникод. Архивировано из оригинала 22 февраля 2019 г. Проверено 21 февраля 2019 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[а]

[б]

[с]

[д]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[и]

v т и Кодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун/Кана китайский Кириллица корейский Бодо и Мюррей Полевые данные ASCII ИСО/МЭК 646 BCDIC-код Телетекс и Видеотекс / Телетекст Т.51/ИСО/МЭК 6937 ИТ Т.61 ИТ Т.101 Мировая система телетекста фон наборы Перекодировать
ИСО/МЭК 8859	Утвержденные детали -1 (Западная Европа) -2 (Центральная Европа) -3 (мальтийский/эсперанто) -4 (Северная Европа) -5 (кириллица) -6 (арабский) -7 (греческий) -8 (иврит) -9 (турецкий) -10 (Скандинавия) -11 (тайский) -13 (Балтика) -14 (Селтик) -15 (Новая Западная Европа) -16 (румынский) Заброшенные части -12 (Деванагари) Предложено, но не одобрено КОИ-8 кириллица Саамы Адаптации валлийский Баренцева кириллица эстонский Украинская кириллица
Библиографическое использование	МАРК-8 АНСЕЛЬ CCII/EACC ИСО 5426 5426-2 5427 5428 6438 6862
Национальные стандарты	АрмSCII Большой5 БраSCII ЦНС 11643 DIN 66003 ЭЛОТ 927 ГОСТЬ 10859 ГБ 2312 ГБ 12345 ГБ 12052 ГБ 18030 HKSCS ИЩИС ДЖИС Х 0201 ДЖИС Х 0208 ДЖИС Х 0212 ДЖИС Х 0213 ТРЕБОВАНИЕ-7 КПС 9566 КС Х 1001 КС Х 1002 ЛСТ 1564 ЛСТ 1590-4 ПАСХА Сдвиг HE СИ 960 ТИС-620 ТСКИИ ВИСКИ VSCII ДЖОЗЕФ
ИСО/МЭК 2022	ИСО/МЭК 8859 ИСО/МЭК 10367 Расширенный код Unix/EUC
Mac OS Кодовые страницы («сценарии»)	Армянский арабский Баренцева кириллица Селтик Центральноевропейский хорватский Кириллица Деванагари Фарси (персидский) Шрифт X (Кермит) гэльский грузинский Греческий Гуджарати Гурмухи иврит Исландия Инуиты Клавиатура Латынь (Кермит) Мальтийский/Эсперанто Огам Роман румынский Саамы турецкий Тюркская кириллица Украинский ВТ100
Кодовые страницы DOS	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1034 1040 1042 1043 1044 1098 1115 1116 1117 1118 1127 3846 АБИКОМП CS Индик CSX Индик CSX+ Индикация КРИ-2 Иранская система Каменицкий Мазовия ЧТО
Кодовые страницы IBM AIX	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1124 1133
Кодовые страницы Windows	ССЭР-ГС 932 936 ( ГБК ) 950 1169 Расширенная латиница-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий
EBCDIC Кодовые страницы	Японский язык в EBCDIC ДКОИ
DEC Терминалы ( VTx )	Многонациональный (MCS) Национальная замена (NRCS) Французский канадец швейцарский испанский Великобритания Голландский финский Французский норвежский и датский Шведский Норвежский и датский (альтернативный вариант) 8-битный греческий 8-битный турецкий СИ 960 иврит Специальная графика Технический (ТКС)
Зависит от платформы	1052 1053 1054 1055 1056 1057 1058 ОС Acorn RISC Амстрад КТК Яблоко II ПРИЛОЖЕНИЯ Атари СТ БИКС Калькуляторы Касио CDC Компюколор 8001 Компюколор II КП/М+ ОСНОВАНИЕ ДЕКАБРЯ 50 ДЭК МКС / НРКС Генеральный директор по международным делам Галактика драгоценный камень GSM 03.38 HP Роман HP ФОКАЛ ХП РПЛ Сжать ЛИКС ЛМБКС MSX НЭК БТР Следующий ПЕТСКИИ Стандарт PostScript Постскриптум латиница 1 СЭМ Купе Сега СК-3000 Калькуляторы Sharp Шарп МЗ Синклер, QL Телетекст Калькуляторы TI ТРС-80 Вентура Интернэшнл ВИСЦИИ XCCS ZX80 ZX81 ZX Спектр
Юникод / ИСО/МЭК 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC ГБ 18030 ОТ 91379 БУТЫЛКА-1 ЦЭСУ-8 ЮКГУ ТАСЕ16 Сравнение кодировок Unicode
TeX Система набора текста	Корк LY1 ОМЛ ОМС OT1
Разные кодовые страницы	АБИКОМП ЦЕЛЬ 449 Цифровое кодирование символов APL ИСО-ИР-68 АРИБ СТД-B24 Полевые данные ХЗ МЭК-П27-1 РАЗДРАЖЕННЫЙ 7-битный 8-битный ИСО-ИР-169 ИСО 2033 НЕОБХОДИМЫЙ КОИ8-Р КОИ8-RU КОИ8-У Модзикё СЕЗОНЫ Стэнфорд/ИТС Символ ТРОН Единый кодекс хангыль
Управляющий персонаж	Азбука Морзе Коды управления C0 и C1 ИСО/МЭК 6429 ДЖИС Х 0211 Управляющие символы Юникода, формат и символы-разделители Пробельные символы
Связанные темы	CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Кодовая страница оборудования MICR-код Моджибаке Кодирование переменной длины
Наборы символов

v т и Стандарты Ecma International
Application interfaces	ANSI escape code APIW Common Language Infrastructure Office Open XML OpenXPS
File systems (tape)	Advanced Intelligent Tape DDS DLT Super DLT Linear Tape-Open (Ultrium-1) VXA
File systems (disk)	CD-ROM CD File System (CDFS) FAT FAT12 FAT16 FAT16B FD UDF Ultra Density Optical Universal Media Disc Holographic Versatile Disc
Graphics	Universal 3D
Programming languages	C++/CLI C# Eiffel JavaScript (E4X, ECMAScript) Dart Minimal BASIC Full BASIC
Radio link interfaces	NFC UWB
Other	ECMA-35 JSON
List of Ecma standards (1961 – present)

v т и ISO Стандарты по номеру стандарта
List of ISO standards – ISO romanizations – IEC standards
1–9999	1 2 3 4 6 7 9 16 17 31 -0 -1 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 68-1 128 216 217 226 228 233 259 261 262 302 306 361 500 518 519 639 -1 -2 -3 -5 -6 646 657 668 690 704 732 764 838 843 860 898 965 999 1000 1004 1007 1073-1 1073-2 1155 1413 1538 1629 1745 1989 2014 2015 2022 2033 2047 2108 2145 2146 2240 2281 2533 2709 2711 2720 2788 2848 2852 2921 3029 3103 3166 -1 -2 -3 3297 3307 3601 3602 3864 3901 3950 3977 4031 4157 4165 4217 4909 5218 5426 5427 5428 5725 5775 5776 5800 5807 5964 6166 6344 6346 6373 6385 6425 6429 6438 6523 6709 6943 7001 7002 7010 7027 7064 7098 7185 7200 7498 -1 7637 7736 7810 7811 7812 7813 7816 7942 8000 8093 8178 8217 8373 8501-1 8571 8583 8601 8613 8632 8651 8652 8691 8805/8806 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -8-I -9 -10 -11 -12 -13 -14 -15 -16 8879 9000/9001 9036 9075 9126 9141 9227 9241 9293 9314 9362 9407 9496 9506 9529 9564 9592/9593 9594 9660 9797-1 9897 9899 9945 9984 9985 9995
10000–19999	10006 10007 10116 10118-3 10160 10161 10165 10179 10206 10218 10279 10303 -11 -21 -22 -28 -238 10383 10585 10589 10628 10646 10664 10746 10861 10957 10962 10967 11073 11170 11172 11179 11404 11544 11783 11784 11785 11801 11889 11898 11940 (-2) 11941 11941 (TR) 11992 12006 12052 12182 12207 12234-2 12620 13211 -1 -2 13216 13250 13399 13406-2 13450 13485 13490 13567 13568 13584 13616 13816 13818 14000 14031 14224 14289 14396 14443 14496 -2 -3 -6 -10 -11 -12 -14 -17 -20 14617 14644 14649 14651 14698 14764 14882 14971 15022 15189 15288 15291 15292 15398 15408 15444 -3 -9 15445 15438 15504 15511 15686 15693 15706 -2 15707 15897 15919 15924 15926 15926 WIP 15930 15938 16023 16262 16355-1 16485 16612-2 16750 16949 (TS) 17024 17025 17100 17203 17369 17442 17506 17799 18004 18014 18181 18245 18629 18916 19005 19011 19092 -1 -2 19114 19115 19125 19136 19407 19439 19500 19501 19502 19503 19505 19506 19507 19508 19509 19510 19600 19752 19757 19770 19775-1 19794-5 19831
20000–29999	20000 20022 20121 20400 20802 20830 21000 21001 21047 21122 21500 21827 22000 22275 22300 22301 22395 22537 23000 23003 23008 23009 23090-3 23092 23094-1 23094-2 23270 23271 23360 23941 24517 24613 24617 24707 24728 25178 25964 26000 26262 26300 26324 27000 series 27000 27001 27002 27005 27006 27729 28000 29110 29148 29199-2 29500
30000+	30170 31000 32000 37001 38500 39075 40500 42010 45001 50001 55000 56000 80000
Category

v т и стандарты МЭК
IEC	60027 60034 60038 60062 60063 60068 60112 60228 60269 60297 60309 60320 60364 60446 60559 60601 60870 60870-5 60870-6 60906-1 60908 60929 60958 61030 61131 61131-3 61131-9 61158 61162 61334 61355 61360 61400 61499 61508 61511 61784 61850 61851 61883 61960 61968 61970 62014-4 62026 62056 62061 62196 62262 62264 62304 62325 62351 62365 62366 62379 62386 62455 62680 62682 62700 63110 63119 63382
ISO/IEC	646 1989 2022 4909 5218 6429 6523 7810 7811 7812 7813 7816 7942 8613 8632 8652 8859 9126 9293 9496 9529 9592 9593 9899 9945 9995 10021 10116 10165 10179 10279 10646 10967 11172 11179 11404 11544 11801 12207 13250 13346 13522-5 13568 13816 13818 14443 14496 14651 14882 15288 15291 15408 15444 15445 15504 15511 15693 15897 15938 16262 16485 17024 17025 18004 18014 18181 19752 19757 19770 19788 20000 20802 21000 21827 22275 22537 23000 23003 23008 23270 23360 24707 24727 24744 24752 26300 27000 27000-series 27002 27040 29110 29119 33001 38500 39075 42010 80000 81346
Related	International Electrotechnical Commission