ИСО/МЭК 2022

ИСО 2022
Язык(и)	Различный.
Стандартный	ИСО/МЭК 2022 ; ЭКМА -35 ; АНСИ Х3.41 ; ДЖИС Х 0202 ; ГБ/Т 2311 ;
Классификация	с сохранением состояния Система кодировок (с предварительно настроенными подмножествами без сохранения состояния)
Преобразует/кодирует	US-ASCII и, в зависимости от реализации: ГБ 2312 ; ДЖИС Х 0201 ; ДЖИС Х 0208 ; ДЖИС Х 0212 ; ДЖИС Х 0213 ; КС Х 1001 ; ЦНС 11643 ; ИСО/МЭК 646 ; ИСО/ 8859/10367 МЭК ; различные другие ;
Преемник	ISO/IEC 10646 ( Юникод )
Другая связанная кодировка(и)	Stateful subsets: ISO-2022-JP; ISO-2022-CN; ISO-2022-KR; Compound Text; Pre-configured versions: ISO/IEC 4873; EUC;
	v; t; e;

ISO/IEC 2022 Информационные технологии. Структура кода символов и методы расширения — это стандарт ISO / IEC в области кодирования символов . Он эквивалентен ECMA стандарту ECMA-35 . ^[1]^[2] ANSI стандарт ANSI X3.41 ^[3] и японский промышленный стандарт JIS X 0202 . Созданный в 1971 году, последний раз он был пересмотрен в 1994 году. ^[4]

ISO 2022 определяет общую структуру, которой могут соответствовать кодировки символов, выделяя определенные диапазоны байтов ( 0x 00–1F и 0x7F–9F), которые будут использоваться для непечатаемых управляющих кодов. ^[5] для форматирования и внутриполосных инструкций (таких как разрывы строк или инструкции форматирования для текстовых терминалов ), а не для графических символов . Он также определяет синтаксис escape-последовательностей, многобайтовых последовательностей, начинающихся с Код управления ESC , который также можно использовать для внутриполосных инструкций. ^[6] Конкретные наборы управляющих кодов и escape-последовательностей, разработанные для использования с ISO 2022, включают ISO/IEC 6429 , части которого реализованы с помощью ANSI.SYS и эмуляторов терминала .

ISO 2022 itself also defines particular control codes and escape sequences which can be used for switching between different coded character sets (for example, between ASCII and the Japanese JIS X 0208) so as to use multiple in a single document,^[7] effectively combining them into a single stateful encoding (a feature less important since the advent of Unicode). It is designed to be usable in both 8-bit environments and 7-bit environments (those where only seven bits are usable in a byte, such as e-mail without 8BITMIME).^[8]

Encodings and conformance

The ASCII character set supports the ISO Basic Latin alphabet (equivalent to the English alphabet), and does not provide good support for languages which use additional letters, or which use a different writing system altogether. Other writing systems with relatively few characters, such as Greek, Cyrillic, Arabic or Hebrew, as well as forms of the Latin script using diacritics or letters absent from the ISO Basic Latin alphabet, have historically been represented on personal computers with different 8-bit, single byte, extended ASCII encodings, which follow ASCII when the most significant bit is 0 (i.e. bytes 0x00–7F, when represented in hexadecimal), and include additional characters for a most significant bit of 1 (i.e. bytes 0x80–FF). Some of these, such as the ISO 8859 series, conform to ISO 2022,^[9]^[10] while others such as DOS code page 437 do not, usually due to not reserving the bytes 0x80–9F for control codes.

Certain East Asian languages, specifically Chinese, Japanese, and Korean (collectively "CJK"), are written using far more characters than the maximum of 256 which can be represented in a single byte, and were first represented on computers with language-specific double-byte encodings or variable-width encodings; some of these (such as the Simplified Chinese encoding GB 2312) conform to ISO 2022, while others (such as the Traditional Chinese encoding Big5) do not. Control codes in ISO 2022 are always represented with a single byte, regardless of the number of bytes used for graphical characters. CJK encodings used in 7-bit environments which use ISO 2022 mechanisms to switch between character sets are often given names starting with "ISO-2022-", most notably ISO-2022-JP, although some other CJK encodings such as EUC-JP also make use of ISO 2022 mechanisms.^[11]^[12]

Since the first 256 code points of Unicode were taken from ISO 8859-1, Unicode inherits the concept of C0 and C1 control codes from ISO 2022, although it adds other non-printing characters besides the ISO 2022 control codes. However, Unicode transformation formats such as UTF-8 generally deviate from the ISO 2022 structure in various ways, including:

Using 8-bit bytes, but not representing the C1 codes in their single-byte forms specified in ISO 2022 (most UTFs, one exception being the obsolete UTF-1)
Representing all characters, including control codes, with multiple bytes (e.g. UTF-16, UTF-32)
Mixing bytes with the most significant bit set and unset within the coded representation for a single code point (e.g. UTF-1, GB 18030)

ISO 2022 escape sequences do, however, exist for switching to and from UTF-8 as a "coding system different from that of ISO 2022",^[13] which are supported by certain terminal emulators such as xterm.^[14]

Overview

Elements

ISO/IEC 2022 specifies the following:

An infrastructure of multiple character sets with particular structures which may be included in a single character encoding system, including multiple graphical character sets and multiple sets of both primary (C0) and secondary (C1) control codes,^[15]
A format for encoding these sets, assuming that 8 bits are available per byte,^[16]
A format for encoding these sets in the same encoding system when only 7 bits are available per byte,^[17] and a method for transforming any conformant character data to pass through such a 7-bit environment,^[8]
The general structure of ANSI escape codes,^[6] and
Specific escape code formats for identifying individual character sets,^[7] for announcing the use of particular encoding features or subsets,^[18] and for interacting with or switching to other encoding systems.^[18]

Code versions

A specific implementation does not have to implement all of the standard; the conformance level and the supported character sets are defined by the implementation. Although many of the mechanisms defined by the ISO/IEC 2022 standard are infrequently used, several established encodings are based on a subset of the ISO/IEC 2022 system.^[19] In particular, 7-bit encoding systems using ISO/IEC 2022 mechanisms include ISO-2022-JP (or JIS encoding), which has primarily been used in Japanese-language e-mail. 8-bit encoding systems conforming to ISO/IEC 2022 include ISO/IEC 4873 (ECMA-43), which is in turn conformed to by ISO/IEC 8859,^[9]^[10] and Extended Unix Code, which is used for East Asian languages.^[11] More specialised applications of ISO 2022 include the MARC-8 encoding system used in MARC 21 library records.^[3]

Designation escape sequences

The escape sequences for switching to particular character sets or encodings are registered with the ISO-IR registry (except for those set apart for private use, the meanings of which are defined by vendors, or by protocol specifications such as ARIB STD-B24) and follow the patterns defined within the standard. Character encodings making use of these escape sequences require data to be processed sequentially in a forward direction, since the correct interpretation of the data depends on previously encountered escape sequences.

Specific profiles such as ISO-2022-JP may impose extra conditions, such as that the current character set is reset to US-ASCII before the end of a line. Furthermore, the escape sequences declaring the national character sets may be absent if a specific ISO-2022-based encoding permits or requires this, and dictates that particular national character sets are to be used. For example, ISO-8859-1 states that no defining escape sequence is needed.

Multi-byte characters

To represent large character sets, ISO/IEC 2022 builds on ISO/IEC 646's property that a seven-bit character representation will normally be able to represent 94 graphic (printable) characters (in addition to space and 33 control characters); if only the C0 control codes (narrowly defined) are excluded, this can be expanded to 96 characters. Using two bytes, it is thus possible to represent up to 8,836 (94×94) characters; and, using three bytes, up to 830,584 (94×94×94) characters. Though the standard defines it, no registered character set uses three bytes (although EUC-TW's unregistered G2 does, as does the similarly unregistered CCCII).

For the two-byte character sets, the code point of each character is normally specified in so-called row-cell or kuten^[a] form, which comprises two numbers between 1 and 94 inclusive, specifying a row^[b] and cell^[c] of that character within the zone. For a three-byte set, an additional plane^[d] number is included at the beginning.^[20] The escape sequences do not only declare which character set is being used, but also whether the set is single-byte or multi-byte (although not how many bytes it uses if it is multi-byte), and also whether each byte has 94 or 96 permitted values.

Code structure

Notation and nomenclature

ISO/IEC 2022 coding specifies a two-layer mapping between character codes and displayed characters. Escape sequences allow any of a large registry of graphic character sets to be "designated"^[21] into one of four working sets, named G0 through G3, and shorter control sequences specify the working set that is "invoked"^[22] to interpret bytes in the stream.

Encoding byte values ("bit combinations") are often given in column-line notation, where two decimal numbers in the range 00–15 (each corresponding to a single hexadecimal digit) are separated by a slash.^[23] Hence, for instance, codes 2/0 (0x20) through 2/15 (0x2F) inclusive may be referred to as "column 02". This is the notation used in the ISO/IEC 2022 / ECMA-35 standard itself.^[24] They may be described elsewhere using hexadecimal, as is often used in this article, or using the corresponding ASCII characters,^[25] although the escape sequences are actually defined in terms of byte values, and the graphic assigned to that byte value may be altered without affecting the control sequence.

Byte values from the 7-bit ASCII graphic range (hexadecimal 0x20–0x7F), being on the left side of a character code table, are referred to as "GL" codes (with "GL" standing for "graphics left") while bytes from the "high ASCII" range (0xA0–0xFF), if available (i.e. in an 8-bit environment), are referred to as the "GR" codes ("graphics right").^[5] The terms "CL" (0x00–0x1F) and "CR" (0x80–0x9F) are defined for the control ranges, but the CL range always invokes the primary (C0) controls, whereas the CR range always either invokes the secondary (C1) controls or is unused.^[5]

Fixed coded characters

The delete character DEL (0x7F), the escape character ESC (0x1B) and the space character SP (0x20) are designated "fixed" coded characters^[26] and are always available when G0 is invoked over GL, irrespective of what character sets are designated. They may not be included in graphical character sets, although other sizes or types of whitespace character may be.^[27]

General syntax of escape sequences

Sequences using the ESC (escape) character take the form ESC [I...] F, where the ESC character is followed by zero or more intermediate bytes^[28] (I) from the range 0x20–0x2F, and one final byte^[29] (F) from the range 0x30–0x7E.^[30]

The first I byte, or absence thereof, determines the type of escape sequence; it might, for instance, designate a working set, or denote a single control function. In all types of escape sequences, F bytes in the range 0x30–0x3F are reserved for unregistered private uses defined by prior agreement between parties.^[31]

Control functions from some sets may make use of further bytes following the escape sequence proper. For example, the ISO 6429 control function "Control Sequence Introducer", which can be represented using an escape sequence, is followed by zero or more bytes in the range 0x30–0x3F, then zero or more bytes in the range 0x20–0x2F, then by a single byte in the range 0x40–0x7E, the entire sequence being called a "control sequence".^[32]

Graphical character sets

Each of the four working sets G0 through G3 may be a 94-character set or a 94ⁿ-character multi-byte set. Additionally, G1 through G3 may be a 96- or 96ⁿ-character set.

In a 96- or 96ⁿ-character set, the bytes 0x20 through 0x7F when GL-invoked, or 0xA0 through 0xFF when GR-invoked, are allocated to and may be used by the set. In a 94- or 94ⁿ-character set, the bytes 0x20 and 0x7F are not used.^[33] When a 96- or 96ⁿ-character set is invoked in the GL region, the space and delete characters (codes 0x20 and 0x7F) are not available until a 94- or 94ⁿ-character set (such as the G0 set) is invoked in GL.^[5] 96-character sets cannot be designated to G0.

Registration of a set as a 96-character set does not necessarily mean that the 0x20/A0 and 0x7F/FF bytes are actually assigned by the set; some examples of graphical character sets which are registered as 96-sets but do not use those bytes include the G1 set of I.S. 434,^[34] the box drawing set from ISO/IEC 10367,^[35] and ISO-IR-164 (a subset of the G1 set of ISO-8859-8 with only the letters, used by CCITT).^[36]

Combining characters

Characters are expected to be spacing characters, not combining characters, unless specified otherwise by the graphical set in question.^[37] ISO 2022 / ECMA-35 also recognizes the use of the backspace and carriage return control characters as means of combining otherwise spacing characters, as well as the CSI sequence "Graphic Character Combination" (GCC)^[37] (CSI 0x20 (SP) 0x5F (_)).^[38]

Use of the backspace and carriage return in this manner is permitted by ISO/IEC 646 but prohibited by ISO/IEC 4873 / ECMA-43^[39] and by ISO/IEC 8859,^[40]^[41] on the basis that it leaves the graphical character repertoire undefined. ISO/IEC 4873 / ECMA-43 does, however, permit the use of the GCC function provided that the sequence of characters is kept the same and merely displayed in one space, rather than being over-stamped to form a character with a different meaning.^[42]

Control character sets

Control character sets are classified as "primary" or "secondary" control code sets,^[43] respectively also called "C0" and "C1" control code sets.^[44]

A C0 control set must contain the ESC (escape) control character at 0x1B^[45] (a C0 set containing only ESC is registered as ISO-IR-104),^[46] whereas a C1 control set may not contain the escape control whatsoever.^[33] Hence, they are entirely separate registrations, with a C0 set being only a C0 set and a C1 set being only a C1 set.^[44]

If codes from the C0 set of ISO 6429 / ECMA-48, i.e. the ASCII control codes, appear in the C0 set, they are required to appear at their ISO 6429 / ECMA-48 locations.^[45] Inclusion of transmission control characters in the C0 set, besides the ten included by ISO 6429 / ECMA-48 (namely SOH, STX, ETX, EOT, ENQ, ACK, DLE, NAK, SYN and ETB),^[47] or inclusion of any of those ten in the C1 set, is also prohibited by the ISO/IEC 2022 / ECMA-35 standard.^[45]^[33]

A C0 control set is invoked over the CL range 0x00 through 0x1F,^[48] whereas a C1 control function may be invoked over the CR range 0x80 through 0x9F (in an 8-bit environment) or by using escape sequences (in a 7-bit or 8-bit environment),^[43] but not both. Which style of C1 invocation is used must be specified in the definition of the code version.^[49] For example, ISO/IEC 4873 specifies CR bytes for the C1 controls which it uses (SS2 and SS3).^[50] If necessary, which invocation is used may be communicated using announcer sequences.

In the latter case, single control functions from the C1 control code set are invoked using "type Fe" escape sequences,^[33] meaning those where the ESC control character is followed by a byte from columns 04 or 05 (that is to say, ESC 0x40 (@) through ESC 0x5F (_)).^[51]

Other control functions

Additional control functions are assigned to "type Fs" escape sequences (in the range ESC 0x60 (`) through ESC 0x7E (~)); these have permanently assigned meanings rather than depending on the C0 or C1 designations.^[51]^[52] Registration of control functions to type "Fs" sequences must be approved by ISO/IEC JTC 1/SC 2.^[52] Other single control functions may be registered to type "3Ft" escape sequences (in the range ESC 0x23 (#) [I...] 0x40 (@) through ESC 0x23 (#) [I...] 0x7E (~)),^[53] although no "3Ft" sequences are currently assigned (as of 2019).^[54] Some of these are specified in ECMA-35 (ISO 2022 / ANSI X3.41), others in ECMA-48 (ISO 6429 / ANSI X3.64).^[55] ECMA-48 refers to these as "independent control functions".^[56]

Code	Hex	Abbr.	Name	Effect^[54]
ESC `	`1B 60`	DMI	Disable manual input	Disables some or all of the manual input facilities of the device.
`ESC a`	`1B 61`	INT	Interrupt	Interrupts the current process.
`ESC b`	`1B 62`	EMI	Enable manual input	Enables the manual input facilities of the device.
`ESC c`	`1B 63`	RIS	Reset to initial state	Resets the device to its state after being powered on.^[57]
`ESC d`	`1B 64`	CMD	Coding method delimiter	Used when interacting with an outer coding / representation system, see below.
`ESC n`	`1B 6E`	LS2	Locking shift two	Shift function, see below.
`ESC o`	`1B 6F`	LS3	Locking shift three	Shift function, see below.
`ESC \|`	`1B 7C`	LS3R	Locking shift three right	Shift function, see below.
`ESC }`	`1B 7D`	LS2R	Locking shift two right	Shift function, see below.
`ESC ~`	`1B 7E`	LS1R	Locking shift one right	Shift function, see below.

Escape sequences of type "Fp" (ESC 0x30 (0) through ESC 0x3F (?)) or of type "3Fp" (ESC 0x23 (#) [I...] 0x30 (0) through ESC 0x23 (#) [I...] 0x3F (?)) are reserved for single private use control codes, by prior agreement between parties.^[58] Several such sequences of both types are used by DEC terminals such as the VT100, and are thus supported by terminal emulators.^[14]

Shift functions

By default, GL codes specify G0 characters and GR codes (where available) specify G1 characters; this may be otherwise specified by prior agreement. The set invoked over each area may also be modified with control codes referred to as shifts, as shown in the table below.^[59]

An 8-bit code may have GR codes specifying G1 characters, i.e. with its corresponding 7-bit code using Shift In and Shift Out to switch between the sets (e.g. JIS X 0201),^[60] although some instead have GR codes specifying G2 characters, with the corresponding 7-bit code using a single-shift code to access the second set (e.g. T.51).^[61]

The codes shown in the table below are the most common encodings of these control codes, conforming to ISO/IEC 6429. The LS2, LS3, LS1R, LS2R and LS3R shifts are registered as single control functions and are always encoded as the escape sequences listed below,^[54] whereas the others are part of a C0 or C1 control code set (as shown below, SI (LS0) and SO (LS1) are C0 controls and SS2 and SS3 are C1 controls), meaning that their coding and availability may vary depending on which control sets are designated: they must be present in the designated control sets if their functionality is used.^[48]^[49] The C1 controls themselves, as mentioned above, may be represented using escape sequences or 8-bit bytes, but not both.

Alternative encodings of the single-shifts as C0 control codes are available in certain control code sets. For example, SS2 and SS3 are usually available at 0x19 and 0x1D respectively in T.51^[61] and T.61.^[62] This coding is currently recommended by ISO/IEC 2022 / ECMA-35 for applications requiring 7-bit single-byte representations of SS2 and SS3,^[63] and may also be used for SS2 only,^[64] although older code sets with SS2 at 0x1C also exist,^[65]^[66]^[67] and were mentioned as such in an earlier edition of the standard.^[68] The 0x8E and 0x8F coding of the single shifts as shown below is mandatory for ISO/IEC 4873 levels 2 and 3.^[69]

Code	Hex	Abbr.	Name	Effect
`SI`	`0F`	SI LS0	Shift In Locking shift zero	GL encodes G0 from now on^[70]^[71]
`SO`	`0E`	SO LS1	Shift Out Locking shift one	GL encodes G1 from now on^[70]^[71]
`ESC n`	`1B 6E`	LS2	Locking shift two	GL encodes G2 from now on^[70]^[71]
`ESC o`	`1B 6F`	LS3	Locking shift three	GL encodes G3 from now on^[70]^[71]
CR area: `SS2` Escape code: `ESC N`	CR area: `8E` Escape code: `1B 4E`	SS2	Single shift two	GL or GR (see below) encodes G2 for the immediately following character only^[72]
CR area: `SS3` Escape code: `ESC O`	CR area: `8F` Escape code: `1B 4F`	SS3	Single shift three	GL or GR (see below) encodes G3 for the immediately following character only^[72]
`ESC ~`	`1B 7E`	LS1R	Locking shift one right	GR encodes G1 from now on^[73]
`ESC }`	`1B 7D`	LS2R	Locking shift two right	GR encodes G2 from now on^[73]
`ESC \|`	`1B 7C`	LS3R	Locking shift three right	GR encodes G3 from now on^[73]

Although officially considered shift codes and named accordingly, single-shift codes are not always viewed as shifts,^[12] and they may simply be viewed as prefix bytes (i.e. the first bytes in a multi-byte sequence),^[11] since they do not require the encoder to keep the currently active set as state, unlike locking shift codes. In 8-bit environments, either GL or GR, but not both, may be used as the single-shift area. This must be specified in the definition of the code version.^[72] For instance, ISO/IEC 4873 specifies GL, whereas packed EUC specifies GR. In 7-bit environments, only GL is used as the single-shift area.^[74]^[75] If necessary, which single-shift area is used may be communicated using announcer sequences.

The names "locking shift zero" (LS0) and "locking shift one" (LS1) refer to the same pair of C0 control characters (0x0F and 0x0E) as the names "shift in" (SI) and "shift out" (SO). However, the standard refers to them as LS0 and LS1 when they are used in 8-bit environments and as SI and SO when they are used in 7-bit environments.^[59]

The ISO/IEC 2022 / ECMA-35 standard permits, but discourages, invoking G1, G2 or G3 in both GL and GR simultaneously.^[76]

Registration of graphical and control code sets

The ISO International register of coded character sets to be used with escape sequences (ISO-IR) lists graphical character sets, control code sets, single control codes and so forth which have been registered for use with ISO/IEC 2022. The procedure for registering codes and sets with the ISO-IR registry is specified by ISO/IEC 2375. Each registration receives a unique escape sequence, and a unique registry entry number to identify it.^[77]^[78] For example, the CCITT character set for Simplified Chinese is known as ISO-IR-165.

Registration of coded character sets with the ISO-IR registry identifies the documents specifying the character set or control function associated with an ISO/IEC 2022 non‑private-use escape sequence. This may be a standard document; however, registration does not create a new ISO standard, does not commit the ISO or IEC to adopt it as an international standard, and does not commit the ISO or IEC to add any of its characters to the Universal Coded Character Set.^[79]

ISO-IR registered escape sequences are also used encapsulated in a Formal Public Identifier to identify character sets used for numeric character references in SGML (ISO 8879). For example, the string ISO 646-1983//CHARSET International Reference Version (IRV)//ESC 2/5 4/0 can be used to identify the International Reference Version of ISO 646-1983,^[80] and the HTML 4.01 specification uses ISO Registration Number 177//CHARSET ISO/IEC 10646-1:1993 UCS-4 with implementation level 3//ESC 2/5 2/15 4/6 to identify Unicode.^[81] The textual representation of the escape sequence, included in the third element of the FPI, will be recognised by SGML implementations for supported character sets.^[80]

Character set designations

Escape sequences to designate character sets take the form ESC I [I...] F. As mentioned above, the intermediate (I) bytes are from the range 0x20–0x2F, and the final (F) byte is from the range 0x30–0x7E. The first I byte (or, for a multi-byte set, the first two) identifies the type of character set and the working set it is to be designated to, whereas the F byte (and any additional I bytes) identify the character set itself, as assigned in the ISO-IR register (or, for the private-use escape sequences, by prior agreement).

Additional I bytes may be added before the F byte to extend the F byte range. This is currently only used with 94-character sets, where codes of the form ESC ( ! F have been assigned.^[82] At the other extreme, no multibyte 96-sets have been registered, so the sequences below are strictly theoretical.

As with other escape sequence types, the range 0x30–0x3F is reserved for private-use F bytes,^[31] in this case for private-use character set definitions (which might include unregistered sets defined by protocols such as ARIB STD-B24^[83] or MARC-8,^[3] or vendor-specific sets such as DEC Special Graphics).^[84] However, in a graphical set designation sequence, if the second I byte (for a single-byte set) or the third I byte (for a double-byte set) is 0x20 (space), the set denoted is a "dynamically redefinable character set" (DRCS) defined by prior agreement,^[85] which is also considered private use.^[31] A graphical set being considered a DRCS implies that it represents a font of exact glyphs, rather than a set of abstract characters.^[86] The manner in which DRCS sets and associated fonts are transmitted, allocated and managed is not stipulated by ISO/IEC 2022 / ECMA-35 itself, although it recommends allocating them sequentially starting with F byte 0x40 (@);^[87] however, a manner for transmitting DRCS fonts is defined within some telecommunication protocols such as World System Teletext.^[88]

There are also three special cases for multi-byte codes. The code sequences ESC $ @, ESC $ A, and ESC $ B were all registered when the contemporary version of the standard allowed multi-byte sets only in G0, so must be accepted in place of the sequences ESC $ ( @ through ESC $ ( B to designate to the G0 character set.^[89]

There are additional (rarely used) features for switching control character sets, but this is a single-level lookup, in that (as noted above) the C0 set is always invoked over CL, and the C1 set is always invoked over CR or by using escape codes. As noted above, it is required that any C0 character set include the ESC character at position 0x1B, so that further changes are possible. The control set designation sequences (as opposed to the graphical set ones) may also be used from within ISO/IEC 10646 (UCS/Unicode), in contexts where processing ANSI escape codes is appropriate, provided that each byte in the sequence is padded to the code unit size of the encoding.^[90]

A table of escape sequence I bytes and the designation or other function which they perform is below.^[91]

Code	Hex	Abbr.	Name	Effect	Example
`ESC SP F`	`1B 20 F`	ACS	Announce code structure	Specifies code features used, e.g. working sets (see below).^[92]	`ESC SP L` (ISO 4873 level 1)
`ESC ! F`	`1B 21 F`	CZD	C0-designate	`F` selects a C0 control character set to be used.^[93]	`ESC ! @` (ASCII C0 codes)
`ESC " F`	`1B 22 F`	C1D	C1-designate	`F` selects a C1 control character set to be used.^[94]	`ESC " C` (ISO 6429 C1 codes)
`ESC # F`	`1B 23 F`	-	(Single control function)	(Reserved for sequences for control functions, see above.)	`ESC # 6` (private use: DEC Double Width Line)^[95]
`ESC $ F`^[e] `ESC $ ( F`	`1B 24 F`^[e] `1B 24 28 F`	GZDM4	G0-designate multibyte 94-set	`F` selects a 94ⁿ-character set to be used for G0.^[89]	`ESC $ ( C` (KS X 1001 in G0)
`ESC $ ) F`	`1B 24 29 F`	G1DM4	G1-designate multibyte 94-set	`F` selects a 94ⁿ-character set to be used for G1.^[89]	`ESC $ ) A` (GB 2312 in G1)
`ESC $ * F`	`1B 24 2A F`	G2DM4	G2-designate multibyte 94-set	`F` selects a 94ⁿ-character set to be used for G2.^[89]	`ESC $ * B` (JIS X 0208 in G2)
`ESC $ + F`	`1B 24 2B F`	G3DM4	G3-designate multibyte 94-set	`F` selects a 94ⁿ-character set to be used for G3.^[89]	`ESC $ + D` (JIS X 0212 in G3)
`ESC $ , F`	`1B 24 2C F`	-	(not used)	(not used)^[f]	-
`ESC $ - F`	`1B 24 2D F`	G1DM6	G1-designate multibyte 96-set	`F` selects a 96ⁿ-character set to be used for G1.^[89]	`ESC $ - 1` (private use)
`ESC $ . F`	`1B 24 2E F`	G2DM6	G2-designate multibyte 96-set	`F` selects a 96ⁿ-character set to be used for G2.^[89]	`ESC $ . 2` (private use)
`ESC $ / F`	`1B 24 2F F`	G3DM6	G3-designate multibyte 96-set	`F` selects a 96ⁿ-character set to be used for G3.^[89]	`ESC $ / 3` (private use)
`ESC % F`	`1B 25 F`	DOCS	Designate other coding system	Switches coding system, see below.	`ESC % G` (UTF-8)
`ESC & F`	`1B 26 F`	IRR	Identify revised registration	Prefixes designation escape to denote revision.^[g]	`ESC & @ ESC $ B` (JIS X 0208:1990 in G0)
`ESC ' F`	`1B 27 F`	-	(not used)	(not used)	-
`ESC ( F`	`1B 28 F`	GZD4	G0-designate 94-set	`F` selects a 94-character set to be used for G0.^[89]	`ESC ( B` (ASCII in G0)
`ESC ) F`	`1B 29 F`	G1D4	G1-designate 94-set	`F` selects a 94-character set to be used for G1.^[89]	`ESC ) I` (JIS X 0201 Kana in G1)
`ESC * F`	`1B 2A F`	G2D4	G2-designate 94-set	`F` selects a 94-character set to be used for G2.^[89]	`ESC * v` (ITU T.61 RHS in G2)
`ESC + F`	`1B 2B F`	G3D4	G3-designate 94-set	`F` selects a 94-character set to be used for G3.^[89]	`ESC + D` (NATS-SEFI-ADD in G3)
`ESC , F`	`1B 2C F`	-	(not used)	(not used)^[h]	-
`ESC - F`	`1B 2D F`	G1D6	G1-designate 96-set	`F` selects a 96-character set to be used for G1.^[89]	`ESC - A` (ISO 8859-1 RHS in G1)
`ESC . F`	`1B 2E F`	G2D6	G2-designate 96-set	`F` selects a 96-character set to be used for G2.^[89]	`ESC . B` (ISO 8859-2 RHS in G2)
`ESC / F`	`1B 2F F`	G3D6	G3-designate 96-set	`F` selects a 96-character set to be used for G3.^[89]	`ESC / b` (ISO 8859-15 RHS in G3)

Note that the registry of F bytes is independent for the different types. The 94-character graphic set designated by ESC ( A through ESC + A is not related in any way to the 96-character set designated by ESC - A through ESC / A. And neither of those is related to the 94ⁿ-character set designated by ESC $ ( A through ESC $ + A, and so on; the final bytes must be interpreted in context. (Indeed, without any intermediate bytes, ESC A is a way of specifying the C1 control code 0x81.)

Also note that C0 and C1 control character sets are independent; the C0 control character set designated by ESC ! A (which happens to be the NATS control set for newspaper text transmission) is not the same as the C1 control character set designated by ESC " A (the CCITT attribute control set for Videotex).

Interaction with other coding systems

The standard also defines a way to specify coding systems that do not follow its own structure.

A sequence is also defined for returning to ISO/IEC 2022; the registrations which support this sequence as encoded in ISO/IEC 2022 comprise (as of 2019) various Videotex formats, UTF-8, and UTF-1.^[99] A second I byte of 0x2F (/) is included in the designation sequences of codes which do not use that byte sequence to return to ISO 2022; they may have their own means to return to ISO 2022 (such as a different or padded sequence) or none at all.^[100] All existing registrations of the latter type (as of 2019) are either transparent raw data, Unicode/UCS formats, or subsets thereof.^[101]

Code	Hex	Abbr.	Name	Effect
`ESC % @`	`1B 25 40`	DOCS	Designate other coding system ("standard return")	Return to ISO/IEC 2022 from another encoding.^[100]
`ESC % F`	`1B 25 F`		Designate other coding system ("with standard return")^[99]	`F` selects an 8-bit code; use `ESC % @` to return.^[100]
`ESC % / F`	`1B 25 2F F`		Designate other coding system ("without standard return")^[101]	`F` selects an 8-bit code; there is no standard way to return.^[100]
`ESC d`	`1B 64`	CMD	Coding method delimiter	Denotes the end of an ISO/IEC 2022 coded sequence.^[102]

Of particular interest are the sequences which switch to ISO/IEC 10646 (Unicode) formats which do not follow the ISO/IEC 2022 structure. These include UTF-8 (which does not reserve the range 0x80–0x9F for control characters), its predecessor UTF-1 (which mixes GR and GL bytes in multi-byte codes), and UTF-16 and UTF-32 (which use wider coding units).^[99]^[101]

Several codes were also registered for subsets (levels 1 and 2) of UTF-8, UTF-16 and UTF-32, as well as for three levels of UCS-2.^[101] However, the only codes currently specified by ISO/IEC 10646 are the level-3 codes for UTF-8, UTF-16 and UTF-32 and the unspecified-level code for UTF-8, with the rest being listed as deprecated.^[103] ISO/IEC 10646 stipulates that the big-endian formats of UTF-16 and UTF-32 are designated by their escape sequences.^[104]

Unicode Format	Code(s)	Hex^[103]	Deprecated codes	Deprecated hex^[99]^[101]^[103]
UTF-1	(UTF-1 not in current ISO/IEC 10646.)		`ESC % B`	`1B 25 42`
UTF-8	`ESC % G`, `ESC % / I`	`1B 25 47`,^[13] `1B 25 2F 49`^[105]	`ESC % / G`, `ESC % / H`	`1B 25 2F 47`, `1B 25 2F 48`
UTF-16	`ESC % / L`	`1B 25 2F 4C`^[106]	`ESC % / @`, `ESC % / C`, `ESC % / E`, `ESC % / J`, `ESC % / K`	`1B 25 2F 40`, `1B 25 2F 43`, `1B 25 2F 45`, `1B 25 2F 4A`, `1B 25 2F 4B`
UTF-32	`ESC % / F`	`1B 25 2F 46`	`ESC % / A`, `ESC % / D`	`1B 25 2F 41`, `1B 25 2F 44`

Of the sequences switching to UTF-8, ESC % G is the one supported by, for example, xterm.^[14]

Although use of a variant of the standard return sequence from UTF-16 and UTF-32 is permitted, the bytes of the escape sequence must be padded to the size of the code unit of the encoding (i.e. 001B 0025 0040 for UTF-16), i.e. the coding of the standard return sequence does not conform exactly to ISO/IEC 2022. For this reason, the designations for UTF-16 and UTF-32 use a without-standard-return syntax.^[107]

For specifying encodings by labels, the X Consortium's Compound Text format defines five private-use DOCS sequences.^[108]

Code structure announcements

The sequence "announce code structure" (ESC SP (0x20) F) is used to announce a specific code structure, or a specific group of ISO 2022 facilities which are used in a particular code version. Although announcements can be combined, certain contradictory combinations (specifically, using locking shift announcements 16–23 with announcements 1, 3 and 4) are prohibited by the standard, as is using additional announcements on top of ISO/IEC 4873 level announcements 12–14^[92] (which fully specify the permissible structural features). Announcement sequences are as follows:

Number	Code	Hex	Code version feature announced^[92]
1	`ESC SP A`	`1B 20 41`	G0 in GL, GR absent or unused, no locking shifts.
2	`ESC SP B`	`1B 20 42`	G0 and G1 invoked to GL by locking shifts, GR absent or unused.
3	`ESC SP C`	`1B 20 43`	G0 in GL, G1 in GR, no locking shifts, requires an 8-bit environment.
4	`ESC SP D`	`1B 20 44`	G0 in GL, G1 in GR if 8-bit, no locking shifts unless in a 7-bit environment.
5	`ESC SP E`	`1B 20 45`	Shift functions preserved during 7-bit/8-bit conversion.
6	`ESC SP F`	`1B 20 46`	C1 controls using escape sequences.
7	`ESC SP G`	`1B 20 47`	C1 controls in CR region in 8-bit environments, as escape sequences otherwise.
8	`ESC SP H`	`1B 20 48`	94-character graphical sets only.
9	`ESC SP I`	`1B 20 49`	94-character and/or 96-character graphical sets.
10	`ESC SP J`	`1B 20 4A`	Uses a 7-bit code, even if an eighth bit is available for use.
11	`ESC SP K`	`1B 20 4B`	Requires an 8-bit code.
12	`ESC SP L`	`1B 20 4C`	Complies to ISO/IEC 4873 (ECMA-43) level 1.
13	`ESC SP M`	`1B 20 4D`	Complies to ISO/IEC 4873 (ECMA-43) level 2.
14	`ESC SP N`	`1B 20 4E`	Complies to ISO/IEC 4873 (ECMA-43) level 3.
16	`ESC SP P`	`1B 20 50`	SI / LS0 used.
18	`ESC SP R`	`1B 20 52`	SO / LS1 used.
19	`ESC SP S`	`1B 20 53`	LS1R used in 8-bit environments, SO used in 7-bit environments.
20	`ESC SP T`	`1B 20 54`	LS2 used.
21	`ESC SP U`	`1B 20 55`	LS2R used in 8-bit environments, LS2 used in 7-bit environments.
22	`ESC SP V`	`1B 20 56`	LS3 used.
23	`ESC SP W`	`1B 20 57`	LS3R used in 8-bit environments, LS3 used in 7-bit environments.
26	`ESC SP Z`	`1B 20 5A`	SS2 used.
27	`ESC SP [`	`1B 20 5B`	SS3 used.
28	`ESC SP \`	`1B 20 5C`	Single-shifts invoke over GR.

ISO/IEC 2022 code versions

(A screenshot of an old version of Firefox showing Big5, GB 2312, GBK, GB 18030, HZ, ISO-2022-CN, Big5-HKSCS, EUC-TW, EUC-JP, ISO-2022-JP, Shift_JIS, EUC-KR, UHC, Johab and ISO-2022-KR as available encodings under the CJK sub-menu.) — Various ISO 2022 and other CJK encodings supported by Mozilla Firefox as of 2004. (This support has been reduced in later versions to avoid certain cross site scripting attacks.)

Six 7-bit ISO 2022 code versions (ISO-2022-CN, ISO-2022-CN-EXT, ISO-2022-JP, ISO-2022-JP-1, ISO-2022-JP-2 and ISO-2022-KR) are defined by IETF RFCs, of which ISO-2022-JP and ISO-2022-KR have been extensively used in the past.^[109] A number of other variants are defined by vendors, including IBM.^[110] Although UTF-8 is the preferred encoding in HTML5, legacy content in ISO-2022-JP remains sufficiently widespread that the WHATWG encoding standard retains support for it,^[111] in contrast to mapping ISO-2022-KR, ISO-2022-CN and ISO-2022-CN-EXT^[112] entirely to the replacement character,^[113] due to concerns about code injection attacks such as cross-site scripting.^[111]^[113]

8-bit code versions include Extended Unix Code.^[11]^[12] The ISO/IEC 8859 encodings also follow ISO 2022, in a subset stipulated in ISO/IEC 4873.^[9]^[10]

Japanese e-mail versions

ISO-2022-JP

ISO-2022-JP is a widely used encoding for Japanese, in particular in e-mail. It was introduced for use on the JUNET network and later codified in IETF RFC 1468, dated 1993.^[114] It has an advantage over other encodings for Japanese in that it does not require 8-bit clean transmission. Microsoft calls it Code page 50220.^[115] It starts in ASCII and includes the following escape sequences:

ESC ( B to switch to ASCII (1 byte per character)
ESC ( J to switch to JIS X 0201-1976 (ISO/IEC 646:JP) Roman set (1 byte per character)
ESC $ @ to switch to JIS X 0208-1978 (2 bytes per character)
ESC $ B to switch to JIS X 0208-1983 (2 bytes per character)

Use of the two characters added in JIS X 0208-1990 is permitted, but without including the IRR sequence, i.e. using the same escape sequence as JIS X 0208-1983.^[114] Also, due to being registered before designating multi-byte sets except to G0 was possible, the escapes for JIS X 0208 do not include the second I-byte (.^[89]

The RFC notes that some existing systems did not distinguish ESC ( B from ESC ( J, or did not distinguish ESC $ @ from ESC $ B, but stipulates that the escape sequences should not be changed by systems simply relaying messages such as e-mails.^[114] The WHATWG Encoding Standard referenced by HTML5 handles ESC ( B and ESC ( J distinctly, but treats ESC $ @ the same as ESC $ B when decoding, and uses only ESC $ B for JIS X 0208 when encoding.^[116] The RFC also notes that some past systems had made erroneous use of the sequence ESC ( H to switch away from JIS X 0208, which is actually registered for ISO-IR-11 (a Swedish variant of ISO 646 and World System Teletext).^[114]^[i]

Versions with halfwidth katakana

Use of ESC ( I to switch to the JIS X 0201-1976 Kana set (1 byte per character) is not part of the ISO-2022-JP profile,^[114] but is also sometimes used. Python allows it in a variant which it labels ISO-2022-JP-EXT (which also incorporates JIS X 0212 as described below, completing coverage of EUC-JP);^[117]^[118] по названию и структуре это близко к кодировке, обозначенной -2022-JPext ISO DEC , которая, кроме того, добавляет двухбайтовую пользовательскую область, доступ к которой осуществляется с помощью ESC $ ( 0 чтобы завершить описание кандзи Super DEC . ^[119] Вариант WHATWG/HTML5 позволяет декодировать катакану JIS X 0201 во входных данных ISO-2022-JP, но при кодировании преобразует символы в их эквиваленты JIS X 0208. ^[116] Кодовая страница Microsoft для ISO-2022-JP с дополнительно разрешенным кана JIS X 0201 — кодовая страница 50221 . ^[115]

Другие, более старые варианты, известные как JIS7 и JIS8, основаны непосредственно на 7-битных и 8-битных кодировках, определенных JIS X 0201 , и позволяют использовать кану JIS X 0201 из G1 без escape-последовательностей, используя Shift Out и Shift In или устанавливая восьмую бит (вызываемый GR) соответственно. ^[120] Они не получили широкого распространения; ^[120] Поддержка JIS X 0208 в расширенном 8-битном JIS X 0201 чаще достигается с помощью Shift JIS . Кодовая страница Microsoft для ISO 2022 на основе JIS X 0201 с однобайтовой катаканой через Shift Out и Shift In — кодовая страница 50222 . ^[115]

ISO-2022-JP-2

ISO-2022-JP-2 — это многоязычное расширение ISO-2022-JP, определенное в RFC 1554 (от 1993 г.), которое допускает следующие escape-последовательности в дополнение к последовательностям ISO-2022-JP. Части ISO/IEC 8859 представляют собой наборы из 96 символов, которые не могут быть обозначены как G0, и доступны из G2 с использованием 7-битной escape-последовательности односменного кода SS2: ^[121]

ESC $ A для переключения на GB 2312-1980 (2 байта на символ)
ESC $ ( C для перехода на KS X 1001-1992 (2 байта на символ)
ESC $ ( D для перехода на JIS X 0212-1990 (2 байта на символ)
ESC . A для переключения на старшую часть ISO/IEC 8859-1 , набор расширенной латиницы 1 (1 байт на символ) [обозначается G2]
ESC . F для переключения на старшую часть ISO/IEC 8859-7 , набор базового греческого языка (1 байт на символ) [обозначается как G2]

ISO-2022-JP с представлением ISO-2022-JP-2 для JIS X 0212, но не с другими расширениями, впоследствии был назван ISO-2022-JP-1 в RFC 2237 от 1997 года. ^[122]

IBM японский TCP

IBM реализует девять 7-битных кодировок японского языка на основе ISO 2022, каждая из которых использует свой набор escape-последовательностей: IBM-956, IBM-957, IBM-958, IBM-959, IBM-5052, IBM-5053, IBM-5054, IBM-5055 и ISO-2022-JP, которые вместе называются «наборами японских кодированных символов TCP/IP». ^[123] CCSID 9148 — это стандарт (RFC 1468) ISO-2022-JP. ^[124]

Варианты IBM ISO-2022-JP
Кодовая страница/CCSID	Номер определения ACRI	Escape-последовательности для ACRI ^[110]
956 ^[125]	TCP-01	`ESC ( J` (ИИСУС X 0201 Роман) `ESC $ ( B` (JIS X 0208, 1983+, длинная escape-последовательность) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D`
957 ^[126]	TCP-02	`ESC ( J` (ИИСУС X 0201 Роман) `ESC $ ( @` (JIS X 0208, 1978, длинная escape-последовательность) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
958 ^[127]	TCP-03	`ESC ( A` (ASCII) `ESC $ ( B` (JIS X 0208, 1983+, длинная escape-последовательность) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
959 ^[128]	TCP-04	`ESC ( A` (ASCII) `ESC $ ( @` (JIS X 0208, 1978, длинная escape-последовательность) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
5052 ^[129]	TCP-05	`ESC ( J` (ИИСУС X 0201 Роман) `ESC $ B` (JIS X 0208, 1983+) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
5053 ^[130]	TCP-06	`ESC ( J` (ИИСУС X 0201 Роман) `ESC $ @` (JIS X 0208, 1978 г.) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
5054 ^[131]	TCP-07	`ESC ( A` (ASCII) `ESC $ B` (JIS X 0208, 1983+) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
5055 ^[132]	TCP-08	`ESC ( A` (ASCII) `ESC $ @` (JIS X 0208, 1978 г.) `ESC $ I` (JIS X 0201 Катакана) `ESC $ ( D` (ДЖИС Х 0212)
9148 ^[124]	TCP-16	`ESC ( A` (ASCII) `ESC ( J` (ИИСУС X 0201 Роман) `ESC $ @` (JIS X 0208, 1978 г.) `ESC $ B` (JIS X 0208, 1983+)

ДЖИС Х 0213

Стандарт JIS X 0213 , впервые опубликованный в 2000 году, определяет обновленную версию ISO-2022-JP без расширений ISO-2022-JP-2, получившую название ISO-2022-JP-3 . Дополнения, внесенные в JIS X 0213 по сравнению с базовым стандартом JIS X 0208, привели к новой регистрации расширенной плоскости JIS 1, а новая плоскость 2 получила собственную регистрацию. Дальнейшие дополнения к плоскости 1 в редакции стандарта 2004 года привели к добавлению дополнительной регистрации к дальнейшей версии профиля, получившей название ISO-2022-JP-2004 . Помимо основных кодов обозначений ISO-2022-JP, признаются следующие обозначения:

ESC ( I для перехода на набор Kana JIS X 0201-1976 (1 байт на символ)
ESC $ ( O для переключения на JIS X 0213-2000 Plane 1 (2 байта на символ)
ESC $ ( P для перехода на JIS X 0213-2000 Plane 2 (2 байта на символ)
ESC $ ( Q для переключения на плоскость 1 JIS X 0213-2004 (2 байта на символ, только ISO-2022-JP-2004)

Другие 7-битные версии

ISO-2022-KR определен в RFC 1557 от 1993 года. ^[133] Он кодирует ASCII и корейский двухбайтовый код KS X 1001-1992 . ^[134]^[135] ранее назывался KS C 5601-1987. В отличие от ISO-2022-JP-2, он использует символы Shift Out и Shift In для переключения между ними после включения ESC $ ) C один раз в начале строки для обозначения от KS X 1001 до G1. ^[133]

ISO-2022-CN и ISO-2022-CN-EXT определены в RFC 1922, датированном 1996 годом. Это 7-битные кодировки, в которых используются функции Shift Out и Shift In (для переключения между G0 и G1), а также 7-битный escape-код. формы односменных функций SS2 и SS3 (для доступа к G2 и G3). ^[136] Они поддерживают наборы символов GB 2312 (для упрощенного китайского ) и CNS 11643 (для традиционного китайского ).

Базовый профиль ISO-2022-CN использует ASCII в качестве набора G0 (сдвиг), а также включает GB 2312 и первые две плоскости CNS 11643 (поскольку этих двух плоскостей достаточно для представления всех традиционных китайских иероглифов из обычных Big5 , к которому RFC приводит соответствие в приложении): ^[136]

ESC $ ) A для переключения на GB 2312-1980 (2 байта на символ) [обозначается G1]
ESC $ ) G для переключения на CNS 11643-1992 Plane 1 (2 байта на символ) [обозначается G1]
ESC $ * H для переключения на CNS 11643-1992 Plane 2 (2 байта на символ) [обозначается как G2]

Профиль ISO-2022-CN-EXT допускает следующие дополнительные наборы и плоскости. ^[136]

ESC $ ) E для переключения на ISO-IR-165 (2 байта на символ) [обозначается G1]
ESC $ + I для переключения на CNS 11643-1992 Plane 3 (2 байта на символ) [обозначается G3]
ESC $ + J для переключения на CNS 11643-1992 Plane 4 (2 байта на символ) [обозначается G3]
ESC $ + K для переключения на CNS 11643-1992 Plane 5 (2 байта на символ) [обозначается G3]
ESC $ + L для переключения на CNS 11643-1992 Plane 6 (2 байта на символ) [обозначается G3]
ESC $ + M для переключения на CNS 11643-1992 Plane 7 (2 байта на символ) [обозначается G3]

В профиле ISO-2022-CN-EXT дополнительные стандартные графические наборы Guobiao перечислены как разрешенные, но при условии, что им присвоены зарегистрированные escape-последовательности ISO 2022: ^[136]

ГБ 12345 в G1
GB 7589 или GB 13131 в G2
ГБ 7590 или ГБ 13132 в G3

Персонаж после ESC (для однобайтовых наборов символов) или ESC $ (для многобайтовых наборов символов) указывает тип набора символов и назначенный рабочий набор. В приведенных выше примерах персонаж ( (0x28) обозначает набор из 94 символов в наборе символов G0, тогда как ), * или + (0x29–0x2B) обозначает наборы символов G1–G3.

ISO-2022-KR и ISO-2022-CN используются реже, чем ISO-2022-JP, и иногда намеренно не поддерживаются из соображений безопасности. Примечательно, что стандарт кодирования WHATWG , используемый HTML5 , сопоставляет ISO-2022-KR, ISO-2022-CN и ISO-2022-CN-EXT (а также HZ-GB-2312 ) с «замещающим» декодером, ^[112] который сопоставляет все входные данные с символом замены (�), чтобы предотвратить определенные межсайтовые сценарии и связанные с ними атаки, которые используют разницу в поддержке кодирования между клиентом и сервером. ^[113] Хотя та же проблема безопасности (позволяющая по-разному интерпретировать последовательности байтов ASCII) также применима к ISO-2022-JP и UTF-16 , они не могут быть обработаны таким образом из-за того, что они гораздо чаще используются в развернутом контенте. ^[111]

В апреле 2024 года обнаружена брешь в безопасности. ^[137] был найден в реализации ISO-2022-CN-EXT в glibc , что привело к рекомендациям полностью отключить кодирование в системах Linux. ^[138]

ИСО/МЭК 4873

Подмножество ISO 2022, применяемое к 8-битным однобайтовым кодировкам, определяется стандартом ISO/IEC 4873 , также опубликованным Ecma International как ECMA-43. ISO/IEC 8859 определяет 8-битные коды для ISO/IEC 4873 (или ECMA-43) уровня 1. ^[9]^[10]

ISO/IEC 4873/ECMA-43 определяет три уровня кодирования: ^[139]

Уровень 1, который включает набор C0, набор ASCII G0, дополнительный набор C1 и дополнительный однобайтовый (94- или 96-символьный) набор G1. G0 вызывается через GL, а G1 вызывается через GR. Использование функций сдвига не допускается.
Уровень 2, который включает однобайтовый набор G2 и/или G3 (94 или 96 символов) в дополнение к обязательному набору G1. Разрешены только функции одной смены SS2 и SS3 (т.е. блокирующие сдвиги запрещены), и они вызываются в области GL (включая 0x20 и 0x7F в случае набора 96). SS2 и SS3 должны быть доступны в C1 по адресам 0x8E и 0x8F соответственно. Этот минимальный необходимый набор C1 для ISO 4873 зарегистрирован как ISO-IR-105. ^[69]
Уровень 3, который разрешает функции блокировки-переключения GR LS1R, LS2R и LS3R в дополнение к одиночным переключениям, но в остальном имеет те же ограничения, что и уровень 2.

Более ранние версии стандарта допускали присвоения не-ASCII в наборе G0 при условии, что инвариантные позиции ISO/IEC 646 были сохранены, что другие позиции были назначены пробельным (не объединяемым) символам, что 0x23 был назначен либо £ , либо #. , и этот 0x24 был назначен либо $ , либо ¤ . ^[140] Например, 8-битная кодировка JIS X 0201 совместима с более ранними редакциями. Впоследствии это было изменено, чтобы полностью определить набор ISO / IEC 646: 1991 IRV / ISO-IR № 6 (ASCII). ^[141]^[142]^[143]

Использование ISO/IEC 646 IRV (синхронизировано с ASCII с 1991 года) по ISO/IEC 4873 уровня 1 без набора C1 или G1, т.е. использование IRV в 8-битной среде, в которой не используются коды сдвига и высокий уровень бит всегда равен нулю, известен как ISO 4873 DV , где DV означает «Версия по умолчанию». ^[144]

В случаях, когда повторяющиеся символы доступны в разных наборах, действующая редакция ISO/IEC 4873/ECMA-43 разрешает использовать эти символы только в рабочем наборе с наименьшим номером, в котором они встречаются. ^[145] Например, если символ присутствует как в наборе G1, так и в наборе G3, его необходимо использовать из набора G1. Однако использование других наборов разрешено в более ранних выпусках. ^[143]

ISO/IEC 8859 определяет полные кодировки на уровне 1 ISO/IEC 4873 и не допускает совместного использования нескольких частей ISO/IEC 8859. Он предусматривает, что ISO/IEC 10367 . вместо уровней 2 и 3 ISO/IEC 4873 следует использовать ^[9]^[10] ISO/IEC 10367:1991 включает наборы G0 и G1, соответствующие тем, которые используются в первых девяти частях ISO/IEC 8859 (т.е. те, которые существовали по состоянию на 1991 год, когда он был опубликован), а также некоторые дополнительные наборы. ^[146]

Escape-последовательности обозначения набора символов используются для идентификации или переключения между версиями во время обмена информацией только в том случае, если этого требует дополнительный протокол; в этом случае стандарт требует последовательности объявлений ISO/IEC 2022, определяющей уровень ISO/IEC 4873, за которой следует полный набор escape-символов, определяющих обозначения наборов символов для C0, C1, G0, G1, G2 и G3 соответственно (но опуская обозначения G2 и G3 для уровня 1), с F -байтом 0x7E, обозначающим пустой набор. Каждый уровень ISO/IEC 4873 имеет свою собственную последовательность объявлений ISO/IEC 2022, а именно: ^[147]

Код	Шестигранник	Объявление
`ESC SP L`	`1B 20 4C`	ИСО 4873 уровень 1
`ESC SP M`	`1B 20 4D`	ИСО 4873 уровень 2
`ESC SP N`	`1B 20 4E`	ИСО 4873 уровень 3

Расширенный код Unix

переменной ширины, Расширенный код Unix (EUC) — это 8-битная система кодирования символов используемая в основном для японского , корейского и упрощенного китайского языков . Он основан на ISO 2022, и только наборы символов, соответствующие структуре ISO 2022, могут иметь формы EUC. Могут быть представлены до четырех наборов кодированных символов (в G0, G1, G2 и G3). Набор G0 вызывается через GL, набор G1 вызывается через GR, а наборы G2 и G3 (если они присутствуют) вызываются с использованием одиночных сдвигов SS2 и SS3, которые используются как байты CR (т. е. 0x8E и 0x8F соответственно) и вызывать через GR (не GL). ^[11] Коды блокировки смены не используются. ^[12]

страны, Код, назначенный набору G0, — это ASCII или национальный набор символов ISO 646 например KS-Roman (KS X 1003) или JIS-Roman (нижняя половина JIS X 0201 ). ^[11] Следовательно, 0x5C ( обратная косая черта в US-ASCII) используется для обозначения знака иены в некоторых версиях EUC-JP и знака вона в некоторых версиях EUC-KR.

G1 используется для кодированного набора символов 94x94, представленного двумя байтами. EUC -CN Форма GB 2312 и EUC-KR являются примерами таких двухбайтовых кодов EUC. EUC-JP включает символы, представленные тремя байтами (т. е. SS3 плюс два байта), тогда как в EUC-TW один символ может занимать до четырех байтов (т. е. SS2 плюс три байта).

Сам код EUC не использует последовательности объявлений или обозначений из ISO 2022; однако это соответствует следующей последовательности из четырех последовательностей дикторов, значения которых распределяются следующим образом. ^[148]

Индивидуальная последовательность	Шестнадцатеричный	Особенность EUC обозначена
`ESC SP C`	`1B 20 43`	ISO-8 (8 бит, G0 в GL, G1 в GR)
`ESC SP Z`	`1B 20 5A`	Доступ к G2 осуществляется через SS2
`ESC SP [`	`1B 20 5B`	Доступ к G3 осуществляется через SS3
`ESC SP \`	`1B 20 5C`	Односменный вызов через GR

Составной текст (X11)

Консорциум X определил профиль ISO 2022 под названием Compound Text в качестве формата обмена в 1989 году. ^[149] При этом используются только четыре управляющих кода: ХТ ( 0x09), NL (новая строка, кодируется как ЛФ , 0x0A) , ЭСК ( 0x1B) и CSI (в 8-битном представлении 0x9B), ^[150] с СДС ( CSI … ]) Последовательность CSI используется для управления двунаправленным текстом. ^[151] Это 8-битный код, использующий G0 и G1 для GL и GR, и соответствует ISO-8859-1 . в исходном состоянии ^[152] Используются следующие F-байты:

Последовательности обозначений ISO 2022, используемые в составном тексте X11 ^[153]
Тип escape-последовательности	Последний байт	Графический набор
GZD4, G1D4 (для наборов из 94 символов)	`B` ( `0x42`)	ASCII
	`I` ( `0x49`)	JIS X 0201 катакана
	`J` ( `0x4A`)	ИИСУС X 0201 Романтика
G1D6 (для наборов из 96 символов)	`A` ( `0x41`)	ISO-8859-1 верхняя часть
	`B` ( `0x42`)	ISO-8859-2 верхняя часть
	`C` ( `0x43`)	ISO-8859-3 верхняя часть
	`D` ( `0x44`)	ISO-8859-4 верхняя часть
	`F` ( `0x46`)	ISO-8859-7 верхняя часть
	`G` ( `0x47`)	ISO-8859-6 верхняя часть
	`H` ( `0x48`)	ISO-8859-8 верхняя часть
	`L` ( `0x4C`)	ISO-8859-5 верхняя часть
	`M` ( `0x4D`)	ISO-8859-9 верхняя часть
GZDM4, G1DM4 (для 2-байтовых наборов)	`A` ( `0x41`)	ГБ 2312
	`B` ( `0x42`)	ДЖИС Х 0208
	`C` ( `0x43`)	КС С 5601

Для указания кодировок с помощью меток X11 Compound Text определяет пять последовательностей DOCS для частного использования: ESC % / 0 ( 1B 25 2F 30) для кодировок переменной длины и ESC % / 1 через ESC % / 4 для кодировок фиксированной длины с использованием от одного до четырех байтов соответственно. Вместо использования другой escape-последовательности для возврата к ISO 2022 два байта, следующие за исходной escape-последовательностью, определяют оставшуюся длину в байтах, закодированную в базе 128 с использованием байтов. 0x80–FF. Метка кодировки включается в ISO 8859-1 перед закодированным текстом и заканчивается СТХ ( 0x02). ^[108]

Сравнение с другими кодировками

Преимущества

Поскольку весь диапазон кодировок графических символов ISO/IEC 2022 можно использовать через GL, доступные глифы существенно не ограничены невозможностью представления GR и C1, например, в системе, ограниченной 7-битными кодировками. Соответственно, это позволяет представлять в такой системе большой набор символов. Как правило, эта 7-битная совместимость на самом деле не является преимуществом, за исключением обратной совместимости со старыми системами. Подавляющее большинство современных компьютеров используют 8 бит на каждый байт.
По сравнению с Unicode, ISO/IEC 2022 обходит унификацию Хань , используя коды последовательности для переключения между дискретными кодировками для разных восточноазиатских языков. Это позволяет избежать проблем ^{[ нужна ссылка ]} связанные с унификацией, например трудности с поддержкой нескольких языков CJK с соответствующими вариантами символов в одном документе и шрифте.

Недостатки

Поскольку ISO/IEC 2022 представляет собой кодировку с отслеживанием состояния, программа не может переходить в середину блока текста для поиска, вставки или удаления символов. Это делает манипуляции с текстом очень громоздкими и медленными по сравнению с кодировками без сохранения состояния. Любой переход в середину текста может потребовать резервного копирования предыдущей escape-последовательности, прежде чем можно будет интерпретировать байты, следующие за escape-последовательностью.
Из-за особенностей ISO/IEC 2022 с отслеживанием состояния идентичный и эквивалентный символ может быть закодирован в разных наборах символов, которые могут быть обозначены как любой из G0–G3, который может быть вызван с использованием одиночных сдвигов или с использованием блокирующих сдвигов для GL или ГР. Следовательно, символы могут быть представлены разными способами, а это означает, что две визуально идентичные и эквивалентные строки не могут быть надежно сопоставлены на предмет равенства.
Некоторые системы, такие как DICOM и некоторые клиенты электронной почты, используют вариант ISO-2022 (например, «ISO 2022 IR 100»). ^[154]) в дополнение к поддержке нескольких других кодировок. ^[155] Этот тип вариаций затрудняет портативную передачу текста между компьютерными системами.
UTF-1 , многобайтовый формат преобразования Unicode , совместимый с представлением 8-битных управляющих символов ISO/IEC 2022, имеет различные недостатки по сравнению с UTF-8 и переключением с других кодировок или на другие кодировки, поддерживаемые ISO/IEC 2022. , обычно не требуется в документах Unicode.
Благодаря escape-последовательностям можно создавать последовательности атакующих байтов, в которых вредоносная строка (например, межсайтовый скриптинг ) маскируется до тех пор, пока она не будет декодирована в Unicode, что может позволить ей обойти очистку. ^[156] Таким образом, использование этой кодировки рассматривается комплектами защиты от вредоносных программ как подозрительное. ^[157]^{[ нужен лучший источник ]} а 7-битные данные ISO 2022 (за исключением ISO-2022-JP) полностью сопоставляются с символом замены в HTML5 для предотвращения атак. ^[112]^[113] Ограниченные версии 8-битного кода ISO 2022, которые не используют escape-символы обозначения или коды блокировки блокировки, такие как расширенный код Unix , не разделяют эту проблему.
Конкатенация может создать проблемы. Такие профили, как ISO-2022-JP, указывают, что поток начинается в состоянии ASCII и должен заканчиваться в состоянии ASCII. ^[114] Это необходимо для того, чтобы гарантировать, что символы в объединенных потоках ISO-2022-JP и/или ASCII будут интерпретироваться в правильном наборе. Это приводит к тому, что если поток, который заканчивается многобайтовым символом, объединяется с потоком, который начинается с многобайтового символа, генерируется пара escape-кодов, переключающихся на ASCII и сразу же от него. Однако, как указано в Техническом отчете Unicode № 36 («Вопросы безопасности Unicode»), пары escape-последовательностей ISO 2022 без символов между ними должны генерировать замещающий символ («�»), чтобы предотвратить их использование для маскировки вредоносных последовательностей, таких как как межсайтовый скриптинг . ^[158] Реализация этой меры, например, в Mozilla Thunderbird , привела к проблемам совместимости, поскольку при объединении двух потоков ISO-2022-JP генерировались неожиданные символы «��». ^[156]

См. также

Сноски

^ Японский : 区 , латинизированный : кутен ; китайский : местоположение ; пиньинь : qūwèi ; корейский : 행렬 ; RR : хэннёль ; 点
^ Японский : 区 , латинизированный : ку , букв. 'зона'; Китайский : 区 ; пиньинь : цю ; Корейский 행: Ханджа : 行 ; RR : Хэнг
^ Японский : 点 , латинизированный : десять , букв. 'точка'; Китайский : 位 ; пиньинь : вэй ; горит. 'позиция'; Корейский : 열 ; Ханджа : 列 ; РР : йёль
^ Японский : 面 , латинизированный : мужчины , букв. 'лицо'
^ Перейти обратно: ^а ^б Указано для F байтов 0x40 ( @), 0x41 ( A) и 0x42 ( B) только по историческим причинам. ^[89] В некоторых реализациях, таких как SoftBank 2G кодирование смайлов , используются дополнительные escape-символы этой формы для целей, не соответствующих ISO-2022. ^[96]
^ Внесено в список MARC-8 . ^[3] См. сноску для ESC , F ниже для фона.
^ F , скорректированный в диапазоне 1-63, указывает, какая (совместимая с предыдущими версиями) версия следующей регистрации необходима, чтобы старые системы знали, что они устарели. ^[97]
^ В более ранних выпусках наборов из 96 символов не существовало, а escape-коды, которые теперь используются для наборов из 96 символов, были зарезервированы как место для дополнительных наборов из 94 символов. Соответственно, ESC 0x1B 0x2C последовательность была определена в ранних редакциях стандарта как обозначение дальнейших наборов из 94 символов для G0. ^[98] Поскольку наборы из 96 символов не могут быть обозначены как G0, этот первый байт I не используется текущей редакцией стандарта. Однако он по-прежнему указан в MARC-8 . ^[3]
^ См. также, например, Printronix (2012 г.), Справочное руководство программиста OKI® (PDF) , стр. 26 для более новой системы, которая использует ESC ( H для переключения на ASCII из DBCS.

Ссылки

^ ECMA-35 (1994) , Краткая история
^ ECMA-35 (1994) , с. 51, приложение Д
^ Перейти обратно: ^а ^б ^с ^д ^и «Техника 2: Использование стандартных альтернативных наборов графических символов» . MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена . Библиотека Конгресса . 05.12.2007. Архивировано из оригинала 22 июля 2020 г. Проверено 19 июля 2020 г.
^ «ECMA-35: Структура кода символов и методы расширения (веб-страница)» . Экма Интернешнл . Архивировано из оригинала 25 апреля 2022 г. Проверено 27 апреля 2022 г.
^ Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , стр. 15–16, глава 8.1.
^ Перейти обратно: ^а ^б ECMA-35 (1994) , глава 13
^ Перейти обратно: ^а ^б ECMA-35 (1994) , главы 12, 14
^ Перейти обратно: ^а ^б ECMA-35 (1994) , глава 11
^ Перейти обратно: ^а ^б ^с ^д ^и ISO/IEC FDIS 8859-10 (1998) , стр. 1, глава 1 («Объем применения»)
^ Перейти обратно: ^а ^б ^с ^д ^и ECMA-144 (2000) , с. 1, глава 1 («Объем применения»)
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж Лунде (2008) , стр. 242–245, глава 4 («Методы кодирования»), раздел «Кодирование EUC».
^ Перейти обратно: ^а ^б ^с ^д Лунде (2008) , стр. 253–255, глава 4 («Методы кодирования»), раздел «Кодировки EUC и ISO-2022».
^ Перейти обратно: ^а ^б ИСО-ИР-196 (1996 г.)
^ Перейти обратно: ^а ^б ^с Мой, Эдвард; Гильдеа, Стивен; Дикки, Томас. «Управление, начинающееся с ESC» . Управляющие последовательности XTerm . Архивировано из оригинала 10 октября 2019 г. Проверено 4 октября 2019 г.
^ ECMA-35 (1994) , главы 6, 7.
^ ECMA-35 (1994) , глава 8
^ ECMA-35 (1994) , глава 9
^ Перейти обратно: ^а ^б ECMA-35 (1994) , глава 15
^ Лунде (2008) , стр. 228–234, глава 4 («Методы кодирования»), раздел «Кодирование ISO-2022»
^ Лунде (2008) , стр. 19–20, Глава 1 («Обзор обработки информации CJKV»), раздел «Что такое строка-ячейка и плоская-строка-ячейка?»
^ ECMA-35 (1994) , с. 4, определение 4.11
^ ECMA-35 (1994) , с. 5, определение 4.18
^ См., например, ISO-IR-14 (1975) , определяющий обозначение G0 римского набора JIS X 0201 как ESC 2/8 4/10.
^ ECMA-35 (1994) , с. 5, глава 5.1
^ См., например, RFC 1468 (1993) , определяющий обозначение G0 римского набора JIS X 0201 как ESC ( J.
^ ECMA-35 (1994) , с. 7, глава 6.2
^ ECMA-35 (1994) , с. 10, глава 6.3.2
^ ECMA-35 (1994) , с. 4, определение 4.17
^ ECMA-35 (1994) , с. 4, определение 4.14
^ ECMA-35 (1994) , с. 28, глава 13.1
^ Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 33, глава 13.3.3
^ ECMA-48 (1991) , стр. 24–26, глава 5.4.
^ Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 11, глава 6.4.3
^ ИСО-ИР-208 (1999)
^ ИСО-ИР-155 (1990)
^ ИСО-ИР-164 (1992)
^ Перейти обратно: ^а ^б ECMA-35 (1994) , с. 10, глава 6.3.3
^ Google Inc. (2014). "ansi.go, строка 134" . Библиотека escape-последовательностей ANSI для Go . Архивировано из оригинала 30 апреля 2022 г. Проверено 14 сентября 2019 г.
^ ECMA-43 (1991) , с. 5, глава 7 («Спецификация символов 8-битного кода»)
^ ISO/IEC FDIS 8859-10 (1998) , стр. 3, глава 6 («Спецификация кодированного набора символов»)
^ ECMA-144 (2000) , с. 3, глава 6 («Спецификация кодированного набора символов»)
^ ECMA-43 (1991) , с. 19, приложение С («Композитные графические символы»)
^ Перейти обратно: ^а ^б ECMA-35 (1994) , с. 10, глава 6.4.1
^ Перейти обратно: ^а ^б ECMA-35 (1994) , с. 11, глава 6.4.4
^ Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 11, глава 6.4.2
^ ИСО-ИР-104 (1985)
^ ИСО-ИР-1 (1975)
^ Перейти обратно: ^а ^б ECMA-35 (1994) , с. 19, глава 8.5.1
^ Перейти обратно: ^а ^б ECMA-35 (1994) , с. 19, глава 8.5.2
^ ECMA-43 (1991) , с. 8, глава 7.6 («Набор C1»)
^ Перейти обратно: ^а ^б ECMA-35 (1994) , с. 29, глава 13.2.1
^ Перейти обратно: ^а ^б ECMA-35 (1994) , с. 12, глава 6.5.1
^ ECMA-35 (1994) , с. 12, глава 6.5.2
^ Перейти обратно: ^а ^б ^с ИСО-ИР , с. 19, глава 2.7 («Отдельные функции управления»)
^ ECMA-35 (1994) , с. 12, глава 6.5.4
^ ECMA-48 (1991) , глава 5.5.
^ ISO/TC 97/SC 2 (30 декабря 1976 г.). Возврат к исходному состоянию (RIS) (PDF) . ITSCJ/ IPSJ . ИСО-ИК -35. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
^ ECMA-35 (1994) , с. 12, глава 6.5.3
^ Перейти обратно: ^а ^б ECMA-35 (1994) , с. 14, глава 7.3, таблица 2
^ ИСО-ИР-14 (1975)
^ Перейти обратно: ^а ^б МСЭ-Т (11 августа 1995 г.). Рекомендация T.51 (1992 г.) Поправка 1 . Архивировано из оригинала 2 августа 2020 г. Проверено 25 декабря 2019 г.
^ ИСО-ИР-106 (1985)
^ ECMA-35 (1994) , с. 15, глава 7.3, примечание 23
^ ИСО-ИР-140 (1987)
^ ИСО-ИР-7 (1975)
^ ИСО-ИР-26 (1976)
^ ИСО-ИР-36 (1977)
^ ECMA-35 (1980) , с. 8, глава 5.1.7
^ Перейти обратно: ^а ^б ИСО-ИР-105 (1985 г.)
^ Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 17, глава 8.3.1
^ Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 23, глава 9.3.1
^ Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 19, глава 8.4
^ Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 17, глава 8.3.2
^ ECMA-35 (1994) , стр. 23–24, глава 9.4.
^ ECMA-35 (1994) , с. 27, глава 11.1
^ ECMA-35 (1994) , с. 17, глава 8.3.3
^ ECMA-35 (1994) , с. 47, приложение Б
^ ИСО-ИК , с. 2, глава 1 («Введение»)
^ ИСО/МЭК 2375 (2003)
^ Перейти обратно: ^а ^б «Обработка декларации SGML в SP» . SP: система SGML, соответствующая международному стандарту ISO 8879 .
^ «20: Декларация SGML HTML 4» . Спецификация HTML 4.01 . W3C .
^ ИСО-ИК , с. 10, глава 2.2 («Набор графических символов из 94 символов со вторым промежуточным байтом»)
^ ARIB STD-B24 (2008) , с. 39, часть 2, Таблица 7-3
^ Масчек, Свен; Ле Бретон, Стефан; Гамильтон, Ричард Л. «Об« альтернативном наборе символов рисования линий » » . ~sven_mascheck/ . Архивировано из оригинала 29 декабря 2019 г. Проверено 8 января 2020 г.
^ ECMA-35 (1994) , с. 36, глава 14.4
^ ECMA-35 (1994) , с. 36, глава 14.4.2, примечание 48
^ ECMA-35 (1994) , с. 36, глава 14.4.2, примечание 47
^ ETS 300 706 (1997) , с. 103, глава 14 («Динамически переопределяемые символы»)
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д ECMA-35 (1994) , стр. 35–36, глава 14.3.2.
^ ISO/IEC 10646 (2017) , стр. 19–20, глава 12.4 («Идентификация набора функций управления»)
^ ECMA-35 (1994) , с. 32, таблица 5
^ Перейти обратно: ^а ^б ^с ECMA-35 (1994) , стр. 37–41, глава 15.2.
^ ECMA-35 (1994) , с. 34, глава 14.2.2
^ ECMA-35 (1994) , с. 34, глава 14.2.3
^ Цифровой . «DECDWL — линия двойной ширины и одинарной высоты» . Информация о программаторе видеотерминала VT510 . Архивировано из оригинала 2 августа 2020 г. Проверено 17 января 2020 г.
^ Кавасаки, Юсуке (2010). «Кодировать::JP::Emoji::Кодировка» . Кодировать-JP-Emoji . Строка 268. Архивировано из оригинала 30 апреля 2022 г. Проверено 28 мая 2020 г.
^ ECMA-35 (1994) , стр. 36–37, глава 14.5.
^ ECMA-35 (1980) , стр. 14–15, глава 5.3.7.
^ Перейти обратно: ^а ^б ^с ^д ИСО-ИР , с. 20, глава 2.8.1 («Системы кодирования со стандартным возвратом»)
^ Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , стр. 41–42, глава 15.4.
^ Перейти обратно: ^а ^б ^с ^д ^и ИСО-ИР , с. 21, глава 2.8.2 («Системы кодирования без стандартного возврата»)
^ ECMA-35 (1994) , с. 41, глава 15.3
^ Перейти обратно: ^а ^б ^с ISO/IEC 10646 (2017) , стр. 19, глава 12.2 («Идентификация схемы кодирования UCS»)
^ ISO/IEC 10646 (2017) , стр. 18–19, глава 12.1 («Цель и контекст идентификации»).
^ ИСО-ИР-192 (1996)
^ ИСО-ИР-195 (1996)
^ ISO/IEC 10646 (2017) , с. 20, глава 12.5 («Идентификация системы кодирования ISO/IEC 2022»)
^ Перейти обратно: ^а ^б Шайфлер (1989) , § Кодировки нестандартных наборов символов
^ Лунде (2008) , стр. 229–230, глава 4 («Методы кодирования»), раздел «Кодировка ISO-2022» «Те кодировки, которые широко использовались в прошлом или продолжают использоваться сегодня для некоторых целей, были выделены».
^ Перейти обратно: ^а ^б «Дополнительная необходимая информация, связанная с кодированием» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 7 января 2015 г.
^ Перейти обратно: ^а ^б ^с Стандарт кодирования WHATWG , раздел 2 («Безопасность»).
^ Перейти обратно: ^а ^б ^с Стандарт кодирования WHATWG , глава 4.2 («Имена и метки»), привязка «замена»
^ Перейти обратно: ^а ^б ^с ^д Стандарт кодирования WHATWG , раздел 14.1 («замена»)
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж RFC 1468 (1993)
^ Перейти обратно: ^а ^б ^с «Идентификаторы кодовых страниц» . Центр разработки Windows . Майкрософт. Архивировано из оригинала 16 июня 2019 г. Проверено 16 сентября 2019 г.
^ Перейти обратно: ^а ^б Стандарт кодирования WHATWG , раздел 12.2 («ISO-2022-JP»)
^ Чанг, Хе-Шик. «Модули/cjkcodecs/_codecs_iso2022.c, строка 1122» . Дерево исходного кода cPython . Фонд программного обеспечения Python. Архивировано из оригинала 30 апреля 2022 г. Проверено 15 сентября 2019 г.
^ «кодеки — реестр кодеков и базовые классы § Стандартные кодировки» . Документация Python 3.7.4 . Фонд программного обеспечения Python. Архивировано из оригинала 28 июля 2019 г. Проверено 16 сентября 2019 г.
^ «2: Кодовые наборы и преобразование кодовых наборов» . Технический справочник DIGITAL UNIX по использованию японских функций . Корпорация цифрового оборудования , Compaq . ^{[ мертвая ссылка ]}
^ Перейти обратно: ^а ^б Лунде (2008) , стр. 236–238, глава 4 («Методы кодирования»), раздел «Предшественник кодировки ISO-2022-JP — кодировка JIS».
^ RFC 1554 (1993)
^ RFC 2237 (1997)
^ «PQ02042: Новая функция для поддержки C/370 iconv() для японского ISO-2022-JP» . ИБМ . 19 января 2021 г. Архивировано из оригинала 4 января 2022 г. Проверено 4 января 2022 г.
^ Перейти обратно: ^а ^б «CCSID 9148» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
^ «CCSID 956» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 2 декабря 2014 г.
^ «CCSID 957» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 30 ноября 2014 г.
^ «CCSID 958» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 1 декабря 2014 г.
^ «CCSID 959» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 2 декабря 2014 г.
^ «CCSID 5052» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
^ «CCSID 5053» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
^ «CCSID 5054» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
^ «CCSID 5055» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.
^ Перейти обратно: ^а ^б RFC 1557 (1993)
^ «КС Х 1001:1992» (PDF) . Архивировано (PDF) из оригинала 26 сентября 2007 г. Проверено 12 июля 2007 г.
^ ИСО-ИР-149 (1988)
^ Перейти обратно: ^а ^б ^с ^д РФК 1922 (1996)
^ «CVE-2024-2961» .
^ «Уязвимость GLIBC на серверах, обслуживающих PHP» .
^ ECMA-43 (1991) , стр. 9–10, глава 8 («Уровни»).
^ ECMA-43 (1985) , стр. 7–11, глава 7.3 («Набор G0»)
^ ECMA-43 (1991) , стр. 6–8, глава 7.4 («Набор G0»)
^ ECMA-43 (1991) , с. 11, глава 10.3 («Идентификация версии»)
^ Перейти обратно: ^а ^б ECMA-43 (1991) , с. 23, приложение E («Основные различия между вторым изданием (1985 г.) и настоящим (третьим) изданием настоящего стандарта ECMA»)
^ ИПТК (1995). Рекомендуемый формат сообщения IPTC (PDF) (5-е изд.). IPTC TEC 7901. Архивировано (PDF) из оригинала 25 января 2022 г. Проверено 14 января 2020 г.
^ ECMA-43 (1991) , стр. 10, глава 9.2 («Уникальное кодирование символов»)
^ ван Винген, Йохан В. (1999). «8. Расширение кода, ISO 2022 и 2375, ISO 4873 и 10367» . Наборы символов. Буквы, жетоны и коды . Терена. Архивировано из оригинала 01 августа 2020 г. Проверено 2 октября 2019 г.
^ ECMA-43 (1991) , стр. 10–11, глава 10 («Идентификация версии и уровня»)
^ ИБМ . «Архитектура представления символьных данных (CDRA)» . ИБМ . стр. 157–162. Архивировано из оригинала 23 июня 2019 г. Проверено 18 июня 2020 г.
^ Шайфлер (1989)
^ Шайфлер (1989) , § Управляющие персонажи
^ Шайфлер (1989) , § Направленность
^ Шайфлер (1989) , § Кодировки стандартного набора символов
^ Шайфлер (1989) , § Утвержденные стандартные кодировки
^ «DICOM PS3.2 2016d — соответствие; D.6.2 Наборы символов; D.6 Поддержка наборов символов» . Архивировано из оригинала 16 февраля 2020 г. Проверено 21 мая 2020 г.
^ «Вариант DICOM ISO 2022» . Архивировано из оригинала 30 апреля 2013 г. Проверено 25 июля 2009 г.
^ Перейти обратно: ^а ^б Сивонен, Анри (17 декабря 2018 г.). «(НЕОТПРАВЛЕННЫЙ ЧЕРНОВИК) Нет генерации U + FFFD для содержимого ASCII-состояния нулевой длины между Escape-последовательностями ISO-2022-JP» (PDF) . Архивировано (PDF) из оригинала 21 февраля 2019 г. Проверено 21 февраля 2019 г.
^ «935453 — Соберите телеметрию о HZ и других кодировках, которые мы можем попытаться удалить» . Архивировано из оригинала 19 мая 2017 г. Проверено 18 июня 2018 г.
^ Дэвис, Марк; Суиньяр, Мишель (19 сентября 2014 г.). «3.6.2 Некоторые выходные данные для всех входных данных» . Технический отчет Unicode № 36: Вопросы безопасности Unicode (версия 15) . Консорциум Юникод. Архивировано из оригинала 22 февраля 2019 г. Проверено 21 февраля 2019 г.

Другие опубликованные работы, цитируемые

Лунде, Кен (2008). Обработка информации CJKV (2-е изд.). О'Рейли Медиа . ISBN 9780596514471 .

Дальнейшее чтение

Лунде, Кен (1998). Обработка информации CJKV . Кембридж, Массачусетс: O'Reilly & Associates . ISBN 1-56592-224-7 .

Внешние ссылки

ИСО/МЭК 2022:1994.
ИСО/МЭК 2022:1994/Кор 1:1999
ECMA-35 , эквивалент ISO/IEC 2022, доступен для бесплатной загрузки.
Международный реестр наборов кодированных символов, которые будут использоваться с Escape-последовательностями , полный список назначенных наборов символов и их escape-последовательностей.
История кодов символов в Северной Америке, Европе и Восточной Азии с 1999 г., ред. 2004 г.
Кена Лунде : CJK.INF документ по кодированию китайского, японского и корейского (CJK) языков, включая обсуждение различных вариантов ISO/IEC 2022.

[20] Японский : 区 , латинизированный : кутен ; китайский : местоположение ; пиньинь : qūwèi ; корейский : 행렬 ; RR : хэннёль ; 点

[21] Японский : 区 , латинизированный : ку , букв. 'зона'; Китайский : 区 ; пиньинь : цю ; Корейский 행: Ханджа : 行 ; RR : Хэнг

[22] Японский : 点 , латинизированный : десять , букв. 'точка'; Китайский : 位 ; пиньинь : вэй ; горит. 'позиция'; Корейский : 열 ; Ханджа : 列 ; РР : йёль

[23] Японский : 面 , латинизированный : мужчины , букв. 'лицо'

[legacygzdm4-101] Перейти обратно: ^а ^б Указано для F байтов 0x40 ( @), 0x41 ( A) и 0x42 ( B) только по историческим причинам. ^[89] В некоторых реализациях, таких как SoftBank 2G кодирование смайлов , используются дополнительные escape-символы этой формы для целей, не соответствующих ISO-2022. ^[96]

[102] Внесено в список MARC-8 . ^[3] См. сноску для ESC , F ниже для фона.

[104] F , скорректированный в диапазоне 1-63, указывает, какая (совместимая с предыдущими версиями) версия следующей регистрации необходима, чтобы старые системы знали, что они устарели. ^[97]

[106] В более ранних выпусках наборов из 96 символов не существовало, а escape-коды, которые теперь используются для наборов из 96 символов, были зарезервированы как место для дополнительных наборов из 94 символов. Соответственно, ESC 0x1B 0x2C последовательность была определена в ранних редакциях стандарта как обозначение дальнейших наборов из 94 символов для G0. ^[98] Поскольку наборы из 96 символов не могут быть обозначены как G0, этот первый байт I не используется текущей редакцией стандарта. Однако он по-прежнему указан в MARC-8 . ^[3]

[125] См. также, например, Printronix (2012 г.), Справочное руководство программиста OKI® (PDF) , стр. 26 для более новой системы, которая использует ESC ( H для переключения на ASCII из DBCS.

[1] ECMA-35 (1994) , Краткая история

[2] ECMA-35 (1994) , с. 51, приложение Д

[marc-escs-3] Перейти обратно: ^а ^б ^с ^д ^и «Техника 2: Использование стандартных альтернативных наборов графических символов» . MARC 21 Спецификации для структуры записи, наборов символов и носителей обмена . Библиотека Конгресса . 05.12.2007. Архивировано из оригинала 22 июля 2020 г. Проверено 19 июля 2020 г.

[4] «ECMA-35: Структура кода символов и методы расширения (веб-страница)» . Экма Интернешнл . Архивировано из оригинала 25 апреля 2022 г. Проверено 27 апреля 2022 г.

[8.1-5] Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , стр. 15–16, глава 8.1.

[ch13-6] Перейти обратно: ^а ^б ECMA-35 (1994) , глава 13

[ch12_14-7] Перейти обратно: ^а ^б ECMA-35 (1994) , главы 12, 14

[ch11-8] Перейти обратно: ^а ^б ECMA-35 (1994) , глава 11

[8859-10-s1-9] Перейти обратно: ^а ^б ^с ^д ^и ISO/IEC FDIS 8859-10 (1998) , стр. 1, глава 1 («Объем применения»)

[ecma-144-s1-10] Перейти обратно: ^а ^б ^с ^д ^и ECMA-144 (2000) , с. 1, глава 1 («Объем применения»)

[lundeeuc-11] Перейти обратно: ^а ^б ^с ^д ^и ^ж Лунде (2008) , стр. 242–245, глава 4 («Методы кодирования»), раздел «Кодирование EUC».

[lundeeucvs-12] Перейти обратно: ^а ^б ^с ^д Лунде (2008) , стр. 253–255, глава 4 («Методы кодирования»), раздел «Кодировки EUC и ISO-2022».

[iso-ir-196-13] Перейти обратно: ^а ^б ИСО-ИР-196 (1996 г.)

[xtctrlesc-14] Перейти обратно: ^а ^б ^с Мой, Эдвард; Гильдеа, Стивен; Дикки, Томас. «Управление, начинающееся с ESC» . Управляющие последовательности XTerm . Архивировано из оригинала 10 октября 2019 г. Проверено 4 октября 2019 г.

[15] ECMA-35 (1994) , главы 6, 7.

[16] ECMA-35 (1994) , глава 8

[17] ECMA-35 (1994) , глава 9

[ch15-18] Перейти обратно: ^а ^б ECMA-35 (1994) , глава 15

[lunde2022-19] Лунде (2008) , стр. 228–234, глава 4 («Методы кодирования»), раздел «Кодирование ISO-2022»

[lundekuten-24] Лунде (2008) , стр. 19–20, Глава 1 («Обзор обработки информации CJKV»), раздел «Что такое строка-ячейка и плоская-строка-ячейка?»

[25] ECMA-35 (1994) , с. 4, определение 4.11

[26] ECMA-35 (1994) , с. 5, определение 4.18

[27] См., например, ISO-IR-14 (1975) , определяющий обозначение G0 римского набора JIS X 0201 как ESC 2/8 4/10.

[28] ECMA-35 (1994) , с. 5, глава 5.1

[29] См., например, RFC 1468 (1993) , определяющий обозначение G0 римского набора JIS X 0201 как ESC ( J.

[30] ECMA-35 (1994) , с. 7, глава 6.2

[31] ECMA-35 (1994) , с. 10, глава 6.3.2

[32] ECMA-35 (1994) , с. 4, определение 4.17

[33] ECMA-35 (1994) , с. 4, определение 4.14

[13.1-34] ECMA-35 (1994) , с. 28, глава 13.1

[13.3.3-35] Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 33, глава 13.3.3

[36] ECMA-48 (1991) , стр. 24–26, глава 5.4.

[6.4.3-37] Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 11, глава 6.4.3

[38] ИСО-ИР-208 (1999)

[39] ИСО-ИР-155 (1990)

[40] ИСО-ИР-164 (1992)

[6.3.3-41] Перейти обратно: ^а ^б ECMA-35 (1994) , с. 10, глава 6.3.3

[42] Google Inc. (2014). "ansi.go, строка 134" . Библиотека escape-последовательностей ANSI для Go . Архивировано из оригинала 30 апреля 2022 г. Проверено 14 сентября 2019 г.

[43] ECMA-43 (1991) , с. 5, глава 7 («Спецификация символов 8-битного кода»)

[8859-10-s6-44] ISO/IEC FDIS 8859-10 (1998) , стр. 3, глава 6 («Спецификация кодированного набора символов»)

[ecma-144-s6-45] ECMA-144 (2000) , с. 3, глава 6 («Спецификация кодированного набора символов»)

[46] ECMA-43 (1991) , с. 19, приложение С («Композитные графические символы»)

[6.4.1-47] Перейти обратно: ^а ^б ECMA-35 (1994) , с. 10, глава 6.4.1

[6.4.4-48] Перейти обратно: ^а ^б ECMA-35 (1994) , с. 11, глава 6.4.4

[6.4.2-49] Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 11, глава 6.4.2

[50] ИСО-ИР-104 (1985)

[51] ИСО-ИР-1 (1975)

[8.5.1-52] Перейти обратно: ^а ^б ECMA-35 (1994) , с. 19, глава 8.5.1

[8.5.2-53] Перейти обратно: ^а ^б ECMA-35 (1994) , с. 19, глава 8.5.2

[ecma-43-7.6-54] ECMA-43 (1991) , с. 8, глава 7.6 («Набор C1»)

[13.12.1-55] Перейти обратно: ^а ^б ECMA-35 (1994) , с. 29, глава 13.2.1

[6.5.1-56] Перейти обратно: ^а ^б ECMA-35 (1994) , с. 12, глава 6.5.1

[6.5.2-57] ECMA-35 (1994) , с. 12, глава 6.5.2

[irfixctrl-58] Перейти обратно: ^а ^б ^с ИСО-ИР , с. 19, глава 2.7 («Отдельные функции управления»)

[6.5.4-59] ECMA-35 (1994) , с. 12, глава 6.5.4

[60] ECMA-48 (1991) , глава 5.5.

[ris-61] ISO/TC 97/SC 2 (30 декабря 1976 г.). Возврат к исходному состоянию (RIS) (PDF) . ITSCJ/ IPSJ . ИСО-ИК -35. {{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )

[6.5.3-62] ECMA-35 (1994) , с. 12, глава 6.5.3

[table2-63] Перейти обратно: ^а ^б ECMA-35 (1994) , с. 14, глава 7.3, таблица 2

[64] ИСО-ИР-14 (1975)

[T.51-amd1995-65] Перейти обратно: ^а ^б МСЭ-Т (11 августа 1995 г.). Рекомендация T.51 (1992 г.) Поправка 1 . Архивировано из оригинала 2 августа 2020 г. Проверено 25 декабря 2019 г.

[reg106-66] ИСО-ИР-106 (1985)

[67] ECMA-35 (1994) , с. 15, глава 7.3, примечание 23

[reg140-68] ИСО-ИР-140 (1987)

[reg7-69] ИСО-ИР-7 (1975)

[reg26-70] ИСО-ИР-26 (1976)

[reg36-71] ИСО-ИР-36 (1977)

[72] ECMA-35 (1980) , с. 8, глава 5.1.7

[harvp|ISO-IR-105|1985-73] Перейти обратно: ^а ^б ИСО-ИР-105 (1985 г.)

[8.3.1-74] Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 17, глава 8.3.1

[9.3.1-75] Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , с. 23, глава 9.3.1

[8.4-76] Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 19, глава 8.4

[8.3.2-77] Перейти обратно: ^а ^б ^с ECMA-35 (1994) , с. 17, глава 8.3.2

[9.4-78] ECMA-35 (1994) , стр. 23–24, глава 9.4.

[11.1-79] ECMA-35 (1994) , с. 27, глава 11.1

[8.3.3-80] ECMA-35 (1994) , с. 17, глава 8.3.3

[81] ECMA-35 (1994) , с. 47, приложение Б

[irintro-82] ИСО-ИК , с. 2, глава 1 («Введение»)

[83] ИСО/МЭК 2375 (2003)

[sp-84] Перейти обратно: ^а ^б «Обработка декларации SGML в SP» . SP: система SGML, соответствующая международному стандарту ISO 8879 .

[85] «20: Декларация SGML HTML 4» . Спецификация HTML 4.01 . W3C .

[irsecond94-86] ИСО-ИК , с. 10, глава 2.2 («Набор графических символов из 94 символов со вторым промежуточным байтом»)

[87] ARIB STD-B24 (2008) , с. 39, часть 2, Таблица 7-3

[88] Масчек, Свен; Ле Бретон, Стефан; Гамильтон, Ричард Л. «Об« альтернативном наборе символов рисования линий » » . ~sven_mascheck/ . Архивировано из оригинала 29 декабря 2019 г. Проверено 8 января 2020 г.

[14.4-89] ECMA-35 (1994) , с. 36, глава 14.4

[note48-90] ECMA-35 (1994) , с. 36, глава 14.4.2, примечание 48

[note47-91] ECMA-35 (1994) , с. 36, глава 14.4.2, примечание 47

[92] ETS 300 706 (1997) , с. 103, глава 14 («Динамически переопределяемые символы»)

[14.3.2-93] Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д ECMA-35 (1994) , стр. 35–36, глава 14.3.2.

[iso10646czdc1d-94] ISO/IEC 10646 (2017) , стр. 19–20, глава 12.4 («Идентификация набора функций управления»)

[table5-95] ECMA-35 (1994) , с. 32, таблица 5

[15.2-96] Перейти обратно: ^а ^б ^с ECMA-35 (1994) , стр. 37–41, глава 15.2.

[14.2.2-97] ECMA-35 (1994) , с. 34, глава 14.2.2

[14.2.3-98] ECMA-35 (1994) , с. 34, глава 14.2.3

[99] Цифровой . «DECDWL — линия двойной ширины и одинарной высоты» . Информация о программаторе видеотерминала VT510 . Архивировано из оригинала 2 августа 2020 г. Проверено 17 января 2020 г.

[100] Кавасаки, Юсуке (2010). «Кодировать::JP::Emoji::Кодировка» . Кодировать-JP-Emoji . Строка 268. Архивировано из оригинала 30 апреля 2022 г. Проверено 28 мая 2020 г.

[14.5-103] ECMA-35 (1994) , стр. 36–37, глава 14.5.

[105] ECMA-35 (1980) , стр. 14–15, глава 5.3.7.

[irdocs-107] Перейти обратно: ^а ^б ^с ^д ИСО-ИР , с. 20, глава 2.8.1 («Системы кодирования со стандартным возвратом»)

[15.4-108] Перейти обратно: ^а ^б ^с ^д ECMA-35 (1994) , стр. 41–42, глава 15.4.

[irdocsslash-109] Перейти обратно: ^а ^б ^с ^д ^и ИСО-ИР , с. 21, глава 2.8.2 («Системы кодирования без стандартного возврата»)

[15.3-110] ECMA-35 (1994) , с. 41, глава 15.3

[iso10646docs-111] Перейти обратно: ^а ^б ^с ISO/IEC 10646 (2017) , стр. 19, глава 12.2 («Идентификация схемы кодирования UCS»)

[112] ISO/IEC 10646 (2017) , стр. 18–19, глава 12.1 («Цель и контекст идентификации»).

[iso-ir-192-113] ИСО-ИР-192 (1996)

[114] ИСО-ИР-195 (1996)

[iso10646stdret-115] ISO/IEC 10646 (2017) , с. 20, глава 12.5 («Идентификация системы кодирования ISO/IEC 2022»)

[scheiflerdocs-116] Перейти обратно: ^а ^б Шайфлер (1989) , § Кодировки нестандартных наборов символов

[lunde2022rfcs-117] Лунде (2008) , стр. 229–230, глава 4 («Методы кодирования»), раздел «Кодировка ISO-2022» «Те кодировки, которые широко использовались в прошлом или продолжают использоваться сегодня для некоторых целей, были выделены».

[ibmacri-118] Перейти обратно: ^а ^б «Дополнительная необходимая информация, связанная с кодированием» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 7 января 2015 г.

[whatwg-security-119] Перейти обратно: ^а ^б ^с Стандарт кодирования WHATWG , раздел 2 («Безопасность»).

[whatwg-replacement-labels-120] Перейти обратно: ^а ^б ^с Стандарт кодирования WHATWG , глава 4.2 («Имена и метки»), привязка «замена»

[whatwg-replacement-121] Перейти обратно: ^а ^б ^с ^д Стандарт кодирования WHATWG , раздел 14.1 («замена»)

[rfc1468-122] Перейти обратно: ^а ^б ^с ^д ^и ^ж RFC 1468 (1993)

[wdc-123] Перейти обратно: ^а ^б ^с «Идентификаторы кодовых страниц» . Центр разработки Windows . Майкрософт. Архивировано из оригинала 16 июня 2019 г. Проверено 16 сентября 2019 г.

[whatwgiso2022jp-124] Перейти обратно: ^а ^б Стандарт кодирования WHATWG , раздел 12.2 («ISO-2022-JP»)

[126] Чанг, Хе-Шик. «Модули/cjkcodecs/_codecs_iso2022.c, строка 1122» . Дерево исходного кода cPython . Фонд программного обеспечения Python. Архивировано из оригинала 30 апреля 2022 г. Проверено 15 сентября 2019 г.

[127] «кодеки — реестр кодеков и базовые классы § Стандартные кодировки» . Документация Python 3.7.4 . Фонд программного обеспечения Python. Архивировано из оригинала 28 июля 2019 г. Проверено 16 сентября 2019 г.

[decunix-128] «2: Кодовые наборы и преобразование кодовых наборов» . Технический справочник DIGITAL UNIX по использованию японских функций . Корпорация цифрового оборудования , Compaq . ^{[ мертвая ссылка ]}

[lundejisenc-129] Перейти обратно: ^а ^б Лунде (2008) , стр. 236–238, глава 4 («Методы кодирования»), раздел «Предшественник кодировки ISO-2022-JP — кодировка JIS».

[130] RFC 1554 (1993)

[131] RFC 2237 (1997)

[132] «PQ02042: Новая функция для поддержки C/370 iconv() для японского ISO-2022-JP» . ИБМ . 19 января 2021 г. Архивировано из оригинала 4 января 2022 г. Проверено 4 января 2022 г.

[ibm-9148-133] Перейти обратно: ^а ^б «CCSID 9148» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[134] «CCSID 956» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 2 декабря 2014 г.

[135] «CCSID 957» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 30 ноября 2014 г.

[136] «CCSID 958» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 1 декабря 2014 г.

[137] «CCSID 959» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 2 декабря 2014 г.

[138] «CCSID 5052» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[139] «CCSID 5053» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[140] «CCSID 5054» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[141] «CCSID 5055» . Идентификаторы наборов символов в кодировке IBM Globalization . ИБМ . Архивировано из оригинала 29 ноября 2014 г.

[rfc1557-142] Перейти обратно: ^а ^б RFC 1557 (1993)

[ksx-143] «КС Х 1001:1992» (PDF) . Архивировано (PDF) из оригинала 26 сентября 2007 г. Проверено 12 июля 2007 г.

[ksc-144] ИСО-ИР-149 (1988)

[rfc1922-145] Перейти обратно: ^а ^б ^с ^д РФК 1922 (1996)

[gconv-vulnerability-146] «CVE-2024-2961» .

[gconv-workaround-147] «Уязвимость GLIBC на серверах, обслуживающих PHP» .

[ecma-43-8-148] ECMA-43 (1991) , стр. 9–10, глава 8 («Уровни»).

[149] ECMA-43 (1985) , стр. 7–11, глава 7.3 («Набор G0»)

[ecma-43-7.4-150] ECMA-43 (1991) , стр. 6–8, глава 7.4 («Набор G0»)

[ecma-43-10.3-151] ECMA-43 (1991) , с. 11, глава 10.3 («Идентификация версии»)

[ecma-43-annexE-152] Перейти обратно: ^а ^б ECMA-43 (1991) , с. 23, приложение E («Основные различия между вторым изданием (1985 г.) и настоящим (третьим) изданием настоящего стандарта ECMA»)

[iptc7901-153] ИПТК (1995). Рекомендуемый формат сообщения IPTC (PDF) (5-е изд.). IPTC TEC 7901. Архивировано (PDF) из оригинала 25 января 2022 г. Проверено 14 января 2020 г.

[ecma-43-9.2-154] ECMA-43 (1991) , стр. 10, глава 9.2 («Уникальное кодирование символов»)

[vanWingen-155] ван Винген, Йохан В. (1999). «8. Расширение кода, ISO 2022 и 2375, ISO 4873 и 10367» . Наборы символов. Буквы, жетоны и коды . Терена. Архивировано из оригинала 01 августа 2020 г. Проверено 2 октября 2019 г.

[ecma-43-10-156] ECMA-43 (1991) , стр. 10–11, глава 10 («Идентификация версии и уровня»)

[cdra-157] ИБМ . «Архитектура представления символьных данных (CDRA)» . ИБМ . стр. 157–162. Архивировано из оригинала 23 июня 2019 г. Проверено 18 июня 2020 г.

[158] Шайфлер (1989)

[159] Шайфлер (1989) , § Управляющие персонажи

[160] Шайфлер (1989) , § Направленность

[161] Шайфлер (1989) , § Кодировки стандартного набора символов

[162] Шайфлер (1989) , § Утвержденные стандартные кодировки

[163] «DICOM PS3.2 2016d — соответствие; D.6.2 Наборы символов; D.6 Поддержка наборов символов» . Архивировано из оригинала 16 февраля 2020 г. Проверено 21 мая 2020 г.

[DICOM-164] «Вариант DICOM ISO 2022» . Архивировано из оригинала 30 апреля 2013 г. Проверено 25 июля 2009 г.

[sivonen2018-165] Перейти обратно: ^а ^б Сивонен, Анри (17 декабря 2018 г.). «(НЕОТПРАВЛЕННЫЙ ЧЕРНОВИК) Нет генерации U + FFFD для содержимого ASCII-состояния нулевой длины между Escape-последовательностями ISO-2022-JP» (PDF) . Архивировано (PDF) из оригинала 21 февраля 2019 г. Проверено 21 февраля 2019 г.

[166] «935453 — Соберите телеметрию о HZ и других кодировках, которые мы можем попытаться удалить» . Архивировано из оригинала 19 мая 2017 г. Проверено 18 июня 2018 г.

[167] Дэвис, Марк; Суиньяр, Мишель (19 сентября 2014 г.). «3.6.2 Некоторые выходные данные для всех входных данных» . Технический отчет Unicode № 36: Вопросы безопасности Unicode (версия 15) . Консорциум Юникод. Архивировано из оригинала 22 февраля 2019 г. Проверено 21 февраля 2019 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[a]

[b]

[c]

[d]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[e]

v т и Кодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун/Кана китайский кириллица корейский Бодо и Мюррей Полевые данные ASCII ИСО/МЭК 646 BCDIC-код Телетекс и Видеотекс / Телетекст Т.51/ИСО/МЭК 6937 ИТ Т.61 ИТ Т.101 Мировая система телетекста фон наборы Перекодировать
ИСО/МЭК 8859	Одобренные детали -1 (Западная Европа) -2 (Центральная Европа) -3 (мальтийский/эсперанто) -4 (Северная Европа) -5 (кириллица) -6 (арабский) -7 (греческий) -8 (иврит) -9 (турецкий) -10 (Скандинавия) -11 (тайский) -13 (Балтика) -14 (Селтик) -15 (Новая Западная Европа) -16 (румынский) Заброшенные части -12 (Деванагари) Предложено, но не одобрено КОИ-8 кириллица Саамы Адаптации валлийский Баренцева кириллица эстонский Украинская кириллица
Библиографическое использование	МАРК-8 АНСЕЛЬ CCII/EACC ИСО 5426 5426-2 5427 5428 6438 6862
Национальные стандарты	АрмSCII Большой5 БраSCII ЦНС 11643 DIN 66003 ЭЛОТ 927 ГОСТЬ 10859 ГБ 2312 ГБ 12345 ГБ 12052 ГБ 18030 HKSCS ИЩИС ДЖИС Х 0201 ДЖИС Х 0208 ДЖИС Х 0212 ДЖИС Х 0213 ТРЕБОВАНИЕ-7 КПС 9566 КС Х 1001 КС Х 1002 ЛСТ 1564 ЛСТ 1590-4 ПАСХА Сдвиг HE СИ 960 ТИС-620 ТСКИИ ВИСКИ VSCII ДЖОЗЕФ
ИСО/МЭК 2022	ИСО/МЭК 8859 ИСО/МЭК 10367 Расширенный код Unix/EUC
Mac OS Кодовые страницы («сценарии»)	Армянский арабский Баренцева кириллица Селтик Центральноевропейский хорватский кириллица Деванагари Фарси (персидский) Шрифт X (Кермит) гэльский грузинский Греческий Гуджарати Гурмухи иврит Исландия Инуиты Клавиатура Латынь (Кермит) Мальтийский/Эсперанто Огам Роман румынский Саамы турецкий Тюркская кириллица Украинский ВТ100
Кодовые страницы DOS	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1034 1040 1042 1043 1044 1098 1115 1116 1117 1118 1127 3846 АБИКОМП CS Индик CSX Индик CSX+ Индикация КРИ-2 Иранская система Каменицкий Мазовия ЧТО
Кодовые страницы IBM AIX	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1124 1133
Кодовые страницы Windows	ССЭР-ГС 932 936 ( ГБК ) 950 1169 Расширенная латиница-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий
EBCDIC Кодовые страницы	Японский язык в EBCDIC ДКОИ
DEC Терминалы ( VTx )	Многонациональный (MCS) Национальная замена (NRCS) Французский канадец швейцарский испанский Великобритания Голландский финский Французский норвежский и датский Шведский Норвежский и датский (альтернативный вариант) 8-битный греческий 8-битный турецкий СИ 960 иврит Специальная графика Технический (ТКС)
Зависит от платформы	1052 1053 1054 1055 1056 1057 1058 ОС Acorn RISC Амстрад КТК Яблоко II ПРИЛОЖЕНИЯ Атари СТ БИКС Калькуляторы Касио CDC Компюколор 8001 Компюколор II КП/М+ ОСНОВАНИЕ ДЕКАБРЯ 50 ДЭК МКС / НРКС Генеральный директор по международным делам Галактика драгоценный камень GSM 03.38 HP Роман HP ФОКАЛ ХП РПЛ Сжать ЛИКС ЛМБКС MSX НЭК БТР Следующий ПЕТСКИИ Стандарт PostScript Постскриптум латиница 1 СЭМ Купе Сега СК-3000 Калькуляторы Sharp Шарп МЗ Синклер, QL Телетекст Калькуляторы TI ТРС-80 Вентура Интернэшнл ВИСЦИИ XCCS ZX80 ZX81 ZX Спектр
Юникод / ИСО/МЭК 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC ГБ 18030 ОТ 91379 БУТЫЛКА-1 ЦЭСУ-8 ЮКГУ ТАСЕ16 Сравнение кодировок Unicode
TeX Система набора текста	Корк LY1 ОМЛ ОМС OT1
Разные кодовые страницы	АБИКОМП ЦЕЛЬ 449 Цифровое кодирование символов APL ИСО-ИР-68 АРИБ СТД-B24 Полевые данные ХЗ МЭК-П27-1 РАЗДРАЖЕННЫЙ 7-битный 8-битный ИСО-ИР-169 ИСО 2033 НЕОБХОДИМЫЙ КОИ8-Р КОИ8-RU КОИ8-У Модзикё СЕЗОНЫ Стэнфорд/ИТС Символ ТРОН Единый кодекс хангыль
Управляющий персонаж	Азбука Морзе Коды управления C0 и C1 ИСО/МЭК 6429 ДЖИС Х 0211 Управляющие символы Юникода, формат и символы-разделители Пробельные символы
Связанные темы	CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Кодовая страница оборудования MICR-код Моджибаке Кодирование переменной длины
Наборы символов

v т и Стандарты Ecma International
Application interfaces	ANSI escape code APIW Common Language Infrastructure Office Open XML OpenXPS
File systems (tape)	Advanced Intelligent Tape DDS DLT Super DLT Linear Tape-Open (Ultrium-1) VXA
File systems (disk)	CD-ROM CD File System (CDFS) FAT FAT12 FAT16 FAT16B FD UDF Ultra Density Optical Universal Media Disc Holographic Versatile Disc
Graphics	Universal 3D
Programming languages	C++/CLI C# Eiffel JavaScript (E4X, ECMAScript) Dart Minimal BASIC Full BASIC
Radio link interfaces	NFC UWB
Other	ECMA-35 JSON
List of Ecma standards (1961 – present)

v т и ISO Стандарты по номеру стандарта
List of ISO standards – ISO romanizations – IEC standards
1–9999	1 2 3 4 6 7 9 16 17 31 -0 -1 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 68-1 128 216 217 226 228 233 259 261 262 302 306 361 500 518 519 639 -1 -2 -3 -5 -6 646 657 668 690 704 732 764 838 843 860 898 965 999 1000 1004 1007 1073-1 1073-2 1155 1413 1538 1629 1745 1989 2014 2015 2022 2033 2047 2108 2145 2146 2240 2281 2533 2709 2711 2720 2788 2848 2852 2921 3029 3103 3166 -1 -2 -3 3297 3307 3601 3602 3864 3901 3950 3977 4031 4157 4165 4217 4909 5218 5426 5427 5428 5725 5775 5776 5800 5807 5964 6166 6344 6346 6373 6385 6425 6429 6438 6523 6709 6943 7001 7002 7010 7027 7064 7098 7185 7200 7498 -1 7637 7736 7810 7811 7812 7813 7816 7942 8000 8093 8178 8217 8373 8501-1 8571 8583 8601 8613 8632 8651 8652 8691 8805/8806 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -8-I -9 -10 -11 -12 -13 -14 -15 -16 8879 9000/9001 9036 9075 9126 9141 9227 9241 9293 9314 9362 9407 9496 9506 9529 9564 9592/9593 9594 9660 9797-1 9897 9899 9945 9984 9985 9995
10000–19999	10006 10007 10116 10118-3 10160 10161 10165 10179 10206 10218 10279 10303 -11 -21 -22 -28 -238 10383 10585 10589 10628 10646 10664 10746 10861 10957 10962 10967 11073 11170 11172 11179 11404 11544 11783 11784 11785 11801 11889 11898 11940 (-2) 11941 11941 (TR) 11992 12006 12052 12182 12207 12234-2 12620 13211 -1 -2 13216 13250 13399 13406-2 13450 13485 13490 13567 13568 13584 13616 13816 13818 14000 14031 14224 14289 14396 14443 14496 -2 -3 -6 -10 -11 -12 -14 -17 -20 14617 14644 14649 14651 14698 14764 14882 14971 15022 15189 15288 15291 15398 15408 15444 -3 -9 15445 15438 15504 15511 15686 15693 15706 -2 15707 15897 15919 15924 15926 15926 WIP 15930 15938 16023 16262 16355-1 16485 16612-2 16750 16949 (TS) 17024 17025 17100 17203 17369 17442 17506 17799 18004 18014 18181 18245 18629 18916 19005 19011 19092 -1 -2 19114 19115 19125 19136 19407 19439 19500 19501 19502 19503 19505 19506 19507 19508 19509 19510 19600 19752 19757 19770 19775-1 19794-5 19831
20000–29999	20000 20022 20121 20400 20802 20830 21000 21001 21047 21122 21500 21827 22000 22275 22300 22301 22395 22537 23000 23003 23008 23009 23090-3 23092 23094-1 23094-2 23270 23271 23360 23941 24517 24613 24617 24707 24728 25178 25964 26000 26262 26300 26324 27000 series 27000 27001 27002 27005 27006 27729 28000 29110 29148 29199-2 29500
30000+	30170 31000 32000 37001 38500 39075 40500 42010 45001 50001 55000 56000 80000
Category

v т и стандарты МЭК
IEC	60027 60034 60038 60062 60063 60068 60112 60228 60269 60297 60309 60320 60364 60446 60559 60601 60870 60870-5 60870-6 60906-1 60908 60929 60958 61030 61131 61131-3 61131-9 61158 61162 61334 61355 61360 61400 61499 61508 61511 61784 61850 61851 61883 61960 61968 61970 62014-4 62026 62056 62061 62196 62262 62264 62304 62325 62351 62365 62366 62379 62386 62455 62680 62682 62700 63110 63119 63382
ISO/IEC	646 1989 2022 4909 5218 6429 6523 7810 7811 7812 7813 7816 7942 8613 8632 8652 8859 9126 9293 9496 9529 9592 9593 9899 9945 9995 10021 10116 10165 10179 10279 10646 10967 11172 11179 11404 11544 11801 12207 13250 13346 13522-5 13568 13816 13818 14443 14496 14651 14882 15288 15291 15408 15444 15445 15504 15511 15693 15897 15938 16262 16485 17024 17025 18004 18014 18181 19752 19757 19770 19788 20000 20802 21000 21827 22275 22537 23000 23003 23008 23270 23360 24707 24727 24744 24752 26300 27000 27000-series 27002 27040 29110 29119 33001 38500 39075 42010 80000 81346
Related	International Electrotechnical Commission