GSM 03.38

В мобильной телефонии GSM 03.38 или 3GPP 23.038 — это кодировка символов, используемая в сетях GSM для SMS (служба коротких сообщений), CB ( сотовая трансляция ) и USSD (неструктурированные дополнительные служебные данные). Стандарт 3GPP TS 23.038 (первоначально рекомендация GSM 03.38) определяет 7-битный алфавит GSM по умолчанию , который является обязательным для телефонов GSM и сетевых элементов. ^[1] но набор символов подходит только для английского и ряда западноевропейских языков. Такие языки, как китайский, корейский или японский, необходимо передавать с использованием 16-битной кодировки символов UCS-2 . Ограниченное количество языков, таких как португальский , испанский , турецкий и ряд языков, используемых в Индии , написанных с помощью брахмических сценариев, могут использовать 7-битную кодировку с таблицей сдвига национального языка, определенной в 3GPP 23.038. Для двоичных сообщений используется 8-битная кодировка.

7-битный алфавит GSM по умолчанию и таблица расширений 3GPP TS 23.038 / GSM 03.38 [ править ]

Стандартной кодировкой сообщений GSM является 7-битный алфавит по умолчанию, как определено в рекомендации 23.038.

Семибитные символы должны быть закодированы в октеты в соответствии с одним из трех режимов упаковки:

CBS: используя эту кодировку, можно отправить до 93 символов (упакованных в до 82 октетов) в одном SMS-сообщении в службе сотового вещания.
SMS: используя эту кодировку, можно отправить до 160 символов (упакованных в до 140 октетов) в одном SMS-сообщении в сети GSM.
USSD: используя эту кодировку, можно отправить до 182 символов (упакованных до 160 октетов) в одном SMS-сообщении неструктурированных дополнительных служебных данных.

Базовый набор символов ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Д	СП	0	¡	П	¿	п
0x01	£	_	!	1	А	вопрос	а	д
0x02	$	Ф	"	2	Б	Р	б	р
0x03	¥	С	#	3	С	С	с	с
0x04	И	л	¤	4	Д	Т	д	т
0x05	и	Ой	%	5	И	В	и	в
0x06	ты	П	&	6	Ф	V	ж	v
0x07	я	P.S.	'	7	Г	В	г	В
0x08	ò	С	(	8	ЧАС	Х	час	х
0x09	Что	че	)	9	я	И	я	и
0x0A	НЧ	Х	*	:	Дж	С	дж	С
0x0B	Ø	ЭКУ	+	;	К	Ä	к	ä
0x0C	ø	Ой	,	<	л	ОН	л	он
0x0D	ЧР	ой	-	=	М	С	м	н
0x0E	Ой	SS	.	>	Н	О	н	ты
0x0F	к	И	/	?	ТО	§	тот	имеет

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это таблица расширения Escape (сопоставляется с NBSP).
SP — космический персонаж.

Расширение базового набора символов ^[2]
	0x00	0x10	0x20	0x30	0x40	0x60
0x00					\|
0x01
0x02
0x03
0x04		^
0x05						€
0x06
0x07
0x08			{
0x09			}
0x0A	ФФ
0x0B		СС2
0x0C				[
0x0D	CR2			~
0x0E				]
0x0F			\

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Важно (особенно, когда сообщение должно быть сегментировано с использованием механизма объединения SMS ), чтобы символы из таблицы базового набора символов занимали один септет, а символы из таблицы расширения базового набора символов - два септета.

Обратите внимание, что вторая часть таблицы доступна только в том случае, если устройство GSM поддерживает механизм 7-битного расширения с использованием символьного префикса ESC. В противном случае сам код ESC интерпретируется как пробел, и следующий символ будет обрабатываться так, как если бы ведущего кода ESC не было.

Большая часть верхней части таблицы не используется в наборе символов по умолчанию, но стандарт GSM определяет некоторые индикаторы кода языка, которые позволяют системе идентифицировать национальные варианты этой части и поддерживать больше символов, чем показано в таблице выше.

В стандартном текстовом сообщении GSM все символы кодируются с использованием 7-битных кодовых единиц, упакованных вместе для заполнения всех битов октетов. Так, например, конверт SMS длиной 140 октетов , ^[3] без индикатора другого языка, а только со стандартным префиксом класса, может передавать до (140*8)/7=160, то есть 160 7-битных символов GSM (но учтите, что код ESC засчитывается для одного из них, если символы в используется верхняя часть таблицы).

Можно отправлять более длинные сообщения, но для последующих SMS-сообщений потребуется префикс продолжения и порядковый номер (эти байты префикса и порядковый номер учитываются в пределах максимальной длины 140-байтовой полезной нагрузки формата конверта).

Если в последнем октете сообщения имеется от 1 до 6 запасных битов, эти биты устанавливаются в ноль (эти биты считаются не символом, а только заполнителем). Если в последнем октете сообщения имеется 7 запасных битов, эти биты устанавливаются в 7-битный код элемента управления CR (также используемый в качестве заполнителя), а не устанавливаются в ноль (где их можно спутать с 7-битный код символа «@»).

Эта 7-битная кодировка позволяет транспортировать тексты, состоящие из печатных символов базовой латиницы (блок Unicode) (за исключением знака «гравитация»/обратной кавычки), а также некоторых символов набора символов ISO Latin 1. Он также позволяет кодировать тексты, написанные греческим шрифтом, но только заглавными буквами; для такого использования в греческом языке латинские заглавные буквы, которые выглядят как греческие буквы, повторно используются с тем же кодом, так что приведенный выше набор символов является полным только для современного монотонного греческого языка, ограниченного заглавными буквами. Полная поддержка греческого алфавита (включая строчные буквы) требует национальной версии сдвинутой 7-битной таблицы (с использованием кода ESC для каждого национального символа, закодированного в этой сдвинутой таблице), или неуказанной собственной 8-битной кодировки, или использование кодировки UCS-2 (см. ниже).

Обратите внимание, что специальный код, отмеченный SS2 в таблице выше, также был назначен (и закодирован как 0x1B, 0x1B), чтобы разрешить использование другой альтернативной 7-битной таблицы сдвига. Но этот механизм никогда не использовался, и предпочтение отдавалось кодировке UCS-2.

Обратите внимание, что символ 0x09 ( Ç , заглавная буква C с седилем) вместо этого должен быть заменен на ç (маленькая c с седилем) в современной реализации, как рекомендовано Unicode, ^[4] поскольку версия в верхнем регистре малопригодна.

8-битное кодирование данных GSM [ править ]

Режим 8-битного кодирования данных обрабатывает информацию как необработанные данные. Согласно стандарту, алфавит для этой кодировки зависит от пользователя.

Кодировка UCS-2 [ править ]

Эта кодировка позволяет использовать более широкий диапазон символов и языков. UCS-2 может отображать наиболее часто используемые латинские и восточные символы за счет больших затрат места. Строго говоря, UCS-2 ограничен символами базовой многоязычной плоскости . Однако, поскольку современные среды программирования не предоставляют кодировщиков или декодеров для UCS-2, некоторые сотовые телефоны (например, iPhone ) используют UTF-16 вместо UCS-2. ^[5] Это работает, поскольку для символов в базовой многоязычной плоскости (включая полные алфавиты большинства современных человеческих языков) кодировки UCS-2 и UTF-16 идентичны. Для кодирования символов за пределами BMP (недоступных в обычном UCS-2), таких как Emoji , UTF-16 использует суррогатные пары , которые при декодировании с помощью UCS-2 будут выглядеть как две действительные, но несопоставленные кодовые точки .

Одно SMS-сообщение GSM с использованием этой кодировки может содержать не более 70 символов (140 октетов).

Обратите внимание, что на многих сотовых телефонах GSM нет специального предварительного выбора кодировки UCS-2. По умолчанию используется 7-битная кодировка, описанная выше, до тех пор, пока не будет введен символ, которого нет в 7-битной таблице GSM (например, строчная буква «a» с острым знаком: «á»). В этом случае все сообщение перекодируется с использованием кодировки UCS-2, а максимальная длина сообщения, отправляемого в одном SMS, сразу уменьшается до 70 символов вместо 160. Другие варьируются в зависимости от выбора и конфигурации SMS-приложения. и длина сообщения ^{[ нужна ссылка ]}.

Чтобы избежать непредвиденных расходов для отправителей, имеющих подписку на ограниченный пакет отправляемых SMS, приложения должны ^{[ по мнению кого? ]} отображать количество используемых символов и максимальное количество символов в составленном SMS. Когда сообщение превышает этот максимум, сообщение будет ^{[ нужны разъяснения ]} отправляться в виде нескольких последовательных SMS-сообщений, содержащих части сообщения (каждое из которых содержит порядковый номер, в каждой части которого также используется несколько начальных символов); эти части предназначены для ^{[ нужна ссылка ]} будет повторно собран получателем позже.

Некоторые приложения предупреждают пользователя, когда сообщение необходимо разделить, или даже отправляют более длинное сообщение в виде мультимедийного сообщения (MMS).

языков Таблицы смен национальных

Начиная с версии 8 стандарта 3GPP 23.038 от марта 2008 г., доступ к дополнительным наборам символов можно получить с помощью таблиц сдвига национального языка.

Эти таблицы позволяют использовать разные наборы символов в зависимости от языка, на котором будет написан текст. Выбор таблицы для данного сообщения выбирается в разделе «Заголовок пользовательских данных» SMS-сообщения и может быть указан для всего текста ( таблица блокировки сдвига, заменяющая стандартную 7-битную алфавитную таблицу GSM по умолчанию) или для одного символа ( одинарная таблица сдвига) . таблица, заменяющая таблицу расширений 7-битного алфавита GSM по умолчанию). Таблицы блокировки и односменной таблицы в одном сообщении возможны, если необходимо заменить как стандартную алфавитную таблицу по умолчанию, так и таблицу расширений алфавита по умолчанию.

Используя таблицу сдвига, сообщение по-прежнему может использовать 7-битную кодировку символов, но можно выбрать другой набор для правильного отображения символов с диакритическими знаками и символов, специфичных для языка. Это позволяет использовать до 155 символов, закодированных в 136 октетов (140 октетов минус 4 октета заголовка пользовательских данных , необходимых для указания использования таблицы сдвига и кода языка). В таблицах блокировки и односменной таблицы разрешено до 152 символов, закодированных в 133 октета (140 октетов минус 7-октетный заголовок пользовательских данных ).

Символы из любой таблицы блокировки блокировки занимают один септет, символы из таблицы одиночного сдвига (или таблицы расширения базового набора символов) занимают два септета.

Первоначально были указаны сменные таблицы только для турецкого языка; Испанский и португальский были добавлены в более поздних версиях версии 8. В версии 9 были представлены 10 языков, используемых в Индии, с использованием брахмического письма (бенгали, гуджарати, хинди, каннада, малаялам, ория, пенджаби, тамильский, телугу) и урду .

До сих пор не существует определенной таблицы национальных языковых сдвигов для французского, греческого, русского, болгарского, арабского, иврита и большинства центральноевропейских языков, которым требуется лучший охват, чем стандартный 7-битный набор символов по умолчанию и его 7-битный набор расширенных символов по умолчанию: если когда-либо будет составлен какой-либо символ, который не может быть представлен в этих 7-битных наборах GSM по умолчанию, сообщение будет автоматически перекодировано с использованием UCS-2 с эффектом деления более чем на два максимальной длины символов сообщений, которые могут быть отправлены. по цене одного SMS (когда сообщение разделено на несколько частей, в заголовке пользовательских данных необходимо еще несколько октетов для указания порядкового номера каждой части).

Хотя в редакции GSM 03.38 (еще в версии 4.0.1 от сентября 1994 г.) определены значения схемы кодирования данных для системы сотового вещания (CBS) для немецкого, английского, итальянского, французского, испанского, голландского, шведского, датского, финского языков. , норвежский, греческий и турецкий; с добавлением венгерского, польского, чешского, иврита, арабского, русского и исландского языков в более поздних версиях, для этих языков не были определены таблицы кодирования. Целью этого поля было исключительно определение языка сообщения.

Также нет таблицы языковых сдвигов для японского языка, написанного основными канами, корейского языка, написанного джамо хангыль, или китайского языка, написанного письмом хань. В Японии это часто не является проблемой, поскольку для обмена сообщениями здесь используются другие стандарты, помимо GSM и WAP. В двух других языках также слишком много различных символов, чтобы поместиться в 7-битную таблицу сдвига.

Испанский язык (латиница) [ править ]

Для испанского языка не существует специального набора символов Locking Shift. Использует базовый набор символов по умолчанию.

Базовый набор символов
по умолчанию
(Для испанского языка не определена блокировка таблицы смен) ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Д	СП	0	¡	П	¿	п
0x01	£	_	!	1	А	вопрос	а	д
0x02	$	Ф	"	2	Б	Р	б	р
0x03	¥	С	#	3	С	С	с	с
0x04	И	л	¤	4	Д	Т	д	т
0x05	и	Ой	%	5	И	В	и	в
0x06	ты	П	&	6	Ф	V	ж	v
0x07	я	P.S.	'	7	Г	В	г	В
0x08	ò	С	(	8	ЧАС	Х	час	х
0x09	Что	че	)	9	я	И	я	и
0x0A	НЧ	Х	*	:	Дж	С	дж	С
0x0B	Ø	ЭКУ	+	;	К	Ä	к	ä
0x0C	ø	Ой	,	<	л	ОН	л	он
0x0D	ЧР	ой	-	=	М	С	м	н
0x0E	Ой	SS	.	>	Н	О	н	ты
0x0F	к	И	/	?	ТО	§	тот	имеет

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для испанского языка
UDH содержит 0x24 0x01 0x02 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00					\|
0x01					На		на
0x02
0x03
0x04		^
0x05						О	€	ты
0x06
0x07
0x08			{
0x09	Что		}		В		в
0x0A	ФФ
0x0B		СС2
0x0C				[
0x0D	CR2			~
0x0E				]
0x0F			\		Ой		от

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Португальский язык (латиница) [ править ]

Блокировка набора символов Shift
для португальского языка
UDH содержит 0x25 0x01 0x03 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Д	СП	0	В	П	~	п
0x01	£	_	!	1	А	вопрос	а	д
0x02	$	й	"	2	Б	Р	б	р
0x03	¥	Что	#	3	С	С	с	с
0x04	ага	ИМЕЕТ	й	4	Д	Т	д	т
0x05	и	∞	%	5	И	В	и	в
0x06	ты	^	&	6	Ф	V	ж	v
0x07	в	\	'	7	Г	В	г	В
0x08	от	€	(	8	ЧАС	Х	час	х
0x09	Что	Ой	)	9	я	И	я	и
0x0A	НЧ	\|	*	:	Дж	С	дж	С
0x0B	ЗОНТИК	ЭКУ	+	;	К	Ã	к	ã
0x0C	Зонтик	Â	,	<	л	ОН	л	он
0x0D	ЧР	â	-	=	М	О	м	`
0x0E	На	Э	.	>	Н	О	н	ты
0x0F	на	И	/	?	ТО	§	тот	имеет

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для португальского языка
UDH содержит 0x24 0x01 0x03 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00					\|
0x01					ИМЕЕТ		Â
0x02		Ф
0x03		С
0x04		^
0x05	ага	Ой				О	€	ты
0x06		П
0x07		P.S.
0x08		С	{
0x09	Что	че	}		В		в
0x0A	ФФ
0x0B	ЗОНТИК	СС2				Ã		ã
0x0C	Зонтик			[		ОН		он
0x0D	CR2			~
0x0E	На			]
0x0F	на	Э	\		Ой		от	â

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Турецкий язык (латиница) [ править ]

Блокировка набора символов Shift
для турецкого языка
UDH содержит 0x25 0x01 0x01 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Д	СП	0	Я	П	Что	п
0x01	£	_	!	1	А	вопрос	а	д
0x02	$	Ф	"	2	Б	Р	б	р
0x03	¥	С	#	3	С	С	с	с
0x04	€	л	¤	4	Д	Т	д	т
0x05	и	Ой	%	5	И	В	и	в
0x06	ты	П	&	6	Ф	V	ж	v
0x07	я	P.S.	'	7	Г	В	г	В
0x08	ò	С	(	8	ЧАС	Х	час	х
0x09	Что	че	)	9	я	И	я	и
0x0A	НЧ	Х	*	:	Дж	С	дж	С
0x0B	Ğ	ЭКУ	+	;	К	Ä	к	ä
0x0C	г	Ш	,	<	л	ОН	л	он
0x0D	ЧР	ш	-	=	М	С	м	н
0x0E	Ой	SS	.	>	Н	О	н	ты
0x0F	к	И	/	?	ТО	§	тот	имеет

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для турецкого языка
UDH содержит 0x24 0x01 0x01 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00					\|
0x01
0x02
0x03						Ш	Что	ш
0x04		^
0x05							€
0x06
0x07					Ğ		г
0x08			{
0x09			}		Я		я
0x0A	ФФ
0x0B		СС2
0x0C				[
0x0D	CR2			~
0x0E				]
0x0F			\

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница урду ( арабский ) Язык

Его также можно использовать для языка синдхи, также написанного арабской графикой.

Иногда его можно использовать и для арабского языка , но восточные цифры (закодированные здесь в персидско-индуистском варианте) не будут использоваться в этом случае, поскольку стандартный арабский язык предпочитает свои традиционные восточно-арабские цифры и часто заменяется западными. Арабские цифры (закодированные в наборе символов блокирующего сдвига в столбце 0x30), которые теперь также часто используются в урду. Однако в Индии телефоны, распознающие арабский язык, могут заменять персидско-индуистские варианты восточно-арабских цифр традиционными восточно-арабскими цифрами.

Блокировка набора символов Shift
для языка урду
UDH содержит 0x25 0x01 0x0D ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	А	че	СП	0	п	г	◌ٔ	п
0x01	ну давай же	С	!	1	З	не	а	д
0x02	для	дж	д	2	я	левый	б	р
0x03	б	Дж	д	3	З	и	с	с
0x04	братан	идти	З	4	А	ۄ	д	т
0x05	п	что	Р	5	Ф	ە	и	в
0x06	ж	ж	д	6	вопрос	час	ж	v
0x07	Т	что	д	7	К	ЧАС	г	В
0x08	ага	ЧАС	)	8	К	А	час	х
0x09	че	Х	(	9	г	Да	я	и
0x0A	НЧ	принадлежащий	д	:	Г	Э	дж	С
0x0B	Т	ЭКУ	З	;	Миссис	Э	к	◌ٕ
0x0C	Т	д	,	хороший	Вторник	◌ٍ	л	◌ّ
0x0D	ЧР	Д	с	вопрос	к	◌ِ	м	◌ٓ
0x0E	настраивать	д	.	Ш	М	◌ُ	н	◌ٖ
0x0F	Т	доктор	Нет	?	Н	◌ٗ	тот	◌ٰ

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для языка урду
UDH содержит 0x24 0x01 0x0D ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	۴	◌ؓ	\|	П
0x01	£	=	۵	◌ؔ	А	вопрос
0x02	$	>	۶	؛	Б	Р
0x03	¥	¡	۷	؟	С	С
0x04	¿	^	۸	ـ	Д	Т
0x05	"	¡	۹	◌ْ	И	В	€
0x06	¤	_	،	◌٘	Ф	V
0x07	%	#	؍	٫	Г	В
0x08	&	*	{	٬	ЧАС	Х
0x09	'	؀	}	ٲ	я	И
0x0A	ФФ	؁	؎	А	Дж	С
0x0B	*	СС2	؏	й	К
0x0C	+	۰	◌ؐ	[	л
0x0D	CR2	۱	◌ؑ	~	М
0x0E	-	۲	◌ؒ	]	Н
0x0F	/	۳	\	۔	ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница хинди ( деванагари ) Язык

Блокировка набора символов Shift
для языка хинди
UDH содержит 0x25 0x01 0x06 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ँ	да	СП	0	б	◌ा	Ом	п
0x01	◌ं	О	!	1	Бх	◌ि	а	д
0x02	◌ः	О	Т	2	я	◌ी	б	р
0x03	А	О!	й	3	этот	◌ु	с	с
0x04	Приходить	Ой	Д	4	и	◌ू	д	т
0x05	и т. д.	К	й	5	р	◌ृ	и	в
0x06	Э	б	нет	6	л	◌ॄ	ж	v
0x07	ты	с	так	7	л	◌ॅ	г	В
0x08	он	д	)	8	л	◌ॆ	час	х
0x09	долг	е	(	9	И	◌े	я	и
0x0A	НЧ	ж	й	:	ш	◌ै	дж	С
0x0B	ऌ	ЭКУ	द	;	ш	◌ॉ	к	А
0x0C	А	является	,	нет	С	◌ॊ	л	ॻ
0x0D	ЧР	час	й	Пятая нота музыкальной гаммы	час	◌ो	м	ॼ
0x0E	Да	дж	.	Ф	◌़	◌ौ	н	ॾ
0x0F	А	дж	Нет	?	ऽ	◌्	тот	ॿ

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для языка хинди
UDH содержит 0x24 0x01 0x06 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	४	я	\|	П
0x01	£	=	५	д	А	вопрос
0x02	$	>	६	й	Б	Р
0x03	¥	¡	७	Ф	С	С
0x04	¿	^	८	й	Д	Т
0x05	"	¡	९	ॠ	И	В	€
0x06	¤	_	◌॑	ॡ	Ф	V
0x07	%	#	◌॒	◌ॢ	Г	В
0x08	&	*	{	◌ॣ	ЧАС	Х
0x09	'	।	}	॰	я	И
0x0A	ФФ	॥	◌॓	ॱ	Дж	С
0x0B	*	СС2	◌॔		К
0x0C	+	०	вопрос	[	л
0x0D	CR2	१	Х	~	М
0x0E	-	२	с	]	Н
0x0F	/	३	\		ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

базовая латиница Бенгальский и ассамский языки ( бенгальский и )

Блокировка набора символов Shift
для бенгальского и ассамского языков
UDH содержит 0x25 0x01 0x04 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ঁ	что	СП	0	◌ব	া	т	п
0x01	◌ং		!	1	Б	◌ি	а	д
0x02	◌ঃ		Т	2	м	◌ী	б	р
0x03	нет	И	час	3	дж	◌ু	с	с
0x04	А	Ой	доктор	4	Р	◌ূ	д	т
0x05	Э	а	Д	5		◌ৃ	и	в
0x06	Э	б	н	6	л	◌ৄ	ж	v
0x07	А	с	в	7			г	В
0x08	ты	д	)	8			час	х
0x09	Р	е	(	9		◌ে	я	и
0x0A	НЧ	ж	че	:	Ш	◌ৈ	дж	С
0x0B	ঌ	ЭКУ	Д	;	Ш		к	◌ৗ
0x0C		Г	,		С		л	д
0x0D	ЧР	час	Д	П	Да, это	◌ো	м	Д
0x0E		Джх	.	ж	◌়	◌ৌ	н	р
0x0F	А	Дж	Нет	?	ঽ	◌্	тот	ш

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для бенгальского и ассамского языков
UDH содержит 0x24 0x01 0x04 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	৬	৶	\|	П
0x01	£	=	৭	৷	А	вопрос
0x02	$	>	৮	৸	Б	Р
0x03	¥	¡	৯	৹	С	С
0x04	¿	^	й	৺	Д	Т
0x05	"	¡	ৠ		И	В	€
0x06	¤	_	ৡ		Ф	V
0x07	%	#	◌ৢ		Г	В
0x08	&	*	{		ЧАС	Х
0x09	'	০	}		я	И
0x0A	ФФ	১	◌ৣ		Дж	С
0x0B	*	СС2	৲		К
0x0C	+	২	৳	[	л
0x0D	CR2	৩	৴	~	М
0x0E	-	৪	৵	]	Н
0x0F	/	৫	\		ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

базовая латиница Язык пенджаби ( гурмукхи ) и

Блокировка набора символов Shift
для языка пенджаби
UDH содержит 0x25 0x01 0x0A ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ਁ	А	СП	0	б	◌ਾ	◌ੑ	п
0x01	◌ਂ		!	1	б	◌ਿ	а	д
0x02	◌ਃ		Т	2	м	◌ੀ	б	р
0x03	А	ой	й	3	Да	◌ੁ	с	с
0x04	Ну давай же	Ау	д	4	Р	◌ੂ	д	т
0x05	Э	К	Дх	5			и	в
0x06	Э	Х	Нет	6	л		ж	v
0x07	ты	с	Т	7	л		г	В
0x08	О	д	)	8			час	х
0x09		нравиться	(	9	Вт	◌ੇ	я	и
0x0A	НЧ	Ч	че	:	Ш	◌ੈ	дж	С
0x0B		ЭКУ	ਦ	;			к	◌ੰ
0x0C		Ч	,		С		л	◌ੱ
0x0D	ЧР	с	че	п	час	◌ੋ	м	с
0x0E		Джх	.	ж	◌਼	◌ੌ	н	а
0x0F	А	अ	Нет	?		◌੍	тот	я

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для языка пенджаби
UDH содержит 0x24 0x01 0x0A ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	੪		\|	П
0x01	£	=	੫		А	вопрос
0x02	$	>	੬		Б	Р
0x03	¥	¡	੭		С	С
0x04	¿	^	੮		Д	Т
0x05	"	¡	੯		И	В	€
0x06	¤	_	Х		Ф	V
0x07	%	#	д		Г	В
0x08	&	*	{		ЧАС	Х
0x09	'	।	}		я	И
0x0A	ФФ	॥	З		Дж	С
0x0B	*	СС2	д		К
0x0C	+	੦	ж	[	л
0x0D	CR2	੧	◌ੵ	~	М
0x0E	-	੨		]	Н
0x0F	/	੩	\		ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

базовая латиница Язык гуджарати ( гуджарати и )

Блокировка набора символов Shift
для языка гуджарати
UDH содержит 0x25 0x01 0x05 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ઁ	Ай	СП	0	б	◌ા	ૐ	п
0x01	◌ં	О	!	1	б	◌િ	а	д
0x02	◌ઃ		Т	2	м	◌ી	б	р
0x03	А	О	че	3	Да	◌ુ	с	с
0x04	Этот	Ой	доктор	4	рупий	◌ૂ	д	т
0x05	Э	К	д	5		◌ૃ	и	в
0x06	е	Х	н	6	л	◌ૄ	ж	v
0x07	А	с	Т	7	л	◌ૅ	г	В
0x08	О	д	)	8			час	х
0x09	рупий	அ	(	9	Вт	◌ે	я	и
0x0A	НЧ	Ч	че	:	Ш	◌ૈ	дж	С
0x0B	ઌ	ЭКУ	д	;	Ш	◌ૉ	к	ૠ
0x0C	А	Шесть	,		С		л	ૡ
0x0D	ЧР	Дж	ધ	П	ЧАС	◌ો	м	◌ૢ
0x0E		З	.	ж	◌઼	◌ૌ	н	◌ૣ
0x0F	А	эксперт	Нет	?	ઽ	◌્	тот	૱

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для языка гуджарати
UDH содержит 0x24 0x01 0x05 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	૪		\|	П
0x01	£	=	૫		А	вопрос
0x02	$	>	૬		Б	Р
0x03	¥	¡	૭		С	С
0x04	¿	^	૮		Д	Т
0x05	"	¡	૯		И	В	€
0x06	¤	_			Ф	V
0x07	%	#			Г	В
0x08	&	*	{		ЧАС	Х
0x09	'	।	}		я	И
0x0A	ФФ	॥			Дж	С
0x0B	*	СС2			К
0x0C	+	૦		[	л
0x0D	CR2	૧		~	М
0x0E	-	૨		]	Н
0x0F	/	૩	\		ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Язык ория (ория и базовая латиница) [ править ]

Блокировка набора символов Shift
для языка ория
UDH содержит 0x25 0x01 0x09 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ଁ	А	СП	0	б	◌ା	◌ୖ	п
0x01	◌ଂ		!	1	Бх	◌ି	а	д
0x02	◌ଃ		Т	2	м	◌ୀ	б	р
0x03	А	О	10	3	Дж	◌ୁ	с	с
0x04	А	А	доктор	4	из	◌ୂ	д	т
0x05	Э	а	д	5		◌ୃ	и	в
0x06	РС	б	заем	6	л	ୄ	ж	v
0x07	А	с	Так	7	л		г	В
0x08	ты	д	)	8			час	х
0x09	рупий	Н	(	9	ଵ	◌େ	я	и
0x0A	НЧ	Ч	че	:	Ш	◌ୈ	дж	С
0x0B	ଌ	ЭКУ	Д	;	рупий		к	◌ୗ
0x0C		Ч	,		С		л	ୠ
0x0D	ЧР	Дж	Д	П	Ха	◌ୋ	м	ୡ
0x0E		Дж	.	ж	◌଼	◌ୌ	н	◌ୢ
0x0F	А	Нет	Нет	?	б	◌୍	тот	◌ୣ

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для языка ория
UDH содержит 0x24 0x01 0x09 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	୪		\|	П
0x01	£	=	୫		А	вопрос
0x02	$	>	୬		Б	Р
0x03	¥	¡	୭		С	С
0x04	¿	^	୮		Д	Т
0x05	"	¡	୯		И	В	€
0x06	¤	_	шторм		Ф	V
0x07	%	#	Д		Г	В
0x08	&	*	{		ЧАС	Х
0x09	'	।	}		я	И
0x0A	ФФ	॥	Да		Дж	С
0x0B	*	СС2	୰		К
0x0C	+	୦	Вт	[	л
0x0D	CR2	୧		~	М
0x0E	-	୨		]	Н
0x0F	/	୩	\		ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Тамильский язык (тамильский и базовая латиница) [ править ]

Блокировка набора символов Shift
для тамильского языка
UDH содержит 0x25 0x01 0x0B ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00		я	СП	0		◌ா	ௐ	п
0x01	◌ஂ		!	1		◌ி	а	д
0x02	◌ஃ	О	Д	2	М	◌ீ	б	р
0x03	А	ой		3	Да	◌ு	с	с
0x04	б	Ой		4	Р	◌ூ	д	т
0x05	е	К		5	Р		и	в
0x06	Э		Нет	6	Ла		ж	v
0x07	ты		че	7	л		г	В
0x08	Ф		)	8	Д	◌ெ	час	х
0x09		ЧАС	(	9	Вт	◌ே	я	и
0x0A	НЧ	Ч		:	Ш	◌ை	дж	С
0x0B		ЭКУ		;	Ш		к	◌ௗ
0x0C			,	Н	С	◌ொ	л	௰
0x0D	ЧР	Дж		п	Ха	◌ோ	м	௱
0x0E	А		.			◌ௌ	н	௲
0x0F	А	Солнце	Н	?		◌்	тот	௹

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для тамильского языка
UDH содержит 0x24 0x01 0x0B ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	௪		\|	П
0x01	£	=	௫		А	вопрос
0x02	$	>	௬		Б	Р
0x03	¥	¡	௭		С	С
0x04	¿	^	௮		Д	Т
0x05	"	¡	௯		И	В	€
0x06	¤	_	௳		Ф	V
0x07	%	#	௴		Г	В
0x08	&	*	{		ЧАС	Х
0x09	'	।	}		я	И
0x0A	ФФ	॥	௵		Дж	С
0x0B	*	СС2	௶		К
0x0C	+	௦	௷	[	л
0x0D	CR2	௧	௸	~	М
0x0E	-	௨	௺	]	Н
0x0F	/	௩	\		ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Язык телугу (телугу и базовая латиница) [ править ]

Блокировка набора символов Shift
для языка телугу
UDH содержит 0x25 0x01 0x0C ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ఁ	я	СП	0	б	◌ా	◌ౕ	п
0x01	◌ం		!	1	Бх	◌ి	а	д
0x02	◌ః	О	Т	2	м	◌ీ	б	р
0x03	А	О	че	3	Да	◌ు	с	с
0x04	Что	Ой	д	4	Р	◌ూ	д	т
0x05	е	К	доктор	5	Р	◌ృ	и	в
0x06	Этот	Х	н	6	ల	◌ౄ	ж	v
0x07	ты	Г	че	7	л		г	В
0x08	Ой	Г	)	8		◌ె	час	х
0x09	Р	Дж	(	9	че	◌ే	я	и
0x0A	НЧ	Ч	че	:	Ш	◌ై	дж	С
0x0B	ఌ	ЭКУ	ద	;	Ш		к	◌ౖ
0x0C		Ч	,		С	◌ొ	л	ౠ
0x0D	ЧР	А	че	П	Ха	◌ో	м	ౡ
0x0E	А	Джа	.	Ф		◌ౌ	н	◌ౢ
0x0F	А	Его	На	?	ఽ	◌్	тот	◌ౣ

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для языка телугу
UDH содержит 0x24 0x01 0x0C ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50
0x00	@	<	౪	౽	\|	П
0x01	£	=	౫	౾	А	вопрос
0x02	$	>	౬	౿	Б	Р
0x03	¥	¡	౭		С	С
0x04	¿	^	౮		Д	Т
0x05	"	¡	౯		И	В
0x06	¤	_	ౘ		Ф	V
0x07	%	#	ౙ		Г	В
0x08	&	*	{		ЧАС	Х
0x09	'		}		я	И
0x0A	ФФ		౸		Дж	С
0x0B	*	СС2	౹		К
0x0C	+	౦	౺	[	л
0x0D	CR2	౧	౻	~	М
0x0E	-	౨	౼	]	Н
0x0F	/	౩	\		ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Язык каннада (каннада и базовая латиница) [ править ]

Блокировка набора символов Shift
для языка каннада
UDH содержит 0x25 0x01 0x07 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70 !
0x00		я	СП	0	б	ಾ	ೕ	п
0x01	ಂ		!	1	Бх	ಿ	а	д
0x02	ಃ	О	Т	2	м	ೀ	б	р
0x03	А	О	че	3	Да	ು	с	с
0x04	Что	Ау	п	4	Р	ೂ	д	т
0x05	Э	К	Д	5	ಱ	ೃ	и	в
0x06	Этот	Х	н	6	л	ೄ	ж	v
0x07	А	Г	че	7	РС		г	В
0x08	Ой	хх	)	8		ೆ	час	х
0x09	рупий	ಙ	(	9	Вт	ೇ	я	и
0x0A	НЧ	Ч	че	:	Ш	ೈ	дж	С
0x0B	ಌ	ЭКУ	ದ	;	Ш		к	ೖ
0x0C		Ч	,		С	ೊ	л	ೠ
0x0D	ЧР	Дж	Дх	п	ЧАС	ೋ	м	ೡ
0x0E	А	З	.	Ф	಼	ೌ	н	ೢ
0x0F	А	Н	из	?	ಽ	್	тот	ೣ

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для языка каннада
UDH содержит 0x24 0x01 0x07 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	೪		\|	П
0x01	£	=	೫		А	вопрос
0x02	$	>	೬		Б	Р
0x03	¥	¡	೭		С	С
0x04	¿	^	೮		Д	Т
0x05	"	¡	೯		И	В	€
0x06	¤	_	ೞ		Ф	V
0x07	%	#	ೱ		Г	В
0x08	&	*	{		ЧАС	Х
0x09	'	।	}		я	И
0x0A	ФФ	॥	ೲ		Дж	С
0x0B	*	СС2			К
0x0C	+	೦		]	л
0x0D	CR2	೧		~	М
0x0E	-	೨		]	Н
0x0F	/	೩	\		ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница малаялам ) Язык малаялам (

Блокировка набора символов Shift
для языка малаялам
UDH содержит 0x25 0x01 0x08 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70 !
0x00		я	СП	0	б	ാ	ൗ	п
0x01	ം		!	1	Бха	ി	а	д
0x02	ഃ	О	Т	2	м	ീ	б	р
0x03	А	ой	че	3	Да	ു	с	с
0x04	Что	Ой	доктор	4	Р	ൂ	д	т
0x05	Э	К	Эх	5	Р	ൃ	и	в
0x06	Этот	Ха	Нет	6	Ла	ൄ	ж	v
0x07	ты	Га	че	7	л		г	В
0x08	Ой	Га	)	8	за	െ	час	х
0x09	Р	Хм	(	9	Вт	േ	я	и
0x0A	НЧ	Ч	че	:	Ш	ൈ	дж	С
0x0B	แ	ЭКУ	ദ	;	Ш		к	ൠ
0x0C		Ч	,		С	ൊ	л	ൡ
0x0D	ЧР	Дж	Дх	П	Ха	ോ	м	ൢ
0x0E	А	Джа	.	Пт		ൌ	н	ൣ
0x0F	А	Воскресенье	Нет	?	ഽ	്	тот	൹

LF — это элемент управления переводом строки.
CR — это элемент управления возвратом каретки или заполнитель.
ESC — это элемент управления Escape.
SP — космический персонаж.

Набор символов с одной сменой
для языка малаялам
UDH содержит 0x25 0x01 0x08 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	൪	Н	-	П
0x01	£	=	൫	Р	А	вопрос
0x02	$	>	൬	в	Б	Р
0x03	¥	¡	൭	л	С	С
0x04	¿	^	൮	К	Д	Т
0x05	"	¡	൯		И	В	€
0x06	¤	_	൰		Ф	V
0x07	%	#	൱		Г	В
0x08	&	*	{		ЧАС	Х
0x09	'	।	}		я	И
0x0A	ФФ	॥	൲		Дж	С
0x0B	*	СС2	൳		К
0x0C	+	൦	൴	[	л
0x0D	CR2	൧	൵	~	М
0x0E	-	൨	Нет	]	Н
0x0F	/	൩	\		ТО

FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

См. также [ править ]

Ссылки [ править ]

^ 3GPP TS 23.038 , Алфавиты и информация для конкретного языка.
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д ^р ^с ^т ^в ^v ^В ^х ^и ^С ^аа ^аб Алфавиты и информация, специфичная для языка (3G TS 23.038, версия 12.0.0) (архивированный файл .doc), ETSI, сентябрь 2014 г.
^ «Текстовые сообщения [...] содержат до 140 октетов». в 3GPP TS 23.040 Техническая реализация службы коротких сообщений (SMS)
^ GSM 03.38 в Unicode GSM 03.38 в Unicode
^ Чад Селф (08 ноября 2012 г.). «Приключения в Юникоде СМС» . Твилио. Архивировано из оригинала 8 сентября 2015 г. Проверено 28 августа 2015 г.

Внешние ссылки [ править ]

GSM 03.38 в Unicode — файл данных преобразования GSM 03.38 в Unicode с сайта unicode.org.
Текст в GSM 03.38 на C# — преобразование текста в GSM 03.38 на языке программирования C# .
JCharset — пакет Java Charset включает поддержку GSM 03.38. — JCharset — пакет Java Charset включает поддержку GSM 03.38.
Регулярное выражение Java для GSM 03.38 — регулярное выражение Java для GSM 03.38 с комментариями к коду, поясняющими регулярное выражение.
Ограничение количества символов в SMS — сведения об ограничении количества символов в SMS.
Международные компоненты для Unicode (ICU), файл сопоставления gsm-03.38-2009.ucm

[3GPP_23.038-1] 3GPP TS 23.038 , Алфавиты и информация для конкретного языка.

[3G-TS-23.038-2] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н ^тот ^п ^д ^р ^с ^т ^в ^v ^В ^х ^и ^С ^аа ^аб Алфавиты и информация, специфичная для языка (3G TS 23.038, версия 12.0.0) (архивированный файл .doc), ETSI, сентябрь 2014 г.

[3] «Текстовые сообщения [...] содержат до 140 октетов». в 3GPP TS 23.040 Техническая реализация службы коротких сообщений (SMS)

[GSM_03.38_to_Unicode-4] GSM 03.38 в Unicode GSM 03.38 в Unicode

[5] Чад Селф (08 ноября 2012 г.). «Приключения в Юникоде СМС» . Твилио. Архивировано из оригинала 8 сентября 2015 г. Проверено 28 августа 2015 г.

[1]

[2]

[3]

[4]

[5]

v т и Кодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун/Кана китайский Кириллица корейский Бодо и Мюррей Полевые данные ASCII ИСО/МЭК 646 BCDIC-код Телетекс и Видеотекс / Телетекст Т.51/ИСО/МЭК 6937 ИТ Т.61 ИТ Т.101 Мировая система телетекста фон наборы Перекодировать
ИСО/МЭК 8859	Утвержденные детали -1 (Западная Европа) -2 (Центральная Европа) -3 (мальтийский/эсперанто) -4 (Северная Европа) -5 (кириллица) -6 (арабский) -7 (греческий) -8 (иврит) -9 (турецкий) -10 (Скандинавия) -11 (тайский) -13 (Балтика) -14 (Селтик) -15 (Новая Западная Европа) -16 (румынский) Заброшенные части -12 (Деванагари) Предложено, но не одобрено КОИ-8 кириллица Саамы Адаптации валлийский Баренцева кириллица эстонский Украинская кириллица
Библиографическое использование	МАРК-8 АНСЕЛЬ CCII/EACC ИСО 5426 5426-2 5427 5428 6438 6862
Национальные стандарты	АрмSCII Большой5 БраSCII ЦНС 11643 DIN 66003 ЭЛОТ 927 ГОСТЬ 10859 ГБ 2312 ГБ 12345 ГБ 12052 ГБ 18030 HKSCS ИЩИС ДЖИС Х 0201 ДЖИС Х 0208 ДЖИС Х 0212 ДЖИС Х 0213 ТРЕБОВАНИЕ-7 КПС 9566 КС Х 1001 КС Х 1002 ЛСТ 1564 ЛСТ 1590-4 ПАСХА Сдвиг HE СИ 960 ТИС-620 ТСКИИ ВИСКИ VSCII ДЖОЗЕФ
ИСО/МЭК 2022	ИСО/МЭК 8859 ИСО/МЭК 10367 Расширенный код Unix/EUC
Mac OS Кодовые страницы («сценарии»)	Армянский арабский Баренцева кириллица Селтик Центральноевропейский хорватский Кириллица Деванагари Фарси (персидский) Шрифт X (Кермит) гэльский грузинский Греческий Гуджарати Гурмухи иврит Исландия Инуиты Клавиатура Латынь (Кермит) Мальтийский/Эсперанто Огам Роман румынский Саамы турецкий Тюркская кириллица Украинский ВТ100
Кодовые страницы DOS	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1034 1040 1042 1043 1044 1098 1115 1116 1117 1118 1127 3846 АБИКОМП CS Индик CSX Индик CSX+ Индикация КРИ-2 Иранская система Каменицкий Мазовия ЧТО
Кодовые страницы IBM AIX	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1124 1133
Кодовые страницы Windows	ССЭР-ГС 932 936 ( ГБК ) 950 1169 Расширенная латиница-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий
EBCDIC Кодовые страницы	Японский язык в EBCDIC ДКОИ
DEC Терминалы ( VTx )	Многонациональный (MCS) Национальная замена (NRCS) Французский канадец швейцарский испанский Великобритания Голландский финский Французский норвежский и датский Шведский Норвежский и датский (альтернативный вариант) 8-битный греческий 8-битный турецкий СИ 960 иврит Специальная графика Технический (ТКС)
Зависит от платформы	1052 1053 1054 1055 1056 1057 1058 ОС Acorn RISC Амстрад КТК Яблоко II ПРИЛОЖЕНИЯ Атари СТ БИКС Калькуляторы Касио CDC Компюколор 8001 Компюколор II КП/М+ ОСНОВАНИЕ ДЕКАБРЯ 50 ДЭК МКС / НРКС Генеральный директор по международным делам Галактика драгоценный камень GSM 03.38 HP Роман HP ФОКАЛ ХП РПЛ Сжать ЛИКС ЛМБКС MSX НЭК БТР Следующий ПЕТСКИИ Стандарт PostScript Постскриптум латиница 1 СЭМ Купе Сега СК-3000 Калькуляторы Sharp Шарп МЗ Синклер, QL Телетекст Калькуляторы TI ТРС-80 Вентура Интернэшнл ВИСЦИИ XCCS ZX80 ZX81 ZX Спектр
Юникод / ИСО/МЭК 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC ГБ 18030 ОТ 91379 БУТЫЛКА-1 ЦЭСУ-8 ЮКГУ ТАСЕ16 Сравнение кодировок Unicode
TeX Система набора текста	Корк LY1 ОМЛ ОМС OT1
Разные кодовые страницы	АБИКОМП ЦЕЛЬ 449 Цифровое кодирование символов APL ИСО-ИР-68 АРИБ СТД-B24 Полевые данные ХЗ МЭК-П27-1 РАЗДРАЖЕННЫЙ 7-битный 8-битный ИСО-ИР-169 ИСО 2033 НЕОБХОДИМЫЙ КОИ8-Р КОИ8-RU КОИ8-У Модзикё СЕЗОНЫ Стэнфорд/ИТС Символ ТРОН Единый кодекс хангыль
Управляющий персонаж	Азбука Морзе Коды управления C0 и C1 ИСО/МЭК 6429 ДЖИС Х 0211 Управляющие символы Юникода, формат и символы-разделители Пробельные символы
Связанные темы	CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Кодовая страница оборудования MICR-код Моджибаке Кодирование переменной длины
Наборы символов