Jump to content

GSM 03.38

В мобильной телефонии GSM 03.38 или 3GPP 23.038 — это кодировка символов, используемая в сетях GSM для SMS (служба коротких сообщений), CB ( сотовая трансляция ) и USSD (неструктурированные дополнительные служебные данные). Стандарт 3GPP TS 23.038 (первоначально рекомендация GSM 03.38) определяет 7-битный алфавит GSM по умолчанию , который является обязательным для телефонов GSM и сетевых элементов. [1] но набор символов подходит только для английского и ряда западноевропейских языков. Такие языки, как китайский, корейский или японский, необходимо передавать с использованием 16-битной кодировки символов UCS-2 . Ограниченное количество языков, таких как португальский , испанский , турецкий и ряд языков, используемых в Индии , написанных с помощью брахмических сценариев, могут использовать 7-битную кодировку с таблицей сдвига национального языка, определенной в 3GPP 23.038. Для двоичных сообщений используется 8-битная кодировка.

7-битный алфавит GSM по умолчанию и таблица расширений 3GPP TS 23.038 / GSM 03.38 [ править ]

Стандартной кодировкой сообщений GSM является 7-битный алфавит по умолчанию, как определено в рекомендации 23.038.

Семибитные символы должны быть закодированы в октеты в соответствии с одним из трех режимов упаковки:

  • CBS: используя эту кодировку, можно отправить до 93 символов (упакованных в до 82 октетов) в одном SMS-сообщении в службе сотового вещания.
  • SMS: используя эту кодировку, можно отправить до 160 символов (упакованных в до 140 октетов) в одном SMS-сообщении в сети GSM.
  • USSD: используя эту кодировку, можно отправить до 182 символов (упакованных до 160 октетов) в одном SMS-сообщении неструктурированных дополнительных служебных данных.
Базовый набор символов [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Д СП 0 ¡ П ¿ п
0x01 £ _ ! 1 А вопрос а д
0x02 $ Ф " 2 Б Р б р
0x03 ¥ С # 3 С С с с
0x04 И л ¤ 4 Д Т д т
0x05 и Ой % 5 И В и в
0x06 ты П & 6 Ф V ж v
0x07 я P.S. ' 7 Г В г В
0x08 ò С ( 8 ЧАС Х час х
0x09 Что че ) 9 я И я и
0x0A НЧ Х * : Дж С дж С
0x0B Ø ЭКУ + ; К Ä к ä
0x0C ø Ой , < л ОН л он
0x0D ЧР ой - = М С м н
0x0E Ой SS . > Н О н ты
0x0F к И / ? ТО § тот имеет
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это таблица расширения Escape (сопоставляется с NBSP).
  • SP — космический персонаж.
Расширение базового набора символов [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00     |    
0x01         
0x02         
0x03         
0x04  ^       
0x05        
0x06         
0x07         
0x08   {      
0x09   }      
0x0A ФФ        
0x0B  СС2       
0x0C    [     
0x0D CR2   ~     
0x0E    ]     
0x0F   \      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Важно (особенно, когда сообщение должно быть сегментировано с использованием механизма объединения SMS ), чтобы символы из таблицы базового набора символов занимали один септет, а символы из таблицы расширения базового набора символов - два септета.

Обратите внимание, что вторая часть таблицы доступна только в том случае, если устройство GSM поддерживает механизм 7-битного расширения с использованием символьного префикса ESC. В противном случае сам код ESC интерпретируется как пробел, и следующий символ будет обрабатываться так, как если бы ведущего кода ESC не было.

Большая часть верхней части таблицы не используется в наборе символов по умолчанию, но стандарт GSM определяет некоторые индикаторы кода языка, которые позволяют системе идентифицировать национальные варианты этой части и поддерживать больше символов, чем показано в таблице выше.

В стандартном текстовом сообщении GSM все символы кодируются с использованием 7-битных кодовых единиц, упакованных вместе для заполнения всех битов октетов. Так, например, конверт SMS длиной 140 октетов , [3] без индикатора другого языка, а только со стандартным префиксом класса, может передавать до (140*8)/7=160, то есть 160 7-битных символов GSM (но учтите, что код ESC засчитывается для одного из них, если символы в используется верхняя часть таблицы).

Можно отправлять более длинные сообщения, но для последующих SMS-сообщений потребуется префикс продолжения и порядковый номер (эти байты префикса и порядковый номер учитываются в пределах максимальной длины 140-байтовой полезной нагрузки формата конверта).

Если в последнем октете сообщения имеется от 1 до 6 запасных битов, эти биты устанавливаются в ноль (эти биты считаются не символом, а только заполнителем). Если в последнем октете сообщения имеется 7 запасных битов, эти биты устанавливаются в 7-битный код элемента управления CR (также используемый в качестве заполнителя), а не устанавливаются в ноль (где их можно спутать с 7-битный код символа «@»).

Эта 7-битная кодировка позволяет транспортировать тексты, состоящие из печатных символов базовой латиницы (блок Unicode) (за исключением знака «гравитация»/обратной кавычки), а также некоторых символов набора символов ISO Latin 1. Он также позволяет кодировать тексты, написанные греческим шрифтом, но только заглавными буквами; для такого использования в греческом языке латинские заглавные буквы, которые выглядят как греческие буквы, повторно используются с тем же кодом, так что приведенный выше набор символов является полным только для современного монотонного греческого языка, ограниченного заглавными буквами. Полная поддержка греческого алфавита (включая строчные буквы) требует национальной версии сдвинутой 7-битной таблицы (с использованием кода ESC для каждого национального символа, закодированного в этой сдвинутой таблице), или неуказанной собственной 8-битной кодировки, или использование кодировки UCS-2 (см. ниже).

Обратите внимание, что специальный код, отмеченный SS2 в таблице выше, также был назначен (и закодирован как 0x1B, 0x1B), чтобы разрешить использование другой альтернативной 7-битной таблицы сдвига. Но этот механизм никогда не использовался, и предпочтение отдавалось кодировке UCS-2.

Обратите внимание, что символ 0x09 ( Ç , заглавная буква C с седилем) вместо этого должен быть заменен на ç (маленькая c с седилем) в современной реализации, как рекомендовано Unicode, [4] поскольку версия в верхнем регистре малопригодна.

8-битное кодирование данных GSM [ править ]

Режим 8-битного кодирования данных обрабатывает информацию как необработанные данные. Согласно стандарту, алфавит для этой кодировки зависит от пользователя.

Кодировка UCS-2 [ править ]

Эта кодировка позволяет использовать более широкий диапазон символов и языков. UCS-2 может отображать наиболее часто используемые латинские и восточные символы за счет больших затрат места. Строго говоря, UCS-2 ограничен символами базовой многоязычной плоскости . Однако, поскольку современные среды программирования не предоставляют кодировщиков или декодеров для UCS-2, некоторые сотовые телефоны (например, iPhone ) используют UTF-16 вместо UCS-2. [5] Это работает, поскольку для символов в базовой многоязычной плоскости (включая полные алфавиты большинства современных человеческих языков) кодировки UCS-2 и UTF-16 идентичны. Для кодирования символов за пределами BMP (недоступных в обычном UCS-2), таких как Emoji , UTF-16 использует суррогатные пары , которые при декодировании с помощью UCS-2 будут выглядеть как две действительные, но несопоставленные кодовые точки .

Одно SMS-сообщение GSM с использованием этой кодировки может содержать не более 70 символов (140 октетов).

Обратите внимание, что на многих сотовых телефонах GSM нет специального предварительного выбора кодировки UCS-2. По умолчанию используется 7-битная кодировка, описанная выше, до тех пор, пока не будет введен символ, которого нет в 7-битной таблице GSM (например, строчная буква «a» с острым знаком: «á»). В этом случае все сообщение перекодируется с использованием кодировки UCS-2, а максимальная длина сообщения, отправляемого в одном SMS, сразу уменьшается до 70 символов вместо 160. Другие варьируются в зависимости от выбора и конфигурации SMS-приложения. и длина сообщения [ нужна ссылка ] .

Чтобы избежать непредвиденных расходов для отправителей, имеющих подписку на ограниченный пакет отправляемых SMS, приложения должны [ по мнению кого? ] отображать количество используемых символов и максимальное количество символов в составленном SMS. Когда сообщение превышает этот максимум, сообщение будет [ нужны разъяснения ] отправляться в виде нескольких последовательных SMS-сообщений, содержащих части сообщения (каждое из которых содержит порядковый номер, в каждой части которого также используется несколько начальных символов); эти части предназначены для [ нужна ссылка ] будет повторно собран получателем позже.

Некоторые приложения предупреждают пользователя, когда сообщение необходимо разделить, или даже отправляют более длинное сообщение в виде мультимедийного сообщения (MMS).

языков Таблицы смен национальных

Начиная с версии 8 стандарта 3GPP 23.038 от марта 2008 г., доступ к дополнительным наборам символов можно получить с помощью таблиц сдвига национального языка.

Эти таблицы позволяют использовать разные наборы символов в зависимости от языка, на котором будет написан текст. Выбор таблицы для данного сообщения выбирается в разделе «Заголовок пользовательских данных» SMS-сообщения и может быть указан для всего текста ( таблица блокировки сдвига, заменяющая стандартную 7-битную алфавитную таблицу GSM по умолчанию) или для одного символа ( одинарная таблица сдвига) . таблица, заменяющая таблицу расширений 7-битного алфавита GSM по умолчанию). Таблицы блокировки и односменной таблицы в одном сообщении возможны, если необходимо заменить как стандартную алфавитную таблицу по умолчанию, так и таблицу расширений алфавита по умолчанию.

Используя таблицу сдвига, сообщение по-прежнему может использовать 7-битную кодировку символов, но можно выбрать другой набор для правильного отображения символов с диакритическими знаками и символов, специфичных для языка. Это позволяет использовать до 155 символов, закодированных в 136 октетов (140 октетов минус 4 октета заголовка пользовательских данных , необходимых для указания использования таблицы сдвига и кода языка). В таблицах блокировки и односменной таблицы разрешено до 152 символов, закодированных в 133 октета (140 октетов минус 7-октетный заголовок пользовательских данных ).

Символы из любой таблицы блокировки блокировки занимают один септет, символы из таблицы одиночного сдвига (или таблицы расширения базового набора символов) занимают два септета.

Первоначально были указаны сменные таблицы только для турецкого языка; Испанский и португальский были добавлены в более поздних версиях версии 8. В версии 9 были представлены 10 языков, используемых в Индии, с использованием брахмического письма (бенгали, гуджарати, хинди, каннада, малаялам, ория, пенджаби, тамильский, телугу) и урду .

До сих пор не существует определенной таблицы национальных языковых сдвигов для французского, греческого, русского, болгарского, арабского, иврита и большинства центральноевропейских языков, которым требуется лучший охват, чем стандартный 7-битный набор символов по умолчанию и его 7-битный набор расширенных символов по умолчанию: если когда-либо будет составлен какой-либо символ, который не может быть представлен в этих 7-битных наборах GSM по умолчанию, сообщение будет автоматически перекодировано с использованием UCS-2 с эффектом деления более чем на два максимальной длины символов сообщений, которые могут быть отправлены. по цене одного SMS (когда сообщение разделено на несколько частей, в заголовке пользовательских данных необходимо еще несколько октетов для указания порядкового номера каждой части).

Хотя в редакции GSM 03.38 (еще в версии 4.0.1 от сентября 1994 г.) определены значения схемы кодирования данных для системы сотового вещания (CBS) для немецкого, английского, итальянского, французского, испанского, голландского, шведского, датского, финского языков. , норвежский, греческий и турецкий; с добавлением венгерского, польского, чешского, иврита, арабского, русского и исландского языков в более поздних версиях, для этих языков не были определены таблицы кодирования. Целью этого поля было исключительно определение языка сообщения.

Также нет таблицы языковых сдвигов для японского языка, написанного основными канами, корейского языка, написанного джамо хангыль, или китайского языка, написанного письмом хань. В Японии это часто не является проблемой, поскольку для обмена сообщениями здесь используются другие стандарты, помимо GSM и WAP. В двух других языках также слишком много различных символов, чтобы поместиться в 7-битную таблицу сдвига.

Испанский язык (латиница) [ править ]

Для испанского языка не существует специального набора символов Locking Shift. Использует базовый набор символов по умолчанию.

Базовый набор символов
по умолчанию
(Для испанского языка не определена блокировка таблицы смен) [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Д СП 0 ¡ П ¿ п
0x01 £ _ ! 1 А вопрос а д
0x02 $ Ф " 2 Б Р б р
0x03 ¥ С # 3 С С с с
0x04 И л ¤ 4 Д Т д т
0x05 и Ой % 5 И В и в
0x06 ты П & 6 Ф V ж v
0x07 я P.S. ' 7 Г В г В
0x08 ò С ( 8 ЧАС Х час х
0x09 Что че ) 9 я И я и
0x0A НЧ Х * : Дж С дж С
0x0B Ø ЭКУ + ; К Ä к ä
0x0C ø Ой , < л ОН л он
0x0D ЧР ой - = М С м н
0x0E Ой SS . > Н О н ты
0x0F к И / ? ТО § тот имеет
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для испанского языка
UDH содержит 0x24 0x01 0x02 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00     |    
0x01     На  на  
0x02         
0x03         
0x04  ^       
0x05      О ты
0x06         
0x07         
0x08   {      
0x09 Что  }  В  в  
0x0A ФФ        
0x0B  СС2       
0x0C    [     
0x0D CR2   ~     
0x0E    ]     
0x0F   \  Ой  от  
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Португальский язык (латиница) [ править ]

Блокировка набора символов Shift
для португальского языка
UDH содержит 0x25 0x01 0x03 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Д СП 0 В П ~ п
0x01 £ _ ! 1 А вопрос а д
0x02 $ й " 2 Б Р б р
0x03 ¥ Что # 3 С С с с
0x04 ага ИМЕЕТ й 4 Д Т д т
0x05 и % 5 И В и в
0x06 ты ^ & 6 Ф V ж v
0x07 в \ ' 7 Г В г В
0x08 от ( 8 ЧАС Х час х
0x09 Что Ой ) 9 я И я и
0x0A НЧ | * : Дж С дж С
0x0B ЗОНТИК ЭКУ + ; К Ã к ã
0x0C Зонтик Â , < л ОН л он
0x0D ЧР â - = М О м `
0x0E На Э . > Н О н ты
0x0F на И / ? ТО § тот имеет
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для португальского языка
UDH содержит 0x24 0x01 0x03 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00     |    
0x01     ИМЕЕТ  Â  
0x02  Ф       
0x03  С       
0x04  ^       
0x05 ага Ой    О ты
0x06  П       
0x07  P.S.       
0x08  С {      
0x09 Что че }  В  в  
0x0A ФФ        
0x0B ЗОНТИК СС2    Ã  ã
0x0C Зонтик   [  ОН  он
0x0D CR2   ~     
0x0E На   ]     
0x0F на Э \  Ой  от â
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Турецкий язык (латиница) [ править ]

Блокировка набора символов Shift
для турецкого языка
UDH содержит 0x25 0x01 0x01 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Д СП 0 Я П Что п
0x01 £ _ ! 1 А вопрос а д
0x02 $ Ф " 2 Б Р б р
0x03 ¥ С # 3 С С с с
0x04 л ¤ 4 Д Т д т
0x05 и Ой % 5 И В и в
0x06 ты П & 6 Ф V ж v
0x07 я P.S. ' 7 Г В г В
0x08 ò С ( 8 ЧАС Х час х
0x09 Что че ) 9 я И я и
0x0A НЧ Х * : Дж С дж С
0x0B Ğ ЭКУ + ; К Ä к ä
0x0C г Ш , < л ОН л он
0x0D ЧР ш - = М С м н
0x0E Ой SS . > Н О н ты
0x0F к И / ? ТО § тот имеет
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для турецкого языка
UDH содержит 0x24 0x01 0x01 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00     |    
0x01         
0x02         
0x03      Ш Что ш
0x04  ^       
0x05        
0x06         
0x07     Ğ  г  
0x08   {      
0x09   }  Я  я  
0x0A ФФ        
0x0B  СС2       
0x0C    [     
0x0D CR2   ~     
0x0E    ]     
0x0F   \      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница урду ( арабский ) Язык

Его также можно использовать для языка синдхи, также написанного арабской графикой.

Иногда его можно использовать и для арабского языка , но восточные цифры (закодированные здесь в персидско-индуистском варианте) не будут использоваться в этом случае, поскольку стандартный арабский язык предпочитает свои традиционные восточно-арабские цифры и часто заменяется западными. Арабские цифры (закодированные в наборе символов блокирующего сдвига в столбце 0x30), которые теперь также часто используются в урду. Однако в Индии телефоны, распознающие арабский язык, могут заменять персидско-индуистские варианты восточно-арабских цифр традиционными восточно-арабскими цифрами.

Блокировка набора символов Shift
для языка урду
UDH содержит 0x25 0x01 0x0D [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 А че СП 0 п г ◌ٔ п
0x01 ну давай же С ! 1 З не а д
0x02 для дж д 2 я левый б р
0x03 б Дж д 3 З и с с
0x04 братан идти З 4 А ۄ д т
0x05 п что Р 5 Ф ە и в
0x06 ж ж д 6 вопрос час ж v
0x07 Т что д 7 К ЧАС г В
0x08 ага ЧАС ) 8 К А час х
0x09 че Х ( 9 г Да я и
0x0A НЧ принадлежащий д : Г Э дж С
0x0B Т ЭКУ З ; Миссис Э к ◌ٕ
0x0C Т д , хороший Вторник ◌ٍ л ◌ّ
0x0D ЧР Д с вопрос к ◌ِ м ◌ٓ
0x0E настраивать д . Ш М ◌ُ н ◌ٖ
0x0F Т доктор Нет ? Н ◌ٗ тот ◌ٰ
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка урду
UDH содержит 0x24 0x01 0x0D [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < ۴ ◌ؓ | П   
0x01 £ = ۵ ◌ؔ А вопрос   
0x02 $ > ۶ ؛ Б Р   
0x03 ¥ ¡ ۷ ؟ С С   
0x04 ¿ ^ ۸ ـ Д Т   
0x05 " ¡ ۹ ◌ْ И В  
0x06 ¤ _ ، ◌٘ Ф V   
0x07 % # ؍ ٫ Г В   
0x08 & * { ٬ ЧАС Х   
0x09 ' ؀ } ٲ я И   
0x0A ФФ ؁ ؎ А Дж С   
0x0B * СС2 ؏ й К    
0x0C + ۰ ◌ؐ [ л    
0x0D CR2 ۱ ◌ؑ ~ М    
0x0E - ۲ ◌ؒ ] Н    
0x0F / ۳ \ ۔ ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница хинди ( деванагари ) Язык

Блокировка набора символов Shift
для языка хинди
UDH содержит 0x25 0x01 0x06 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ँ да СП 0 б ◌ा Ом п
0x01 ◌ं О ! 1 Бх ◌ि а д
0x02 ◌ः О Т 2 я ◌ी б р
0x03 А О! й 3 этот ◌ु с с
0x04 Приходить Ой Д 4 и ◌ू д т
0x05 и т. д. К й 5 р ◌ृ и в
0x06 Э б нет 6 л ◌ॄ ж v
0x07 ты с так 7 л ◌ॅ г В
0x08 он д ) 8 л ◌ॆ час х
0x09 долг е ( 9 И ◌े я и
0x0A НЧ ж й : ш ◌ै дж С
0x0B ЭКУ ; ш ◌ॉ к А
0x0C А является , нет С ◌ॊ л
0x0D ЧР час й Пятая нота музыкальной гаммы час ◌ो м
0x0E Да дж . Ф ◌़ ◌ौ н
0x0F А дж Нет ? ◌् тот ॿ
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка хинди
UDH содержит 0x24 0x01 0x06 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < я | П   
0x01 £ = д А вопрос   
0x02 $ > й Б Р   
0x03 ¥ ¡ Ф С С   
0x04 ¿ ^ й Д Т   
0x05 " ¡ И В  
0x06 ¤ _ ◌॑ Ф V   
0x07 % # ◌॒ ◌ॢ Г В   
0x08 & * { ◌ॣ ЧАС Х   
0x09 ' } я И   
0x0A ФФ ◌॓ Дж С   
0x0B * СС2 ◌॔  К    
0x0C + вопрос [ л    
0x0D CR2 Х ~ М    
0x0E - с ] Н    
0x0F / \  ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

базовая латиница Бенгальский и ассамский языки ( бенгальский и )

Блокировка набора символов Shift
для бенгальского и ассамского языков
UDH содержит 0x25 0x01 0x04 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ঁ что СП 0 ◌ব т п
0x01 ◌ং  ! 1 Б ◌ি а д
0x02 ◌ঃ  Т 2 м ◌ী б р
0x03 нет И час 3 дж ◌ু с с
0x04 А Ой доктор 4 Р ◌ূ д т
0x05 Э а Д 5  ◌ৃ и в
0x06 Э б н 6 л ◌ৄ ж v
0x07 А с в 7   г В
0x08 ты д ) 8   час х
0x09 Р е ( 9  ◌ে я и
0x0A НЧ ж че : Ш ◌ৈ дж С
0x0B ЭКУ Д ; Ш  к ◌ৗ
0x0C  Г ,  С  л д
0x0D ЧР час Д П Да, это ◌ো м Д
0x0E  Джх . ж ◌় ◌ৌ н р
0x0F А Дж Нет ? ◌্ тот ш
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для бенгальского и ассамского языков
UDH содержит 0x24 0x01 0x04 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < | П   
0x01 £ = А вопрос   
0x02 $ > Б Р   
0x03 ¥ ¡ С С   
0x04 ¿ ^ й Д Т   
0x05 " ¡  И В  
0x06 ¤ _  Ф V   
0x07 % # ◌ৢ  Г В   
0x08 & * {  ЧАС Х   
0x09 ' }  я И   
0x0A ФФ ◌ৣ  Дж С   
0x0B * СС2  К    
0x0C + [ л    
0x0D CR2 ~ М    
0x0E - ] Н    
0x0F / \  ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

базовая латиница Язык пенджаби ( гурмукхи ) и

Блокировка набора символов Shift
для языка пенджаби
UDH содержит 0x25 0x01 0x0A [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ਁ А СП 0 б ◌ਾ ◌ੑ п
0x01 ◌ਂ  ! 1 б ◌ਿ а д
0x02 ◌ਃ  Т 2 м ◌ੀ б р
0x03 А ой й 3 Да ◌ੁ с с
0x04 Ну давай же Ау д 4 Р ◌ੂ д т
0x05 Э К Дх 5   и в
0x06 Э Х Нет 6 л  ж v
0x07 ты с Т 7 л  г В
0x08 О д ) 8   час х
0x09  нравиться ( 9 Вт ◌ੇ я и
0x0A НЧ Ч че : Ш ◌ੈ дж С
0x0B  ЭКУ ;   к ◌ੰ
0x0C  Ч ,  С  л ◌ੱ
0x0D ЧР с че п час ◌ੋ м с
0x0E  Джх . ж ◌਼ ◌ੌ н а
0x0F А Нет ?  ◌੍ тот я
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка пенджаби
UDH содержит 0x24 0x01 0x0A [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <  | П   
0x01 £ =  А вопрос   
0x02 $ >  Б Р   
0x03 ¥ ¡  С С   
0x04 ¿ ^  Д Т   
0x05 " ¡  И В  
0x06 ¤ _ Х  Ф V   
0x07 % # д  Г В   
0x08 & * {  ЧАС Х   
0x09 ' }  я И   
0x0A ФФ З  Дж С   
0x0B * СС2 д  К    
0x0C + ж [ л    
0x0D CR2 ◌ੵ ~ М    
0x0E -  ] Н    
0x0F / \  ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

базовая латиница Язык гуджарати ( гуджарати и )

Блокировка набора символов Shift
для языка гуджарати
UDH содержит 0x25 0x01 0x05 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ઁ Ай СП 0 б ◌ા п
0x01 ◌ં О ! 1 б ◌િ а д
0x02 ◌ઃ  Т 2 м ◌ી б р
0x03 А О че 3 Да ◌ુ с с
0x04 Этот Ой доктор 4 рупий ◌ૂ д т
0x05 Э К д 5  ◌ૃ и в
0x06 е Х н 6 л ◌ૄ ж v
0x07 А с Т 7 л ◌ૅ г В
0x08 О д ) 8   час х
0x09 рупий ( 9 Вт ◌ે я и
0x0A НЧ Ч че : Ш ◌ૈ дж С
0x0B ЭКУ д ; Ш ◌ૉ к
0x0C А Шесть ,  С  л
0x0D ЧР Дж П ЧАС ◌ો м ◌ૢ
0x0E  З . ж ◌઼ ◌ૌ н ◌ૣ
0x0F А эксперт Нет ? ◌્ тот
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка гуджарати
UDH содержит 0x24 0x01 0x05 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <  | П   
0x01 £ =  А вопрос   
0x02 $ >  Б Р   
0x03 ¥ ¡  С С   
0x04 ¿ ^  Д Т   
0x05 " ¡  И В  
0x06 ¤ _   Ф V   
0x07 % #   Г В   
0x08 & * {  ЧАС Х   
0x09 ' }  я И   
0x0A ФФ   Дж С   
0x0B * СС2   К    
0x0C +  [ л    
0x0D CR2  ~ М    
0x0E -  ] Н    
0x0F / \  ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Язык ория (ория и базовая латиница) [ править ]

Блокировка набора символов Shift
для языка ория
UDH содержит 0x25 0x01 0x09 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ଁ А СП 0 б ◌ା ◌ୖ п
0x01 ◌ଂ  ! 1 Бх ◌ି а д
0x02 ◌ଃ  Т 2 м ◌ୀ б р
0x03 А О 10 3 Дж ◌ୁ с с
0x04 А А доктор 4 из ◌ୂ д т
0x05 Э а д 5  ◌ୃ и в
0x06 РС б заем 6 л ж v
0x07 А с Так 7 л  г В
0x08 ты д ) 8   час х
0x09 рупий Н ( 9 ◌େ я и
0x0A НЧ Ч че : Ш ◌ୈ дж С
0x0B ЭКУ Д ; рупий  к ◌ୗ
0x0C  Ч ,  С  л
0x0D ЧР Дж Д П Ха ◌ୋ м
0x0E  Дж . ж ◌଼ ◌ୌ н ◌ୢ
0x0F А Нет Нет ? б ◌୍ тот ◌ୣ
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка ория
UDH содержит 0x24 0x01 0x09 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <  | П   
0x01 £ =  А вопрос   
0x02 $ >  Б Р   
0x03 ¥ ¡  С С   
0x04 ¿ ^  Д Т   
0x05 " ¡  И В  
0x06 ¤ _ шторм  Ф V   
0x07 % # Д  Г В   
0x08 & * {  ЧАС Х   
0x09 ' }  я И   
0x0A ФФ Да  Дж С   
0x0B * СС2  К    
0x0C + Вт [ л    
0x0D CR2  ~ М    
0x0E -  ] Н    
0x0F / \  ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Тамильский язык (тамильский и базовая латиница) [ править ]

Блокировка набора символов Shift
для тамильского языка
UDH содержит 0x25 0x01 0x0B [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00  я СП 0  ◌ா п
0x01 ◌ஂ  ! 1  ◌ி а д
0x02 ◌ஃ О Д 2 М ◌ீ б р
0x03 А ой  3 Да ◌ு с с
0x04 б Ой  4 Р ◌ூ д т
0x05 е К  5 Р  и в
0x06 Э  Нет 6 Ла  ж v
0x07 ты  че 7 л  г В
0x08 Ф  ) 8 Д ◌ெ час х
0x09  ЧАС ( 9 Вт ◌ே я и
0x0A НЧ Ч  : Ш ◌ை дж С
0x0B  ЭКУ  ; Ш  к ◌ௗ
0x0C   , Н С ◌ொ л
0x0D ЧР Дж  п Ха ◌ோ м
0x0E А  .   ◌ௌ н
0x0F А Солнце Н ?  ◌் тот
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для тамильского языка
UDH содержит 0x24 0x01 0x0B [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <  | П   
0x01 £ =  А вопрос   
0x02 $ >  Б Р   
0x03 ¥ ¡  С С   
0x04 ¿ ^  Д Т   
0x05 " ¡  И В  
0x06 ¤ _  Ф V   
0x07 % #  Г В   
0x08 & * {  ЧАС Х   
0x09 ' }  я И   
0x0A ФФ  Дж С   
0x0B * СС2  К    
0x0C + [ л    
0x0D CR2 ~ М    
0x0E - ] Н    
0x0F / \  ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Язык телугу (телугу и базовая латиница) [ править ]

Блокировка набора символов Shift
для языка телугу
UDH содержит 0x25 0x01 0x0C [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ఁ я СП 0 б ◌ా ◌ౕ п
0x01 ◌ం  ! 1 Бх ◌ి а д
0x02 ◌ః О Т 2 м ◌ీ б р
0x03 А О че 3 Да ◌ు с с
0x04 Что Ой д 4 Р ◌ూ д т
0x05 е К доктор 5 Р ◌ృ и в
0x06 Этот Х н 6 ◌ౄ ж v
0x07 ты Г че 7 л  г В
0x08 Ой Г ) 8  ◌ె час х
0x09 Р Дж ( 9 че ◌ే я и
0x0A НЧ Ч че : Ш ◌ై дж С
0x0B ЭКУ ; Ш  к ◌ౖ
0x0C  Ч ,  С ◌ొ л
0x0D ЧР А че П Ха ◌ో м
0x0E А Джа . Ф  ◌ౌ н ◌ౢ
0x0F А Его На ? ◌్ тот ◌ౣ
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка телугу
UDH содержит 0x24 0x01 0x0C [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < | П   
0x01 £ = А вопрос   
0x02 $ > ౿ Б Р   
0x03 ¥ ¡  С С   
0x04 ¿ ^  Д Т   
0x05 " ¡  И В   
0x06 ¤ _  Ф V   
0x07 % #  Г В   
0x08 & * {  ЧАС Х   
0x09 '  }  я И   
0x0A ФФ   Дж С   
0x0B * СС2  К    
0x0C + [ л    
0x0D CR2 ~ М    
0x0E - ] Н    
0x0F / \  ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Язык каннада (каннада и базовая латиница) [ править ]

Блокировка набора символов Shift
для языка каннада
UDH содержит 0x25 0x01 0x07 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 ! 
0x00  я СП 0 б п
0x01  ! 1 Бх ಿ а д
0x02 О Т 2 м б р
0x03 А О че 3 Да с с
0x04 Что Ау п 4 Р д т
0x05 Э К Д 5 и в
0x06 Этот Х н 6 л ж v
0x07 А Г че 7 РС  г В
0x08 Ой хх ) 8  час х
0x09 рупий ( 9 Вт я и
0x0A НЧ Ч че : Ш дж С
0x0B ЭКУ ; Ш  к
0x0C  Ч ,  С л
0x0D ЧР Дж Дх п ЧАС м
0x0E А З . Ф н
0x0F А Н из ? тот
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка каннада
UDH содержит 0x24 0x01 0x07 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 ! 
0x00 @ <  | П   
0x01 £ =  А вопрос   
0x02 $ >  Б Р   
0x03 ¥ ¡  С С   
0x04 ¿ ^  Д Т   
0x05 " ¡  И В  
0x06 ¤ _  Ф V   
0x07 % #  Г В   
0x08 & * {  ЧАС Х   
0x09 ' }  я И   
0x0A ФФ  Дж С   
0x0B * СС2   К    
0x0C +  ] л    
0x0D CR2  ~ М    
0x0E -  ] Н    
0x0F / \  ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница малаялам ) Язык малаялам (

Блокировка набора символов Shift
для языка малаялам
UDH содержит 0x25 0x01 0x08 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 ! 
0x00  я СП 0 б п
0x01  ! 1 Бха ി а д
0x02 О Т 2 м б р
0x03 А ой че 3 Да с с
0x04 Что Ой доктор 4 Р д т
0x05 Э К Эх 5 Р и в
0x06 Этот Ха Нет 6 Ла ж v
0x07 ты Га че 7 л  г В
0x08 Ой Га ) 8 за час х
0x09 Р Хм ( 9 Вт я и
0x0A НЧ Ч че : Ш дж С
0x0B ЭКУ ; Ш  к
0x0C  Ч ,  С л
0x0D ЧР Дж Дх П Ха м
0x0E А Джа . Пт  н
0x0F А Воскресенье Нет ? тот
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка малаялам
UDH содержит 0x25 0x01 0x08 [2]
 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 ! 
0x00 @ < Н - П   
0x01 £ = Р А вопрос   
0x02 $ > в Б Р   
0x03 ¥ ¡ л С С   
0x04 ¿ ^ К Д Т   
0x05 " ¡  И В  
0x06 ¤ _  Ф V   
0x07 % #  Г В   
0x08 & * {  ЧАС Х   
0x09 ' }  я И   
0x0A ФФ  Дж С   
0x0B * СС2  К    
0x0C + [ л    
0x0D CR2 ~ М    
0x0E - Нет ] Н    
0x0F / \  ТО    
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

См. также [ править ]

Ссылки [ править ]

  1. ^ 3GPP TS 23.038 , Алфавиты и информация для конкретного языка.
  2. ^ Jump up to: а б с д и ж г час я дж к л м н тот п д р с т в v В х и С аа аб Алфавиты и информация, специфичная для языка (3G TS 23.038, версия 12.0.0) (архивированный файл .doc), ETSI, сентябрь 2014 г.
  3. ^ «Текстовые сообщения [...] содержат до 140 октетов». в 3GPP TS 23.040 Техническая реализация службы коротких сообщений (SMS)
  4. ^ GSM 03.38 в Unicode GSM 03.38 в Unicode
  5. ^ Чад Селф (08 ноября 2012 г.). «Приключения в Юникоде СМС» . Твилио. Архивировано из оригинала 8 сентября 2015 г. Проверено 28 августа 2015 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fe3edf4e33227c2d3dd2a1399ba1de4a__1714135560
URL1:https://arc.ask3.ru/arc/aa/fe/4a/fe3edf4e33227c2d3dd2a1399ba1de4a.html
Заголовок, (Title) документа по адресу, URL1:
GSM 03.38 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)