~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ FE3EDF4E33227C2D3DD2A1399BA1DE4A__1714135560 ✰
Заголовок документа оригинал.:
✰ GSM 03.38 - Wikipedia ✰
Заголовок документа перевод.:
✰ GSM 03.38 — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/GSM_03.38 ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/fe/4a/fe3edf4e33227c2d3dd2a1399ba1de4a.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/fe/4a/fe3edf4e33227c2d3dd2a1399ba1de4a__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 22:14:05 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 26 April 2024, at 15:46 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

GSM 03.38 — Википедия Jump to content

GSM 03.38

Из Википедии, бесплатной энциклопедии

В мобильной телефонии GSM 03.38 или 3GPP 23.038 — это кодировка символов, используемая в GSM сетях для SMS (служба коротких сообщений), CB ( сотовая трансляция ) и USSD (неструктурированные дополнительные служебные данные). Стандарт 3GPP TS 23.038 (первоначально рекомендация GSM 03.38) определяет 7-битный алфавит GSM по умолчанию , который является обязательным для телефонов GSM и сетевых элементов. [1] но набор символов подходит только для английского и ряда западноевропейских языков. Такие языки, как китайский, корейский или японский, необходимо передавать с использованием 16-битной кодировки символов UCS-2 . Ограниченное количество языков, таких как португальский , испанский , турецкий и ряд языков, используемых в Индии, написанных брахмическими сценариями, могут использовать 7-битное кодирование с таблицей сдвига национального языка, определенной в 3GPP 23.038. Для двоичных сообщений используется 8-битная кодировка.

7-битный алфавит GSM по умолчанию и таблица расширений 3GPP TS 23.038 / GSM 03.38 [ править ]

Стандартной кодировкой сообщений GSM является 7-битный алфавит по умолчанию, как определено в рекомендации 23.038.

Семибитные символы должны быть закодированы в октеты в соответствии с одним из трех режимов упаковки:

  • CBS: используя эту кодировку, можно отправить до 93 символов (упакованных в до 82 октетов) в одном SMS-сообщении в службе сотового вещания.
  • SMS: используя эту кодировку, можно отправить до 160 символов (упакованных в до 140 октетов) в одном SMS-сообщении в сети GSM.
  • USSD: используя эту кодировку, можно отправить до 182 символов (упакованных до 160 октетов) в одном SMS-сообщении неструктурированных дополнительных служебных данных.
Базовый набор символов [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Д СП 0 ¡ п ¿ п
0x01 £ _ ! 1 А вопрос а д
0x02 $ Фи " 2 Б р б р
0x03 ¥ С # 3 С С с с
0x04 И л ¤ 4 Д Т д т
0x05 Это Ой % 5 И В Это в
0x06 ты Пи & 6 Ф V ж v
0x07 я P.S. ' 7 г В г В
0x08 ò С ( 8 ЧАС Икс час Икс
0x09 Что че ) 9 я И я и
0x0A НЧ Икс * : Дж С дж С
0x0B Ø ЭКУ + ; К Ä к ä
0x0C ø Ой , < л ОН л он
0x0D ЧР ой - = М С м н
0x0E Ой SS . > Н О н ты
0x0F к И / ? О § О имеет
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это таблица расширения Escape (сопоставляется с NBSP).
  • SP — космический персонаж.
Расширение базового набора символов [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01                
0x02                
0x03                
0x04   ^            
0x05              
0x06                
0x07                
0x08     {          
0x09     }          
0x0A ФФ              
0x0B   СС2            
0x0C       [        
0x0D CR2     ~        
0x0E       ]        
0x0F     \          
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Важно (особенно, когда сообщение должно быть сегментировано с использованием механизма объединения SMS ), чтобы символы из таблицы базового набора символов занимали один септет, а символы из таблицы расширения базового набора символов - два септета.

Обратите внимание, что вторая часть таблицы доступна только в том случае, если устройство GSM поддерживает механизм 7-битного расширения с использованием символьного префикса ESC. В противном случае сам код ESC интерпретируется как пробел, и следующий символ будет обрабатываться так, как если бы ведущего кода ESC не было.

Большая часть верхней части таблицы не используется в наборе символов по умолчанию, но стандарт GSM определяет некоторые индикаторы кода языка, которые позволяют системе идентифицировать национальные варианты этой части и поддерживать больше символов, чем показано в таблице выше.

В стандартном текстовом сообщении GSM все символы кодируются с использованием 7-битных кодовых единиц, упакованных вместе для заполнения всех битов октетов. Так, например, конверт SMS длиной 140 октетов , [3] без индикатора другого языка, а только со стандартным префиксом класса, может передавать до (140*8)/7=160, то есть 160 7-битных символов GSM (но учтите, что код ESC засчитывается для одного из них, если символы в используется верхняя часть таблицы).

Можно отправлять более длинные сообщения, но для последующих SMS-сообщений потребуется префикс продолжения и порядковый номер (эти байты префикса и порядковый номер учитываются в пределах максимальной длины 140-байтовой полезной нагрузки формата конверта).

Если в последнем октете сообщения имеется от 1 до 6 запасных битов, эти биты устанавливаются в ноль (эти биты считаются не символом, а только заполнителем). Если в последнем октете сообщения имеется 7 запасных битов, эти биты устанавливаются в 7-битный код элемента управления CR (также используемый в качестве заполнителя), а не устанавливаются в ноль (где их можно спутать с 7-битный код символа «@»).

Эта 7-битная кодировка позволяет транспортировать тексты, состоящие из печатных символов базовой латиницы (блок Unicode) (за исключением знака «гравитация»/обратной кавычки), а также некоторых символов набора символов ISO Latin 1. Он также позволяет кодировать тексты, написанные греческим шрифтом, но только заглавными буквами; для такого использования в греческом языке латинские заглавные буквы, которые выглядят как греческие буквы, повторно используются с тем же кодом, так что приведенный выше набор символов является полным только для современного монотонного греческого языка, ограниченного заглавными буквами. Полная поддержка греческого алфавита (включая строчные буквы) требует национальной версии сдвинутой 7-битной таблицы (с использованием кода ESC для каждого национального символа, закодированного в этой сдвинутой таблице), или неуказанной собственной 8-битной кодировки, или использование кодировки UCS-2 (см. ниже).

Обратите внимание, что специальный код, отмеченный SS2 в таблице выше, также был назначен (и закодирован как 0x1B, 0x1B), чтобы разрешить использование другой альтернативной 7-битной таблицы сдвига. Но этот механизм никогда не использовался, и предпочтение отдавалось кодировке UCS-2.

Обратите внимание, что символ 0x09 ( Ç , заглавная C с седилем) вместо этого должен быть заменен на ç (маленькая c с седилем) в современной реализации, как рекомендовано Unicode, [4] поскольку версия в верхнем регистре малопригодна.

8-битное кодирование данных GSM [ править ]

Режим 8-битного кодирования данных обрабатывает информацию как необработанные данные. Согласно стандарту, алфавит для этой кодировки зависит от пользователя.

Кодировка UCS-2 [ править ]

Эта кодировка позволяет использовать более широкий диапазон символов и языков. UCS-2 может отображать наиболее часто используемые латинские и восточные символы за счет больших затрат места. Строго говоря, UCS-2 ограничен символами базовой многоязычной плоскости . Однако, поскольку современные среды программирования не предоставляют кодировщиков или декодеров для UCS-2, некоторые сотовые телефоны (например, iPhone ) используют UTF-16 вместо UCS-2. [5] Это работает, поскольку для символов в базовой многоязычной плоскости (включая полные алфавиты большинства современных человеческих языков) кодировки UCS-2 и UTF-16 идентичны. Для кодирования символов вне BMP (недоступных в обычном UCS-2), таких как Emoji , UTF-16 использует суррогатные пары , которые при декодировании с помощью UCS-2 будут выглядеть как две действительные, но несопоставленные кодовые точки .

Одно SMS-сообщение GSM с использованием этой кодировки может содержать не более 70 символов (140 октетов).

Обратите внимание, что на многих сотовых телефонах GSM нет специального предварительного выбора кодировки UCS-2. По умолчанию используется 7-битная кодировка, описанная выше, до тех пор, пока не будет введен символ, которого нет в 7-битной таблице GSM (например, строчная буква «a» с острым знаком: «á»). В этом случае все сообщение перекодируется с использованием кодировки UCS-2, а максимальная длина сообщения, отправляемого в одном SMS, сразу уменьшается до 70 символов вместо 160. Другие варьируются в зависимости от выбора и конфигурации SMS-приложения. и длина сообщения [ нужна цитата ] .

Чтобы избежать непредвиденных расходов для отправителей, имеющих подписку на ограниченный пакет отправляемых SMS, приложения должны [ по мнению кого? ] отображать количество используемых символов и максимальное количество символов в составленном SMS. Когда сообщение превышает этот максимум, сообщение будет [ нужны разъяснения ] отправляться в виде нескольких последовательных SMS-сообщений, содержащих части сообщения (каждое из которых содержит порядковый номер, в каждой части которого также используется несколько начальных символов); эти части предназначены для [ нужна цитата ] будет повторно собран получателем позже.

Некоторые приложения предупреждают пользователя, когда сообщение необходимо разделить, или даже отправляют более длинное сообщение в виде мультимедийного сообщения (MMS).

языков смен Таблицы национальных

Начиная с версии 8 стандарта 3GPP 23.038 от марта 2008 г., доступ к дополнительным наборам символов можно получить с помощью таблиц сдвига национального языка.

Эти таблицы позволяют использовать разные наборы символов в зависимости от языка, на котором будет написан текст. Выбор таблицы для данного сообщения выбирается в разделе «Заголовок пользовательских данных» SMS-сообщения и может быть указан для всего текста ( таблица блокировки сдвига, заменяющая стандартную 7-битную алфавитную таблицу GSM по умолчанию) или для одного символа ( одинарная таблица сдвига ). таблица, заменяющая таблицу расширений 7-битного алфавита GSM по умолчанию). Таблицы блокировки и односменной таблицы в одном сообщении возможны, если необходимо заменить как стандартную алфавитную таблицу по умолчанию, так и таблицу расширений алфавита по умолчанию.

Используя таблицу сдвига, сообщение по-прежнему может использовать 7-битную кодировку символов, но можно выбрать другой набор для правильного отображения символов с диакритическими знаками и символов, специфичных для языка. Это позволяет использовать до 155 символов, закодированных в 136 октетов (140 октетов минус 4 октета заголовка пользовательских данных, необходимых для указания использования таблицы сдвига и кода языка). В таблицах блокировки и односменной таблицы допускается до 152 символов, закодированных в 133 октета (140 октетов минус 7-октетный заголовок пользовательских данных ).

Символы из любой таблицы блокировки блокировки занимают один септет, символы из таблицы одиночного сдвига (или таблицы расширения базового набора символов) занимают два септета.

Первоначально были указаны таблицы смен только для турецкого языка; В более поздних версиях версии 8 были добавлены испанский и португальский язык. В версии 9 были представлены 10 языков, используемых в Индии, с использованием брахмического письма (бенгали, гуджарати, хинди, каннада, малаялам, ория, пенджаби, тамильский, телугу) и урду .

До сих пор не существует определенной таблицы национальных языковых сдвигов для французского, греческого, русского, болгарского, арабского, иврита и большинства центральноевропейских языков, которые нуждаются в лучшем охвате, чем стандартный 7-битный набор символов по умолчанию и его 7-битный набор расширенных символов по умолчанию: если когда-либо будет составлен какой-либо символ, который не может быть представлен в этих 7-битных наборах GSM по умолчанию, сообщение будет автоматически перекодировано с использованием UCS-2 с эффектом деления более чем на два максимальной длины символов сообщений, которые могут быть отправлены. по цене одного SMS (когда сообщение разделено на несколько частей, в заголовке пользовательских данных необходимо еще несколько октетов для указания порядкового номера каждой части).

Хотя в редакции GSM 03.38 (еще в версии 4.0.1 от сентября 1994 г.) определены значения схемы кодирования данных для системы сотового вещания (CBS) для немецкого, английского, итальянского, французского, испанского, голландского, шведского, датского, финского языков. , норвежский, греческий и турецкий; с добавлением венгерского, польского, чешского, иврита, арабского, русского и исландского языков в более поздних версиях, для этих языков не были определены таблицы кодирования. Целью этого поля было исключительно определение языка сообщения.

Также нет таблицы языковых сдвигов для японского языка, написанного основными канами, для корейского языка, написанного джамо хангыль, или для китайского языка, написанного письмом хань. В Японии это часто не является проблемой, поскольку для обмена сообщениями здесь используются другие стандарты, помимо GSM и WAP. В двух других языках также слишком много различных символов, чтобы уместить их в 7-битную таблицу сдвига.

Испанский язык (латиница) [ править ]

Для испанского языка не существует специального набора символов Locking Shift. Использует базовый набор символов по умолчанию.

Базовый набор символов
по умолчанию
(Для испанского языка не определена блокировка таблицы смен) [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Д СП 0 ¡ п ¿ п
0x01 £ _ ! 1 А вопрос а д
0x02 $ Фи " 2 Б р б р
0x03 ¥ С # 3 С С с с
0x04 И л ¤ 4 Д Т д т
0x05 Это Ой % 5 И В Это в
0x06 ты Пи & 6 Ф V ж v
0x07 я P.S. ' 7 г В г В
0x08 ò С ( 8 ЧАС Икс час Икс
0x09 Что че ) 9 я И я и
0x0A НЧ Икс * : Дж С дж С
0x0B Ø ЭКУ + ; К Ä к ä
0x0C ø Ой , < л ОН л он
0x0D ЧР ой - = М С м н
0x0E Ой SS . > Н О н ты
0x0F к И / ? О § О имеет
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для испанского языка
UDH содержит 0x24 0x01 0x02 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01         На   на  
0x02                
0x03                
0x04   ^            
0x05           О ты
0x06                
0x07                
0x08     {          
0x09 Что   }   В   в  
0x0A ФФ              
0x0B   СС2            
0x0C       [        
0x0D CR2     ~        
0x0E       ]        
0x0F     \   Ой   от  
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Португальский язык (латиница) [ править ]

Блокировка набора символов Shift
для португальского языка
UDH содержит 0x25 0x01 0x03 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Д СП 0 В п ~ п
0x01 £ _ ! 1 А вопрос а д
0x02 $ й " 2 Б р б р
0x03 ¥ Что # 3 С С с с
0x04 ага ИМЕЕТ й 4 Д Т д т
0x05 Это % 5 И В Это в
0x06 ты ^ & 6 Ф V ж v
0x07 в \ ' 7 г В г В
0x08 от ( 8 ЧАС Икс час Икс
0x09 Что Ой ) 9 я И я и
0x0A НЧ | * : Дж С дж С
0x0B ЗОНТИК ЭКУ + ; К Ã к ã
0x0C Зонтик Â , < л ОН л Он
0x0D ЧР â - = М О м `
0x0E На Э . > Н О н ты
0x0F на И / ? О § О имеет
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для португальского языка
UDH содержит 0x24 0x01 0x03 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01         ИМЕЕТ   Â  
0x02   Фи            
0x03   С            
0x04   ^            
0x05 ага Ой       О ты
0x06   Пи            
0x07   P.S.            
0x08   С {          
0x09 Что че }   В   в  
0x0A ФФ              
0x0B ЗОНТИК СС2       Ã   ã
0x0C Зонтик     [   ОН   Он
0x0D CR2     ~        
0x0E На     ]        
0x0F на Э \   Ой   от â
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Турецкий язык (латиница) [ править ]

Блокировка набора символов Shift
для турецкого языка
UDH содержит 0x25 0x01 0x01 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Д СП 0 Я п Что п
0x01 £ _ ! 1 А вопрос а д
0x02 $ Фи " 2 Б р б р
0x03 ¥ С # 3 С С с с
0x04 л ¤ 4 Д Т д т
0x05 Это Ой % 5 И В Это в
0x06 ты Пи & 6 Ф V ж v
0x07 я P.S. ' 7 г В г В
0x08 ò С ( 8 ЧАС Икс час Икс
0x09 Что че ) 9 я И я и
0x0A НЧ Икс * : Дж С дж С
0x0B Г ЭКУ + ; К Ä к ä
0x0C г С , < л ОН л он
0x0D ЧР с - = М С м н
0x0E Ой SS . > Н О н ты
0x0F к И / ? О § О имеет
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для турецкого языка
UDH содержит 0x24 0x01 0x01 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01                
0x02                
0x03           С Что с
0x04   ^            
0x05              
0x06                
0x07         Г   г  
0x08     {          
0x09     }   Я   я  
0x0A ФФ              
0x0B   СС2            
0x0C       [        
0x0D CR2     ~        
0x0E       ]        
0x0F     \          
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница ) Язык урду ( арабский

Его также можно использовать для языка синдхи, также написанного арабской графикой.

Иногда его можно использовать и для арабского языка , но восточные цифры (закодированные здесь в их персидско-индуистском варианте) не будут использоваться в этом случае, поскольку стандартный арабский язык предпочитает свои традиционные восточно-арабские цифры и часто заменяется западными. Арабские цифры (закодированные в наборе символов блокировки сдвига в столбце 0x30), которые теперь также часто используются в урду. Однако в Индии телефоны, распознающие обозначение арабского языка, могут заменять персидско-индуистские варианты восточно-арабских цифр традиционными восточно-арабскими цифрами.

Блокировка набора символов Shift
для языка урду
UDH содержит 0x25 0x01 0x0D [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 А че СП 0 п г ◌ٔ п
0x01 ну давай же С ! 1 З не а д
0x02 Б дж д 2 я левый б р
0x03 б Дж д 3 З И с с
0x04 братан идти З 4 А ۄ д т
0x05 п что р 5 Ф ە Это в
0x06 ж ж д 6 вопрос час ж v
0x07 Т что д 7 К ЧАС г В
0x08 ага ЧАС ) 8 К А час Икс
0x09 че Х ( 9 г Да я и
0x0A НЧ принадлежащий д : г Э дж С
0x0B Т ЭКУ З ; Миссис Э к ◌ٕ
0x0C Т д , хороший Вторник ◌ٍ л ◌ّ
0x0D ЧР Д с вопрос к ◌ِ м ◌ٓ
0x0E настраивать д . Ш М ◌ُ н ◌ٖ
0x0F Т Доктор Нет ? Н ◌ٗ О ◌ٰ
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка урду
UDH содержит 0x24 0x01 0x0D [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < ۴ ◌ؓ | п    
0x01 £ = ۵ ◌ؔ А вопрос    
0x02 $ > ۶ ؛ Б р    
0x03 ¥ ¡ ۷ ؟ С С    
0x04 ¿ ^ ۸ ـ Д Т    
0x05 " ¡ ۹ ◌ْ И В  
0x06 ¤ _ ، ◌٘ Ф V    
0x07 % # ؍ ٫ г В    
0x08 & * { ٬ ЧАС Икс    
0x09 ' ؀ } й я И    
0x0A ФФ ؁ ؎ А Дж С    
0x0B * СС2 ؏ й К      
0x0C + ۰ ◌ؐ [ л      
0x0D CR2 ۱ ◌ؑ ~ М      
0x0E - ۲ ◌ؒ ] Н      
0x0F / ۳ \ ۔ О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница ) Язык хинди ( деванагари

Блокировка набора символов Shift
для языка хинди
UDH содержит 0x25 0x01 0x06 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ँ да СП 0 Б ◌ा Ом п
0x01 ◌ं О ! 1 й ◌ि а д
0x02 ◌ः О Т 2 я ◌ी б р
0x03 А О! й 3 этот ◌ु с с
0x04 Приходить Ой Д 4 и ◌ू д т
0x05 и т. д. К й 5 р ◌ृ Это в
0x06 Э б нет 6 л ◌ॄ ж v
0x07 ты с так 7 л ◌ॅ г В
0x08 он д ) 8 л ◌ॆ час Икс
0x09 долг е ( 9 И ◌े я и
0x0A НЧ ж й : ш ◌ै дж С
0x0B ЭКУ ; ш ◌ॉ к А
0x0C А является , нет С ◌ॊ л
0x0D ЧР час й Пятая нота музыкальной гаммы час ◌ो м
0x0E Да дж . Ф ◌़ ◌ौ н
0x0F А дж Нет ? ◌् О ॿ
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка хинди
UDH содержит 0x24 0x01 0x06 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < я | п    
0x01 £ = д А вопрос    
0x02 $ > й Б р    
0x03 ¥ ¡ Ф С С    
0x04 ¿ ^ й Д Т    
0x05 " ¡ И В  
0x06 ¤ _ ◌॑ Ф V    
0x07 % # ◌॒ ◌ॢ г В    
0x08 & * { ◌ॣ ЧАС Икс    
0x09 ' } я И    
0x0A ФФ ◌॓ Дж С    
0x0B * СС2 ◌॔   К      
0x0C + вопрос [ л      
0x0D CR2 к ~ М      
0x0E - с ] Н      
0x0F / \   О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница Бенгальский и ассамский языки ( ) бенгальский

Блокировка набора символов Shift
для бенгальского и ассамского языков
UDH содержит 0x25 0x01 0x04 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ঁ что СП 0 ◌ব т п
0x01 ◌ং   ! 1 Б ◌ি а д
0x02 ◌ঃ   Т 2 м ◌ী б р
0x03 нет И час 3 дж ◌ু с с
0x04 А Ой Доктор 4 р ◌ূ д т
0x05 Э а д 5   ◌ৃ Это в
0x06 Э б н 6 л ◌ৄ ж v
0x07 А с в 7     г В
0x08 ты д ) 8     час Икс
0x09 р е ( 9   ◌ে я и
0x0A НЧ ж че : Ш ◌ৈ дж С
0x0B ЭКУ Д ; Ш   к ◌ৗ
0x0C   г ,   С   л д
0x0D ЧР час Д п Да, это ◌ো м Д
0x0E   Джх . ж ◌় ◌ৌ н р
0x0F А Дж Нет ? ◌্ О ш
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для бенгальского и ассамского языков
UDH содержит 0x24 0x01 0x04 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < | п    
0x01 £ = А вопрос    
0x02 $ > Б р    
0x03 ¥ ¡ С С    
0x04 ¿ ^ й Д Т    
0x05 " ¡   И В  
0x06 ¤ _   Ф V    
0x07 % # ◌ৢ   г В    
0x08 & * {   ЧАС Икс    
0x09 ' }   я И    
0x0A ФФ ◌ৣ   Дж С    
0x0B * СС2   К      
0x0C + [ л      
0x0D CR2 ~ М      
0x0E - ] Н      
0x0F / \   О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница ) Язык пенджаби ( гурмукхи

Блокировка набора символов Shift
для языка пенджаби
UDH содержит 0x25 0x01 0x0A [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ਁ А СП 0 б ◌ਾ ◌ੑ п
0x01 ◌ਂ   ! 1 б ◌ਿ а д
0x02 ◌ਃ   Т 2 м ◌ੀ б р
0x03 А ой й 3 Да ◌ੁ с с
0x04 Ну давай же Ау д 4 р ◌ੂ д т
0x05 Э К Дх 5     Это в
0x06 Э Х Нет 6 л   ж v
0x07 ты с т 7 л   г В
0x08 О д ) 8     час Икс
0x09   нравиться ( 9 Вт ◌ੇ я и
0x0A НЧ Ч че : Ш ◌ੈ дж С
0x0B   ЭКУ ;     к ◌ੰ
0x0C   Ч ,   С   л ◌ੱ
0x0D ЧР с че п час ◌ੋ м с
0x0E   Джх . ж ◌਼ ◌ੌ н а
0x0F А Нет ?   ◌੍ О я
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка пенджаби
UDH содержит 0x24 0x01 0x0A [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | п    
0x01 £ =   А вопрос    
0x02 $ >   Б р    
0x03 ¥ ¡   С С    
0x04 ¿ ^   Д Т    
0x05 " ¡   И В  
0x06 ¤ _ Х   Ф V    
0x07 % # д   г В    
0x08 & * {   ЧАС Икс    
0x09 ' }   я И    
0x0A ФФ З   Дж С    
0x0B * СС2 д   К      
0x0C + ж [ л      
0x0D CR2 ◌ੵ ~ М      
0x0E -   ] Н      
0x0F / \   О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

базовая латиница ) Язык гуджарати (гуджарати и

Блокировка набора символов Shift
для языка гуджарати
UDH содержит 0x25 0x01 0x05 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ઁ Ай СП 0 б ◌ા п
0x01 ◌ં О ! 1 Б ◌િ а д
0x02 ◌ઃ   Т 2 м ◌ી б р
0x03 А О че 3 Да ◌ુ с с
0x04 Этот Ой Доктор 4 рупий ◌ૂ д т
0x05 Э К д 5   ◌ૃ Это в
0x06 е Х Н 6 л ◌ૄ ж v
0x07 А с Т 7 л ◌ૅ г В
0x08 О д ) 8     час Икс
0x09 рупий ( 9 Вт ◌ે я и
0x0A НЧ Ч че : Ш ◌ૈ дж С
0x0B ЭКУ д ; Ш ◌ૉ к
0x0C А Шесть ,   С   л
0x0D ЧР Дж п ЧАС ◌ો м ◌ૢ
0x0E   З . ж ◌઼ ◌ૌ н ◌ૣ
0x0F а эксперт Нет ? ◌્ О
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка гуджарати
UDH содержит 0x24 0x01 0x05 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | п    
0x01 £ =   А вопрос    
0x02 $ >   Б р    
0x03 ¥ ¡   С С    
0x04 ¿ ^   Д Т    
0x05 " ¡   И В  
0x06 ¤ _     Ф V    
0x07 % #     г В    
0x08 & * {   ЧАС Икс    
0x09 ' }   я И    
0x0A ФФ     Дж С    
0x0B * СС2     К      
0x0C +   [ л      
0x0D CR2   ~ М      
0x0E -   ] Н      
0x0F / \   О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Язык ория (ория и базовая латиница) [ править ]

Блокировка набора символов Shift
для языка ория
UDH содержит 0x25 0x01 0x09 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ଁ А СП 0 б ◌ା ◌ୖ п
0x01 ◌ଂ   ! 1 Бх ◌ି а д
0x02 ◌ଃ   Т 2 м ◌ୀ б р
0x03 А О 10 3 Дж ◌ୁ с с
0x04 А А Доктор 4 из ◌ୂ д т
0x05 Э а д 5   ◌ୃ Это в
0x06 РС б заем 6 л ж v
0x07 А с Так 7 л   г В
0x08 ты д ) 8     час Икс
0x09 рупий Н ( 9 ◌େ я и
0x0A НЧ Ч че : Ш ◌ୈ дж С
0x0B ЭКУ Д ; рупий   к ◌ୗ
0x0C   Ч ,   С   л
0x0D ЧР Дж Д п Ха ◌ୋ м
0x0E   Дж . ж ◌଼ ◌ୌ н ◌ୢ
0x0F А Нет Нет ? б ◌୍ О ◌ୣ
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка ория
UDH содержит 0x24 0x01 0x09 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | п    
0x01 £ =   А вопрос    
0x02 $ >   Б р    
0x03 ¥ ¡   С С    
0x04 ¿ ^   Д Т    
0x05 " ¡   И В  
0x06 ¤ _ буря   Ф V    
0x07 % # Д   г В    
0x08 & * {   ЧАС Икс    
0x09 ' }   я И    
0x0A ФФ Да   Дж С    
0x0B * СС2   К      
0x0C + Вт [ л      
0x0D CR2   ~ М      
0x0E -   ] Н      
0x0F / \   О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Тамильский язык (тамильский и базовая латиница) [ править ]

Блокировка набора символов Shift
для тамильского языка
UDH содержит 0x25 0x01 0x0B [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00   я СП 0   ◌ா п
0x01 ◌ஂ   ! 1   ◌ி а д
0x02 ◌ஃ О Д 2 М ◌ீ б р
0x03 А ой   3 Да ◌ு с с
0x04 Корова Ой   4 р ◌ூ д т
0x05 е Ка   5 р   Это в
0x06 Э   Нет 6 Ла   ж v
0x07 ты   че 7 л   г В
0x08 ж   ) 8 Д ◌ெ час Икс
0x09   ЧАС ( 9 Вт ◌ே я и
0x0A НЧ Ч   : Ш ◌ை дж С
0x0B   ЭКУ   ; Ш   к ◌ௗ
0x0C     , Н С ◌ொ л
0x0D ЧР Дж   п Ха ◌ோ м
0x0E А   .     ◌ௌ н
0x0F А Солнце На ?   ◌் О
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для тамильского языка
UDH содержит 0x24 0x01 0x0B [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | п    
0x01 £ =   А вопрос    
0x02 $ >   Б р    
0x03 ¥ ¡   С С    
0x04 ¿ ^   Д Т    
0x05 " ¡   И В  
0x06 ¤ _   Ф V    
0x07 % #   г В    
0x08 & * {   ЧАС Икс    
0x09 ' }   я И    
0x0A ФФ   Дж С    
0x0B * СС2   К      
0x0C + [ л      
0x0D CR2 ~ М      
0x0E - ] Н      
0x0F / \   О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Язык телугу (телугу и базовая латиница) [ править ]

Блокировка набора символов Shift
для языка телугу
UDH содержит 0x25 0x01 0x0C [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ఁ я СП 0 б ◌ా ◌ౕ п
0x01 ◌ం   ! 1 Бх ◌ి а д
0x02 ◌ః О Т 2 м ◌ీ б р
0x03 А О че 3 Да ◌ు с с
0x04 Что Ой д 4 р ◌ూ д т
0x05 е К Доктор 5 р ◌ృ Это в
0x06 Этот Х н 6 ◌ౄ ж v
0x07 ты г че 7 л   г В
0x08 Ой г ) 8   ◌ె час Икс
0x09 р Дж ( 9 че ◌ే я и
0x0A НЧ Ч че : Ш ◌ై дж С
0x0B ЭКУ ; Ш   к ◌ౖ
0x0C   Ч ,   С ◌ొ л
0x0D ЧР А че п Ха ◌ో м
0x0E А Джа . Ф   ◌ౌ н ◌ౢ
0x0F А Его на ? ◌్ О ◌ౣ
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка телугу
UDH содержит 0x24 0x01 0x0C [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < | п    
0x01 £ = А вопрос    
0x02 $ > ౿ Б р    
0x03 ¥ ¡   С С    
0x04 ¿ ^   Д Т    
0x05 " ¡   И В    
0x06 ¤ _   Ф V    
0x07 % #   г В    
0x08 & * {   ЧАС Икс    
0x09 '   }   я И    
0x0A ФФ     Дж С    
0x0B * СС2   К      
0x0C + [ л      
0x0D CR2 ~ М      
0x0E - ] Н      
0x0F / \   О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

Язык каннада (каннада и базовая латиница) [ править ]

Блокировка набора символов Shift
для языка каннада
UDH содержит 0x25 0x01 0x07 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 ! 
0x00   я СП 0 б п
0x01   ! 1 Бх ಿ а д
0x02 О Т 2 м б р
0x03 А О че 3 Да с с
0x04 Что Ау п 4 р д т
0x05 Э К Д 5 Это в
0x06 Этот Х н 6 л ж v
0x07 А г че 7 РС   г В
0x08 Ой хх ) 8   час Икс
0x09 рупий ( 9 Вт я и
0x0A НЧ Ч че : Ш дж С
0x0B ЭКУ ; Ш   к
0x0C   Ч ,   С л
0x0D ЧР Дж Дх п ЧАС м
0x0E А З . Ф н
0x0F А Н из ? О
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка каннада
UDH содержит 0x24 0x01 0x07 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 ! 
0x00 @ <   | п    
0x01 £ =   А вопрос    
0x02 $ >   Б р    
0x03 ¥ ¡   С С    
0x04 ¿ ^   Д Т    
0x05 " ¡   И В  
0x06 ¤ _   Ф V    
0x07 % #   г В    
0x08 & * {   ЧАС Икс    
0x09 ' }   я И    
0x0A ФФ   Дж С    
0x0B * СС2     К      
0x0C +   ] л      
0x0D CR2   ~ М      
0x0E -   ] Н      
0x0F / \   О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

и базовая латиница ) Язык малаялам ( малаялам

Блокировка набора символов Shift
для языка малаялам
UDH содержит 0x25 0x01 0x08 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 ! 
0x00   я СП 0 б п
0x01   ! 1 Бха ി а д
0x02 О Т 2 м б р
0x03 А ой че 3 Да с с
0x04 Что Ой Доктор 4 р д т
0x05 Э К Эх 5 р Это в
0x06 Этот Ха Нет 6 Ла ж v
0x07 ты Га че 7 л   г В
0x08 Ой Га ) 8 Да час Икс
0x09 р Хм ( 9 Вт я и
0x0A НЧ Ч че : Ш дж С
0x0B ЭКУ ; Ш   к
0x0C   Ч ,   С л
0x0D ЧР Дж Дх п Ха м
0x0E А Джа . Пт   н
0x0F А Воскресенье Нет ? О
  • LF — это элемент управления переводом строки.
  • CR — это элемент управления возвратом каретки или заполнитель.
  • ESC — это элемент управления Escape.
  • SP — космический персонаж.
Набор символов с одной сменой
для языка малаялам
UDH содержит 0x25 0x01 0x08 [2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 ! 
0x00 @ < Н - п    
0x01 £ = р А вопрос    
0x02 $ > в Б р    
0x03 ¥ ¡ л С С    
0x04 ¿ ^ К Д Т    
0x05 " ¡   И В  
0x06 ¤ _   Ф V    
0x07 % #   г В    
0x08 & * {   ЧАС Икс    
0x09 ' }   я И    
0x0A ФФ   Дж С    
0x0B * СС2   К      
0x0C + [ л      
0x0D CR2 ~ М      
0x0E - Нет ] Н      
0x0F / \   О      
  • FF — это элемент управления разрывом страницы. Если он не распознан, он должен рассматриваться как LF .
  • CR2 — управляющий символ. В этой позиции не должны кодироваться никакие символы, специфичные для языка.
  • SS2 — это второй элемент управления аварийным выходом в одну смену, зарезервированный для будущих расширений.

См. также [ править ]

Ссылки [ править ]

  1. ^ 3GPP TS 23.038 , Алфавиты и информация для конкретного языка.
  2. ^ Перейти обратно: а б с д Это ж г час я дж к л м н О п д р с т в v В Икс и С аа аб Алфавиты и информация, специфичная для языка (3G TS 23.038, версия 12.0.0) (архивированный файл .doc), ETSI, сентябрь 2014 г.
  3. ^ «Текстовые сообщения [...] содержат до 140 октетов». в 3GPP TS 23.040 Техническая реализация службы коротких сообщений (SMS)
  4. ^ GSM 03.38 в Unicode GSM 03.38 в Unicode
  5. ^ Чад Селф (08 ноября 2012 г.). «Приключения в Юникоде СМС» . Твилио. Архивировано из оригинала 8 сентября 2015 г. Проверено 28 августа 2015 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: FE3EDF4E33227C2D3DD2A1399BA1DE4A__1714135560
URL1:https://en.wikipedia.org/wiki/GSM_03.38
Заголовок, (Title) документа по адресу, URL1:
GSM 03.38 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)