GSM 03.38 - GSM 03.38

В мобильная телефония GSM 03.38 или же 3GPP 23.038 это кодировка символов используется в GSM сети для SMS (Служба коротких сообщений), CB (Сотовая трансляция ) и USSD (Неструктурированные дополнительные служебные данные). Стандарт 3GPP TS 23.038 (первоначально рекомендация GSM 03.38) определяет 7-битный алфавит GSM по умолчанию что является обязательным для телефонов GSM и сетевых элементов,[1] но набор символов подходит только для английский и ряд западноевропейских языков. Такие языки, как китайский, корейский или японский, необходимо передавать с помощью 16-битной UCS-2 кодировка символов. Ограниченное количество языков, например португальский, испанский, турецкий и ряд языков, используемых в Индия написано с Брахмические сценарии может использовать 7-битную кодировку с таблица смены национального языка определено в 3GPP 23.038. За двоичные сообщения, Используется 8-битная кодировка.

7-битный алфавит GSM по умолчанию и таблица расширений 3GPP TS 23.038 / GSM 03.38

Стандартным кодированием для сообщений GSM является 7-битный алфавит по умолчанию, как определено в рекомендации 23.038.

Семибитные символы должны быть закодированы в октеты в одном из трех режимов упаковки:

  • CBS: используя эту кодировку, можно отправить до 93 символов (с упаковкой до 82 октетов) в одном SMS-сообщении в службе сотового вещания.
  • SMS: используя эту кодировку, можно отправить до 160 символов (упакованных до 140 октетов) в одном SMS-сообщении в сети GSM.
  • USSD: используя эту кодировку, можно отправить до 182 символов (упакованных до 160 октетов) в одном SMS-сообщении с неструктурированными дополнительными служебными данными.
Базовый набор символов[2]
 0x000x100x200x300x400x500x600x70
0x00@ΔSP0¡п¿п
0x01£_!1АQаq
0x02$Φ"2Bрбр
0x03¥Γ#3CScs
0x04èΛ¤4DТdт
0x05éΩ%5EUеты
0x06ùΠ&6FVжv
0x07яΨ'7граммWграммш
0x08òΣ(8ЧАСИксчасИкс
0x09ÇΘ)9яYяу
0x0ALFΞ*:JZjz
0x0BØESC+;KÄkä
0x0CøÆ,<LÖлö
0x0DCRæ-=MÑмñ
0x0EÅSS.>NÜпü
0x0FåÉ/?О§оà
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC - это таблица Escape to extension (отображается в NBSP).
  • SP является космическим персонажем.
Расширение базового набора символов[2]
 0x000x100x200x300x400x500x600x70
0x00    |   
0x01        
0x02        
0x03        
0x04 ^      
0x05       
0x06        
0x07        
0x08  {     
0x09  }     
0x0AFF       
0x0B SS2      
0x0C   [    
0x0DCR2  ~    
0x0E   ]    
0x0F       
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Это важно (особенно когда сообщение нужно сегментировать с помощью составное SMS механизм), что символы из таблицы базового набора символов занимают один септет, символы из таблицы расширения базового набора символов занимают два септета.

Обратите внимание, что вторая часть таблицы доступна только в том случае, если устройство GSM поддерживает 7-битный механизм расширения, используя префикс символа ESC. В противном случае сам код ESC интерпретируется как пробел, а следующий символ будет обрабатываться так, как если бы не было ведущего кода ESC.

Большая часть верхней части таблицы не используется в наборе символов по умолчанию, но стандарт GSM определяет некоторые индикаторы кода языка, которые позволяют системе определять национальные варианты этой части для поддержки большего количества символов, чем показано в приведенной выше таблице.

В стандартном текстовом сообщении GSM все символы кодируются с использованием 7-битных кодовых единиц, упакованных вместе для заполнения всех битов октетов. Так, например, 140-октетный конверт SMS,[3] без индикатора другого языка, но только со стандартным префиксом класса, может транспортировать до (140 * 8) / 7 = 160, то есть 160 7-битных символов GSM (но обратите внимание, что код ESC считается для одного из них, если символы в используется высокая часть стола).

Могут быть отправлены более длинные сообщения, но для последующих SMS-сообщений потребуется префикс продолжения и порядковый номер (эти байты префикса и порядковый номер считаются в пределах максимальной длины 140-октетной полезной нагрузки формата конверта).

Когда в последнем октете сообщения имеется от 1 до 6 запасных битов, эти биты устанавливаются в ноль (эти биты не считаются символом, а только заполнителем). Когда в последнем октете сообщения есть 7 запасных битов, эти биты устанавливаются на 7-битный код элемента управления CR (также используемый как заполнитель заполнения) вместо того, чтобы быть установленным на ноль (где их можно было бы спутать с 7-битный код символа '@').

Эта 7-битная кодировка позволяет транспортировать тексты, закодированные в подмножестве ASCII Basic Latin, а также некоторые символы из набора символов ISO Latin 1. Он также позволяет кодировать тексты, написанные греческим шрифтом, но только заглавными буквами; для такого использования в греческом языке заглавные латинские буквы, похожие на греческие, используются повторно с тем же кодом, так что приведенный выше набор символов является полным только для современного монотонного греческого языка, ограниченного заглавными буквами. Для полной поддержки греческого алфавита (включая строчные буквы) требуется национальная версия смещенной 7-битной таблицы (с использованием кода ESC для каждого национального символа, закодированного в этой смещенной таблице), или неуказанная проприетарная 8-битная кодировка, или использование кодировки UCS-2 (см. ниже).

Обратите внимание, что специальный код, отмеченный SS2 в приведенной выше таблице также был назначен (и закодирован как 0x1B, 0x1B), чтобы разрешить использование другой альтернативной 7-битной таблицы сдвига. Но этот механизм никогда не использовался, и предпочтение было отдано кодировке UCS-2.

8-битное кодирование данных GSM

В 8-битном режиме кодирования данных информация обрабатывается как необработанные данные. Согласно стандарту алфавит для этой кодировки зависит от пользователя.

Кодировка UCS-2

Эта кодировка позволяет использовать больший диапазон символов и языков. UCS-2 может представлять наиболее часто используемые латинские и восточные символы за счет больших затрат места. Строго говоря, UCS-2 ограничен символами в Базовая многоязычная плоскость. Однако, поскольку современные среды программирования не предоставляют кодировщики или декодеры для UCS-2, некоторые сотовые телефоны (например, айфоны ) использовать UTF-16 вместо UCS-2.[4] Это работает, потому что для символов в базовой многоязычной плоскости (включая полные алфавиты большинства современных человеческих языков) кодировки UCS-2 и UTF-16 идентичны. Для кодирования символов вне BMP (недоступных в обычном UCS-2), например Эмодзи, UTF-16 использует суррогатные пары, которые при декодировании с помощью UCS-2 будут отображаться как два действительных, но не сопоставленных кодовые точки.

Одно SMS-сообщение GSM с использованием этой кодировки может содержать не более 70 символов (140 октетов).

Обратите внимание, что на многих сотовых телефонах GSM нет специального предварительного выбора кодировки UCS-2. По умолчанию используется 7-битная кодировка, описанная выше, до тех пор, пока не будет введен символ, которого нет в 7-битной таблице GSM (например, строчная буква «а» с акцентом: «á»). В этом случае все сообщение перекодируется с использованием кодировки UCS-2, а максимальная длина сообщения, отправляемого в одном SMS-сообщении, сразу же сокращается до 70 символов вместо 160. Другие значения зависят от выбора и конфигурации приложения SMS. , а длина сообщения[нужна цитата ].

Чтобы избежать непредвиденных расходов для отправителей, которые имеют подписку на ограниченный пакет отправляемых SMS, приложения должны[согласно кому? ] отображать количество используемых символов и максимальное количество символов в составленном SMS. Когда сообщение превышает этот максимум, сообщение будет[требуется разъяснение ] быть отправленными в виде нескольких последовательных SMS-сообщений, содержащих части сообщения (каждое из которых содержит порядковый номер, который также использует несколько ведущих символов в каждой части); эти части предназначены для[нужна цитата ] собираются позже получателем.

Некоторые приложения предупреждают пользователя, когда сообщение требует разделения, или даже отправляют более длинное сообщение в виде мультимедийное сообщение (MMS).

Таблицы смены национальных языков

Начиная с выпуска 8 3GPP 23.038 марта 2008 г., дополнительные наборы символов можно получить с помощью таблиц сдвига национальных языков.

Эти таблицы позволяют использовать различные наборы символов в зависимости от языка, на котором будет написан текст. Выбор таблицы для данного сообщения выбирается в Заголовок пользовательских данных раздел SMS-сообщения и может быть указан для всего текста ( Блокировка таблица сдвига, заменяющая стандартную 7-битную таблицу алфавита по умолчанию GSM) или одиночный символ (Одинокий таблица сдвига, заменяющая 7-битную таблицу расширения алфавита по умолчанию GSM). Блокировка и Одинокий Таблицы сдвига вместе в одном сообщении возможны, если необходимо заменить стандартную таблицу алфавита по умолчанию и таблицу расширения алфавита по умолчанию.

Используя таблицу сдвига, сообщение может по-прежнему использовать 7-битную кодировку символов, но можно выбрать другой набор для правильного отображения акцентированных и языковых символов. Это позволяет использовать до 155 символов, закодированных в 136 октетов (140 октетов, минус 4 октета Заголовок пользовательских данных требуется для указания использования таблицы смен и кода языка). С обоими Блокировка и Одинокий таблицы сдвига, допускается до 152 символов, закодированных в 133 октета (140 октетов, минус 7 октетов Заголовок пользовательских данных ).

Символы из любой таблицы с блокировкой сдвига занимают один септет, символы из таблицы одинарного сдвига (или таблицы расширения базового набора символов) занимают два септета.

Изначально были указаны таблицы смен только для турецкого языка; Испанский и португальский были добавлены в более поздних версиях версии 8. В версии 9 представлены 10 языков, используемых в Индии, написанных с Брахмические сценарии (Бенгальский, гуджарати, хинди, каннада, малаялам, ория, пенджаби, тамильский, телугу) и Урду.

До сих пор не существует определенной таблицы сдвига национального языка для французского, греческого, русского, болгарского, арабского, иврита и большинства центральноевропейских языков, которые нуждаются в лучшем охвате, чем 7-битный стандартный набор символов по умолчанию и 7-битный набор символов расширения по умолчанию: если когда-либо составлен какой-либо символ, который не может быть представлен в этих 7-битных наборах GSM по умолчанию, сообщение будет автоматически перекодировано с использованием UCS-2 с эффектом деления более чем на два максимальной длины в символах сообщений, которые могут быть отправлены по цене одного SMS (когда сообщение разбито на несколько частей, требуется несколько других октетов в Заголовок пользовательских данных чтобы указать порядковый номер каждой части).

Хотя в редакции GSM 03.38 (уже в версии 4.0.1 от сентября 1994 г.) были определены значения схемы кодирования данных для Сотовая трансляция Система (CBS) для немецкого, английского, итальянского, французского, испанского, голландского, шведского, датского, финского, норвежского, греческого и турецкого языков; с добавлением в более поздних редакциях венгерского, польского, чешского, иврита, арабского, русского и исландского языков, таблицы кодирования для этих языков не определены. Это поле предназначалось исключительно для определения языка сообщения.

Также нет таблицы языкового сдвига для японского, написанного базовыми канами, для корейского, написанного хангыльским чамос, или для китайского, написанного ханьским письмом. В Японии это часто не проблема, поскольку для обмена сообщениями используются стандарты, отличные от GSM и WAP. Два других языка также содержат слишком много разных символов, чтобы поместиться в 7-битную таблицу сдвига.

Испанский язык (латиница)

Для испанского языка нет специального набора символов с блокировкой сдвига. Использует базовый набор символов по умолчанию.

Базовый набор символов
по умолчанию
(Для испанского языка не определена блокирующая таблица сдвига)[2]
 0x000x100x200x300x400x500x600x70
0x00@ΔSP0¡п¿п
0x01£_!1АQаq
0x02$Φ"2Bрбр
0x03¥Γ#3CScs
0x04èΛ¤4DТdт
0x05éΩ%5EUеты
0x06ùΠ&6FVжv
0x07яΨ'7граммWграммш
0x08òΣ(8ЧАСИксчасИкс
0x09ÇΘ)9яYяу
0x0ALFΞ*:JZjz
0x0BØESC+;KÄkä
0x0CøÆ,<LÖлö
0x0DCRæ-=MÑмñ
0x0EÅSS.>NÜпü
0x0FåÉ/?О§оà
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для испанского языка
UDH содержит 0x24 0x01 0x02[2]
 0x000x100x200x300x400x500x600x70
0x00    |   
0x01    Á á 
0x02        
0x03        
0x04 ^      
0x05     Úú
0x06        
0x07        
0x08  {     
0x09ç } Я я 
0x0AFF       
0x0B SS2      
0x0C   [    
0x0DCR2  ~    
0x0E   ]    
0x0F   Ó ó 
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Португальский язык (латиница)

Блокировка набора символов Shift
для португальского языка
UDH содержит 0x25 0x01 0x03[2]
 0x000x100x200x300x400x500x600x70
0x00@ΔSP0Яп~п
0x01£_!1АQаq
0x02$ª"2Bрбр
0x03¥Ç#3CScs
0x04êАº4DТdт
0x05é%5EUеты
0x06ú^&6FVжv
0x07я'7граммWграммш
0x08ó(8ЧАСИксчасИкс
0x09çÓ)9яYяу
0x0ALF|*:JZjz
0x0BÔESC+;KÃkã
0x0CôÂ,<LÕлх
0x0DCRâ-=MÚм`
0x0EÁÊ.>NÜпü
0x0FáÉ/?О§оà
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для португальского языка
UDH содержит 0x24 0x01 0x03[2]
 0x000x100x200x300x400x500x600x70
0x00    |   
0x01    А Â 
0x02 Φ      
0x03 Γ      
0x04 ^      
0x05êΩ   Úú
0x06 Π      
0x07 Ψ      
0x08 Σ{     
0x09çΘ} Я я 
0x0AFF       
0x0BÔSS2   Ã ã
0x0Cô  [ Õ х
0x0DCR2  ~    
0x0EÁ  ]    
0x0FáÊ Ó óâ
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Турецкий язык (латиница)

Блокировка набора символов Shift
для турецкого языка
UDH содержит 0x25 0x01 0x01[2]
 0x000x100x200x300x400x500x600x70
0x00@ΔSP0Япçп
0x01£_!1АQаq
0x02$Φ"2Bрбр
0x03¥Γ#3CScs
0x04Λ¤4DТdт
0x05éΩ%5EUеты
0x06ùΠ&6FVжv
0x07яΨ'7граммWграммш
0x08òΣ(8ЧАСИксчасИкс
0x09ÇΘ)9яYяу
0x0ALFΞ*:JZjz
0x0BГРАММESC+;KÄkä
0x0CграммŞ,<LÖлö
0x0DCRş-=MÑмñ
0x0EÅSS.>NÜпü
0x0FåÉ/?О§оà
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для турецкого языка
UDH содержит 0x24 0x01 0x01[2]
 0x000x100x200x300x400x500x600x70
0x00    |   
0x01        
0x02        
0x03     Şçş
0x04 ^      
0x05       
0x06        
0x07    ГРАММ грамм 
0x08  {     
0x09  } Я я 
0x0AFF       
0x0B SS2      
0x0C   [    
0x0DCR2  ~    
0x0E   ]    
0x0F       
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Язык урду (арабский и базовые латинские шрифты)

Его также можно использовать для Язык синдхи также написано арабским шрифтом.

Иногда его можно использовать для арабский язык также, но восточные цифры (закодированные здесь в их персидско-индуистском варианте) не будут использоваться в этом случае, потому что стандартный арабский язык предпочитает свои традиционные восточно-арабские цифры и часто будет заменен западными арабскими цифрами (закодированными в блокирующем сдвиге набор символов в столбце 0x30), которые теперь также часто используются в урду. Однако в Индии телефоны, распознающие обозначение арабского языка, могут заменять персидско-индуистские варианты восточных арабских цифр на традиционные восточно-арабские цифры.

Блокировка набора символов Shift
для языка урду
UDH содержит 0x25 0x01 0x0D[2]
 0x000x100x200x300x400x500x600x70
0x00اثSP0صں◌ٔп
0x01آج!1ضڻаq
0x02بځڏ2طڼбр
0x03ٻڄڍ3ظوcs
0x04ڀڃذ4عۄdт
0x05پڅر5فەеты
0x06ڦچڑ6قہжv
0x07تڇړ7کھграммш
0x08ۂح)8ڪءчасИкс
0x09ٿخ(9ګیяу
0x0ALFدڙ:گېjz
0x0BٹESCز;ڳےk◌ٕ
0x0Cٽڌ,ښڱ◌ٍл◌ّ
0x0DCRڈږسل◌ِм◌ٓ
0x0Eٺډ.شم◌ُп◌ٖ
0x0Fټڊژ?ن◌ٗо◌ٰ
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для языка урду
UDH содержит 0x24 0x01 0x0D[2]
 0x000x100x200x300x400x500x600x70
0x00@<۴◌ؓ|п  
0x01£=۵◌ؔАQ  
0x02$>۶؛Bр  
0x03¥¡۷؟CS  
0x04¿^۸ـDТ  
0x05"¡۹◌ْEU 
0x06¤_،◌٘FV  
0x07%#؍٫граммW  
0x08&*{٬ЧАСИкс  
0x09'؀}ٲяY  
0x0AFF؁؎ٳJZ  
0x0B*SS2؏ۍK   
0x0C+۰◌ؐ[L   
0x0DCR2۱◌ؑ~M   
0x0E-۲◌ؒ]N   
0x0F/۳۔О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Язык хинди (девенагари и основные латинские шрифты)

Блокировка набора символов Shift
для языка хинди
UDH содержит 0x25 0x01 0x06[2]
 0x000x100x200x300x400x500x600x70
0x00◌ँSP0◌ाп
0x01◌ं!1◌िаq
0x02◌ः2◌ीбр
0x033◌ुcs
0x044◌ूdт
0x055◌ृеты
0x066◌ॄжv
0x077◌ॅграммш
0x08)8◌ॆчасИкс
0x09(9◌ेяу
0x0ALF:◌ैjz
0x0BESC;◌ॉk
0x0C,◌ॊл
0x0DCR◌ोм
0x0E.◌़◌ौп
0x0F?◌्оॿ
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для языка хинди
UDH содержит 0x24 0x01 0x06[2]
 0x000x100x200x300x400x500x600x70
0x00@<ज़|п  
0x01£=ड़АQ  
0x02$>ढ़Bр  
0x03¥¡फ़CS  
0x04¿^य़DТ  
0x05"¡EU 
0x06¤_◌॑FV  
0x07%#◌॒◌ॢграммW  
0x08&*{◌ॣЧАСИкс  
0x09'}яY  
0x0AFF◌॓JZ  
0x0B*SS2◌॔ K   
0x0C+क़[L   
0x0DCR2ख़~M   
0x0E-ग़]N   
0x0F/ О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Бенгальский и ассамский языки (бенгали и основные латинские шрифты)

Блокировка набора символов Shift
для бенгальского и ассамского языков
UDH содержит 0x25 0x01 0x04[2]
 0x000x100x200x300x400x500x600x70
0x00◌ঁSP0◌বп
0x01◌ং !1◌িаq
0x02◌ঃ 2◌ীбр
0x033◌ুcs
0x044◌ূdт
0x055 ◌ৃеты
0x066◌ৄжv
0x077  граммш
0x08)8  часИкс
0x09(9 ◌েяу
0x0ALF:◌ৈjz
0x0BESC; k◌ৗ
0x0C ,  лড়
0x0DCR◌োмঢ়
0x0E .◌়◌ৌп
0x0F?◌্о
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для бенгальского и ассамского языков
UDH содержит 0x24 0x01 0x04[2]
 0x000x100x200x300x400x500x600x70
0x00@<|п  
0x01£=АQ  
0x02$>Bр  
0x03¥¡CS  
0x04¿^য়DТ  
0x05"¡ EU 
0x06¤_ FV  
0x07%#◌ৢ граммW  
0x08&*{ ЧАСИкс  
0x09'} яY  
0x0AFF◌ৣ JZ  
0x0B*SS2 K   
0x0C+[L   
0x0DCR2~M   
0x0E-]N   
0x0F/ О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Язык пенджаби (гурмухи и базовые латинские шрифты)

Блокировка набора символов Shift
для языка пенджаби
UDH содержит 0x25 0x01 0x0A[2]
 0x000x100x200x300x400x500x600x70
0x00◌ਁSP0◌ਾ◌ੑп
0x01◌ਂ !1◌ਿаq
0x02◌ਃ 2◌ੀбр
0x033◌ੁcs
0x044◌ੂdт
0x055  еты
0x066 жv
0x077ਲ਼ граммш
0x08)8  часИкс
0x09 (9◌ੇяу
0x0ALF:ਸ਼◌ੈjz
0x0B ESC;  k◌ੰ
0x0C ,  л◌ੱ
0x0DCR◌ੋм
0x0E .◌਼◌ੌп
0x0F? ◌੍о
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для языка пенджаби
UDH содержит 0x24 0x01 0x0A[2]
 0x000x100x200x300x400x500x600x70
0x00@< |п  
0x01£= АQ  
0x02$> Bр  
0x03¥¡ CS  
0x04¿^ DТ  
0x05"¡ EU 
0x06¤_ਖ਼ FV  
0x07%#ਗ਼ граммW  
0x08&*{ ЧАСИкс  
0x09'} яY  
0x0AFFਜ਼ JZ  
0x0B*SS2 K   
0x0C+ਫ਼[L   
0x0DCR2◌ੵ~M   
0x0E- ]N   
0x0F/ О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Язык гуджарати (гуджарати и базовые латинские шрифты)

Блокировка набора символов Shift
для гуджарати
UDH содержит 0x25 0x01 0x05[2]
 0x000x100x200x300x400x500x600x70
0x00◌ઁSP0◌ાп
0x01◌ં!1◌િаq
0x02◌ઃ 2◌ીбр
0x033◌ુcs
0x044◌ૂdт
0x055 ◌ૃеты
0x066◌ૄжv
0x077◌ૅграммш
0x08)8  часИкс
0x09(9◌ેяу
0x0ALF:◌ૈjz
0x0BESC;◌ૉk
0x0C,  л
0x0DCR◌ોм◌ૢ
0x0E .◌઼◌ૌп◌ૣ
0x0F?◌્о
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для гуджарати
UDH содержит 0x24 0x01 0x05[2]
 0x000x100x200x300x400x500x600x70
0x00@< |п  
0x01£= АQ  
0x02$> Bр  
0x03¥¡ CS  
0x04¿^ DТ  
0x05"¡ EU 
0x06¤_  FV  
0x07%#  граммW  
0x08&*{ ЧАСИкс  
0x09'} яY  
0x0AFF  JZ  
0x0B*SS2  K   
0x0C+ [L   
0x0DCR2 ~M   
0x0E- ]N   
0x0F/ О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Язык ория (ория и основные латинские шрифты)

Блокировка набора символов Shift
для языка ория
UDH содержит 0x25 0x01 0x09[2]
 0x000x100x200x300x400x500x600x70
0x00◌ଁSP0◌ା◌ୖп
0x01◌ଂ !1◌ିаq
0x02◌ଃ 2◌ୀбр
0x033◌ୁcs
0x044◌ୂdт
0x055 ◌ୃеты
0x066жv
0x077 граммш
0x08)8  часИкс
0x09(9◌େяу
0x0ALF:◌ୈjz
0x0BESC; k◌ୗ
0x0C ,  л
0x0DCR◌ୋм
0x0E .◌଼◌ୌп◌ୢ
0x0F?◌୍о◌ୣ
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для языка ория
UDH содержит 0x24 0x01 0x09[2]
 0x000x100x200x300x400x500x600x70
0x00@< |п  
0x01£= АQ  
0x02$> Bр  
0x03¥¡ CS  
0x04¿^ DТ  
0x05"¡ EU 
0x06¤_ଡ଼ FV  
0x07%#ଢ଼ граммW  
0x08&*{ ЧАСИкс  
0x09'} яY  
0x0AFF JZ  
0x0B*SS2 K   
0x0C+[L   
0x0DCR2 ~M   
0x0E- ]N   
0x0F/ О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Тамильский язык (тамильский и базовый латинский алфавит)

Блокировка набора символов Shift
для тамильского языка
UDH содержит 0x25 0x01 0x0B[2]
 0x000x100x200x300x400x500x600x70
0x00 SP0 ◌ாп
0x01◌ஂ !1 ◌ிаq
0x02◌ஃ2◌ீбр
0x03 3◌ுcs
0x04 4◌ூdт
0x05 5 еты
0x06 6 жv
0x07 7 граммш
0x08 )8◌ெчасИкс
0x09 (9◌ேяу
0x0ALF :◌ைjz
0x0B ESC ; k◌ௗ
0x0C  ,◌ொл
0x0DCR ◌ோм
0x0E .  ◌ௌп
0x0F? ◌்о
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для тамильского языка
UDH содержит 0x24 0x01 0x0B[2]
 0x000x100x200x300x400x500x600x70
0x00@< |п  
0x01£= АQ  
0x02$> Bр  
0x03¥¡ CS  
0x04¿^ DТ  
0x05"¡ EU 
0x06¤_ FV  
0x07%# граммW  
0x08&*{ ЧАСИкс  
0x09'} яY  
0x0AFF JZ  
0x0B*SS2 K   
0x0C+[L   
0x0DCR2~M   
0x0E-]N   
0x0F/ О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Телугу (телугу и основные латинские шрифты)

Блокировка набора символов Shift
для языка телугу
UDH содержит 0x25 0x01 0x0C[2]
 0x000x100x200x300x400x500x600x70
0x00◌ఁSP0◌ా◌ౕп
0x01◌ం !1◌ిаq
0x02◌ః2◌ీбр
0x033◌ుcs
0x044◌ూdт
0x055◌ృеты
0x066◌ౄжv
0x077 граммш
0x08)8 ◌ెчасИкс
0x09(9◌ేяу
0x0ALF:◌ైjz
0x0BESC; k◌ౖ
0x0C , ◌ొл
0x0DCR◌ోм
0x0E. ◌ౌп◌ౢ
0x0F?◌్о◌ౣ
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для языка телугу
UDH содержит 0x24 0x01 0x0C[2]
 0x000x100x200x300x400x500x600x70
0x00@<|п  
0x01£=АQ  
0x02$>౿Bр  
0x03¥¡ CS  
0x04¿^ DТ  
0x05"¡ EU  
0x06¤_ FV  
0x07%# граммW  
0x08&*{ ЧАСИкс  
0x09' } яY  
0x0AFF  JZ  
0x0B*SS2 K   
0x0C+[L   
0x0DCR2~M   
0x0E-]N   
0x0F/ О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Язык каннада (каннада и основные латинские шрифты)

Блокировка набора символов Shift
для языка каннада
UDH содержит 0x25 0x01 0x07[2]
 0x000x100x200x300x400x500x600x70!
0x00 SP0п
0x01 !1ಿаq
0x022бр
0x033cs
0x044dт
0x055еты
0x066жv
0x077 граммш
0x08)8 часИкс
0x09(9яу
0x0ALF:jz
0x0BESC; k
0x0C , л
0x0DCRм
0x0E.п
0x0F?о
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для языка каннада
UDH содержит 0x24 0x01 0x07[2]
 0x000x100x200x300x400x500x600x70!
0x00@< |п  
0x01£= АQ  
0x02$> Bр  
0x03¥¡ CS  
0x04¿^ DТ  
0x05"¡ EU 
0x06¤_ FV  
0x07%# граммW  
0x08&*{ ЧАСИкс  
0x09'} яY  
0x0AFF JZ  
0x0B*SS2  K   
0x0C+ ]L   
0x0DCR2 ~M   
0x0E- ]N   
0x0F/ О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Язык малаялам (малаялам и основные латинские шрифты)

Блокировка набора символов Shift
для малаяламского языка
UDH содержит 0x25 0x01 0x08[2]
 0x000x100x200x300x400x500x600x70!
0x00 SP0п
0x01 !1ിаq
0x022бр
0x033cs
0x044dт
0x055еты
0x066жv
0x077 граммш
0x08)8часИкс
0x09(9яу
0x0ALF:jz
0x0BESC; k
0x0C , л
0x0DCRм
0x0E. п
0x0F?о
  • LF это элемент управления переводом строки.
  • CR является элементом управления возврата каретки или заполнителем.
  • ESC это элемент управления Escape.
  • SP является космическим персонажем.
Набор символов в одну смену
для малаяламского языка
UDH содержит 0x25 0x01 0x08[2]
 0x000x100x200x300x400x500x600x70!
0x00@<-п  
0x01£=АQ  
0x02$>Bр  
0x03¥¡CS  
0x04¿^ൿDТ  
0x05"¡ EU 
0x06¤_ FV  
0x07%# граммW  
0x08&*{ ЧАСИкс  
0x09'} яY  
0x0AFF JZ  
0x0B*SS2 K   
0x0C+[L   
0x0DCR2~M   
0x0E-]N   
0x0F/ О   
  • FF это элемент управления разрывом страницы. Если не распознается, с ним обращаются как LF.
  • CR2 является управляющим персонажем. В этой позиции нельзя кодировать языковые символы.
  • SS2 - это второй элемент управления Single Shift Escape, зарезервированный для будущих расширений.

Смотрите также

Рекомендации

  1. ^ 3GPP TS 23.038, Алфавиты и информация для конкретных языков.
  2. ^ а б c d е ж грамм час я j k л м п о п q р s т ты v ш Икс у z аа ab Информация об алфавитах и ​​языке (3G TS 23.038, версия 12.0.0) (файл .doc), ETSI, сентябрь 2014 г.
  3. ^ «Текстовые сообщения [...] содержат до 140 октетов». в 3GPP TS 23.040 Техническая реализация службы коротких сообщений (SMS)
  4. ^ Чад Селф (2012-11-08). «Приключения в Unicode SMS». Twilio. Архивировано из оригинал на 2015-09-08. Получено 2015-08-28.

внешняя ссылка