Кодирование переменной ширины

Кодирование переменной ширины — это тип схемы кодирования символов , в которой коды разной длины используются для кодирования набора символов (репертуара символов) для представления, обычно на компьютере . ^[1]^[а] Наиболее распространенными кодировками переменной ширины являются многобайтовые кодировки , которые используют различное количество байтов ( октетов ) для кодирования разных символов.(Некоторые авторы, особенно в документации Microsoft , используют термин «многобайтовый набор символов», который является неправильным , поскольку размер представления является атрибутом кодировки, а не набора символов.)

Ранние кодировки с переменной шириной, использующие менее байта на символ, иногда использовались для упаковки английского текста в меньшее количество байтов в приключенческих играх для первых микрокомпьютеров . Однако диски (которые, в отличие от лент, допускали произвольный доступ, позволяющий загружать текст по требованию), увеличение компьютерной памяти и алгоритмы сжатия общего назначения сделали такие приемы в значительной степени устаревшими.

Многобайтовые кодировки обычно являются результатом необходимости увеличить количество символов, которые можно закодировать, не нарушая обратной совместимости с существующим ограничением. Например, с помощью одного байта (8 бит) на символ можно закодировать 256 возможных символов; для кодирования более 256 символов очевидным выбором будет использование двух или более байтов на единицу кодирования, два байта (16 бит) позволят использовать 65 536 возможных символов, но такое изменение нарушит совместимость с существующими системами и, следовательно, может оказаться невозможным. быть вообще осуществимым. ^[б]

Общая структура

Поскольку целью системы многобайтового кодирования является минимизация изменений в существующем прикладном программном обеспечении, некоторые символы должны сохранять свои ранее существовавшие однозначные коды, даже если другие символы имеют в своих кодах несколько единиц. В результате в кодировании переменной ширины есть три типа единиц: одиночные элементы , которые состоят из одной единицы, ведущие единицы , которые идут первыми в последовательности из нескольких единиц, и конечные единицы , которые идут после последовательности из нескольких единиц. Программному обеспечению ввода и отображения, очевидно, необходимо знать структуру схемы многобайтового кодирования, но другому программному обеспечению обычно не нужно знать, представляет ли пара байтов два отдельных символа или только один символ.

Например, четырехсимвольная строка « I♥NY » закодирована в UTF-8 следующим образом (показана в виде шестнадцатеричных байтовых значений): 49 Е2 99 А5 4Е 59 . Из шести единиц в этой последовательности 49, 4E и 59 являются одиночными (для I, N и Y ), E2 является ведущей единицей, а 99 и A5 являются замыкающими единицами. Символ сердца представлен комбинацией ведущей единицы и двух последних единиц.

UTF-8 позволяет программе легко идентифицировать три типа единиц, поскольку они попадают в отдельные диапазоны значений. Старые кодировки переменной ширины обычно не так хорошо разработаны, поскольку диапазоны могут перекрываться. Приложение обработки текста, которое занимается кодированием переменной ширины, должно затем сканировать текст с начала всех определенных последовательностей, чтобы идентифицировать различные единицы и правильно интерпретировать текст. В таких кодировках можно столкнуться с ложными срабатываниями при поиске строки в середине текста. Например, если шестнадцатеричные значения DE, DF, E0 и E1 могут быть либо ведущими, либо конечными единицами, то поиск последовательности из двух единиц DF E0 может привести к ложному положительному результату в последовательности DE DF E0 E1, что состоит из двух последовательных двухединичных последовательностей. Существует также опасность того, что одна поврежденная или потерянная единица может сделать неправильной всю интерпретацию большого количества последовательностей из нескольких единиц. В кодировании с переменной шириной, где все три типа единиц не пересекаются, строковый поиск всегда работает без ложных срабатываний, и (при условии, что декодер хорошо написан) повреждение или потеря одной единицы повреждает только один символ.

Многобайтовые кодировки CJK

Впервые многобайтовые кодировки использовались для кодирования китайского, японского и корейского языков, которые имеют большие наборы символов, значительно превышающие 256 символов. Сначала кодирование было ограничено 7 битами. В кодировках ISO -2022-JP, ISO-2022-CN и ISO-2022-KR использовался диапазон 21–7E (шестнадцатеричный) как для ведущих, так и для завершающих единиц, и они отделялись от одиночных элементов с помощью escape-последовательностей ISO 2022, чтобы переключение между однобайтовым и многобайтовым режимом. Сначала можно было закодировать в общей сложности 8836 символов (94×94), а затем — дополнительные наборы символов 94×94 с переключением. Схемы кодирования ISO 2022 для CJK до сих пор используются в Интернете. Характер этих кодировок с сохранением состояния и большое перекрытие делают их очень неудобными для обработки.

На платформах Unix 7-битные кодировки ISO 2022 были заменены набором 8-битных схем кодирования, расширенным кодом Unix: EUC-JP, EUC-CN и EUC-KR. Вместо того, чтобы различать многоединичные последовательности и одиночные последовательности с escape-последовательностями, что делало кодировки сохраняющими состояние, многоединичные последовательности были отмечены установкой наиболее значимого бита, то есть находящимся в диапазоне 80–FF (шестнадцатеричный), в то время как одиночные были только в диапазоне 00–7F. Ведущие и конечные единицы находились в диапазоне от A1 до FE (шестнадцатеричный), то есть в том же диапазоне, что и их диапазон в кодировках ISO 2022, но со старшим битом, установленным в 1. С этими кодировками было достаточно легко работать, если все вашими разделителями были символы ASCII , и вы избегали усечения строк до фиксированной длины, но разрыв в середине многобайтового символа все равно мог привести к серьезному повреждению.

На ПК ( платформы DOS и Microsoft Windows ) были установлены две кодировки для японского и традиционного китайского языка, в которых все одиночные, ведущие и конечные единицы перекрываются: Shift-JIS и Big5 соответственно. В Shift-JIS ведущие единицы имели диапазон 81–9F и E0–FC, следящие единицы имели диапазон 40–7E и 80–FC, а одиночные единицы имели диапазон 21–7E и A1–DF. В Big5 ведущие единицы имели диапазон A1–FE, следящие единицы имели диапазон 40–7E и A1–FE, а одиночные единицы имели диапазон 21–7E (все значения в шестнадцатеричном формате). Это перекрытие снова усложнило обработку, хотя, по крайней мере, большинство символов имели уникальные байтовые значения (хотя, как ни странно, обратная косая черта их не имеет).

Кодировки Unicode переменной ширины

Стандарт Unicode имеет две кодировки переменной ширины: UTF-8 и UTF-16 (также имеется кодировка фиксированной ширины UTF-32 ). Первоначально стандарты Unicode и ISO 10646 должны были иметь фиксированную ширину: Unicode был 16-битным, а ISO 10646 — 32-битным. ^{[ нужна ссылка ]} ISO 10646 предоставил кодировку переменной ширины, называемую UTF-1 , в которой одиночные элементы имели диапазон 00–9F, ведущие единицы — диапазон A0–FF, а конечные единицы — диапазоны A0–FF и 21–7E. Из-за этого плохого дизайна, похожего на Shift JIS и Big5 в перекрытии значений, изобретатели операционной системы Plan 9 , первой полностью реализовавшей Unicode, отказались от нее и заменили ее гораздо лучше разработанной кодировкой переменной ширины для Unicode. : UTF-8, в котором одиночные элементы имеют диапазон 00–7F, ведущие единицы имеют диапазон C0–FD (теперь фактически C2–F4, чтобы избежать слишком длинных последовательностей и поддерживать синхронность с возможностями кодирования UTF-16; см. UTF -8 статья), а следовые отряды имеют диапазон 80–BF. Ведущий блок также сообщает, сколько следящих блоков следует за ним: один после C2–DF, два после E0–EF и три после F0–F4. ^[с]

UTF-16 был разработан, чтобы освободиться от ограничения исходного Unicode (1.x) в 65 536 символов без нарушения совместимости с 16-битной кодировкой. В UTF-16 одиночные элементы имеют диапазон 0000–D7FF (55 296 кодовых точек) и E000–FFFF (8192 кодовых точки, всего 63 488), ведущие единицы — диапазон D800–DBFF (1024 кодовых точки) и конечные единицы — диапазон DC00– DFFF (1024 кодовых точки, всего 2048). Начальные и конечные единицы, называемые в терминологии Unicode старшими и младшими суррогатами , соответственно, отображают 1024×1024 или 1 048 576 дополнительных символов, что составляет 1 112 064 (63 488 кодовых точек BMP + 1 048 576 кодовых точек, представленных старшими и младшими суррогатными парами) кодируемых кодовых точек. или скалярные значения в языке Юникода (суррогатные значения не кодируются).

См. также

wchar_t широкие символы
Набор многобайтовых символов Lotus (LMBCS)
Трехбайтовый набор символов (TBCS)
Двухбайтовый набор символов (DBCS)
Набор однобайтовых символов (SBCS)

Примечания

^ Однако эта концепция задолго до появления электронного компьютера, как видно из азбуки Морзе .
^ В качестве реального примера можно привести UTF-16 , которая представляет наиболее распространенные символы именно так, как только что описано (и использует пары 16-битных кодовых единиц для менее распространенных символов), так и не получила распространения в качестве кодировки текста. предназначен для обмена из-за его несовместимости с повсеместной 7-/8-битной кодировкой ASCII , а его предполагаемую роль вместо этого выполняет UTF-8 , который сохраняет совместимость ASCII.
^ В исходной версии UTF-8, с момента ее публикации в 1992 году до тех пор, пока ее кодовое пространство не было ограничено кодовым пространством UTF-16 в 2003 году, диапазон ведущих единиц, кодирующих конечные последовательности из трех единиц, был больше (F0 – F7); кроме того, за ведущими подразделениями F8–FB следовали четыре следящих подразделения, а за FC–FD – пять. FE – FF никогда не были допустимыми ведущими или конечными единицами ни в одной версии UTF-8.

Ссылки

^ Криспин, М. (1 апреля 2005 г.). Эффективные форматы преобразования Unicode UTF-9 и UTF-18 . дои : 10.17487/rfc4042 .

[2] Однако эта концепция задолго до появления электронного компьютера, как видно из азбуки Морзе .

[3] В качестве реального примера можно привести UTF-16 , которая представляет наиболее распространенные символы именно так, как только что описано (и использует пары 16-битных кодовых единиц для менее распространенных символов), так и не получила распространения в качестве кодировки текста. предназначен для обмена из-за его несовместимости с повсеместной 7-/8-битной кодировкой ASCII , а его предполагаемую роль вместо этого выполняет UTF-8 , который сохраняет совместимость ASCII.

[4] В исходной версии UTF-8, с момента ее публикации в 1992 году до тех пор, пока ее кодовое пространство не было ограничено кодовым пространством UTF-16 в 2003 году, диапазон ведущих единиц, кодирующих конечные последовательности из трех единиц, был больше (F0 – F7); кроме того, за ведущими подразделениями F8–FB следовали четыре следящих подразделения, а за FC–FD – пять. FE – FF никогда не были допустимыми ведущими или конечными единицами ни в одной версии UTF-8.

[1] Криспин, М. (1 апреля 2005 г.). Эффективные форматы преобразования Unicode UTF-9 и UTF-18 . дои : 10.17487/rfc4042 .

[1]

[а]

[б]

[с]

v т и Кодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун/Кана китайский Кириллица корейский Бодо и Мюррей Полевые данные ASCII ИСО/МЭК 646 BCDIC-код Телетекс и Видеотекс / Телетекст Т.51/ИСО/МЭК 6937 ИТ Т.61 ИТ Т.101 Мировая система телетекста фон наборы Перекодировать
ИСО/МЭК 8859	Утвержденные детали -1 (Западная Европа) -2 (Центральная Европа) -3 (мальтийский/эсперанто) -4 (Северная Европа) -5 (кириллица) -6 (арабский) -7 (греческий) -8 (иврит) -9 (турецкий) -10 (Скандинавия) -11 (тайский) -13 (Балтика) -14 (Селтик) -15 (Новая Западная Европа) -16 (румынский) Заброшенные части -12 (Деванагари) Предложено, но не одобрено КОИ-8 кириллица Саамы Адаптации валлийский Баренцева кириллица эстонский Украинская кириллица
Библиографическое использование	МАРК-8 АНСЕЛЬ CCII/EACC ИСО 5426 5426-2 5427 5428 6438 6862
Национальные стандарты	АрмSCII Большой5 БраSCII ЦНС 11643 DIN 66003 ЭЛОТ 927 ГОСТЬ 10859 ГБ 2312 ГБ 12345 ГБ 12052 ГБ 18030 HKSCS ИЩИС ДЖИС Х 0201 ДЖИС Х 0208 ДЖИС Х 0212 ДЖИС Х 0213 ТРЕБОВАНИЕ-7 КПС 9566 КС Х 1001 КС Х 1002 ЛСТ 1564 ЛСТ 1590-4 ПАСХА Сдвиг HE СИ 960 ТИС-620 ТСКИИ ВИСКИ VSCII ДЖОЗЕФ
ИСО/МЭК 2022	ИСО/МЭК 8859 ИСО/МЭК 10367 Расширенный код Unix/EUC
Mac OS Кодовые страницы («сценарии»)	Армянский арабский Баренцева кириллица Селтик Центральноевропейский хорватский Кириллица Деванагари Фарси (персидский) Шрифт X (Кермит) гэльский грузинский Греческий Гуджарати Гурмухи иврит Исландия Инуиты Клавиатура Латынь (Кермит) Мальтийский/Эсперанто Огам Роман румынский Саамы турецкий Тюркская кириллица Украинский ВТ100
Кодовые страницы DOS	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1034 1040 1042 1043 1044 1098 1115 1116 1117 1118 1127 3846 АБИКОМП CS Индик CSX Индик CSX+ Индикация КРИ-2 Иранская система Каменицкий Мазовия ЧТО
Кодовые страницы IBM AIX	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1124 1133
Кодовые страницы Windows	ССЭР-ГС 932 936 ( ГБК ) 950 1169 Расширенная латиница-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий
EBCDIC Кодовые страницы	Японский язык в EBCDIC ДКОИ
DEC Терминалы ( VTx )	Многонациональный (MCS) Национальная замена (NRCS) Французский канадец швейцарский испанский Великобритания Голландский финский Французский норвежский и датский Шведский Норвежский и датский (альтернативный вариант) 8-битный греческий 8-битный турецкий СИ 960 иврит Специальная графика Технический (ТКС)
Зависит от платформы	1052 1053 1054 1055 1056 1057 1058 ОС Acorn RISC Амстрад КТК Яблоко II ПРИЛОЖЕНИЯ Атари СТ БИКС Калькуляторы Касио CDC Компюколор 8001 Компюколор II КП/М+ ОСНОВАНИЕ ДЕКАБРЯ 50 ДЭК МКС / НРКС Генеральный директор по международным делам Галактика драгоценный камень GSM 03.38 HP Роман HP ФОКАЛ ХП РПЛ Сжать ЛИКС ЛМБКС MSX НЭК БТР Следующий ПЕТСКИИ Стандарт PostScript Постскриптум латиница 1 СЭМ Купе Сега СК-3000 Калькуляторы Sharp Шарп МЗ Синклер, QL Телетекст Калькуляторы TI ТРС-80 Вентура Интернэшнл ВИСЦИИ XCCS ZX80 ZX81 ZX Спектр
Юникод / ИСО/МЭК 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC ГБ 18030 ОТ 91379 БУТЫЛКА-1 ЦЭСУ-8 ЮКГУ ТАСЕ16 Сравнение кодировок Unicode
TeX Система набора текста	Корк LY1 ОМЛ ОМС OT1
Разные кодовые страницы	АБИКОМП ЦЕЛЬ 449 Цифровое кодирование символов APL ИСО-ИР-68 АРИБ СТД-B24 Полевые данные ХЗ МЭК-П27-1 РАЗДРАЖЕННЫЙ 7-битный 8-битный ИСО-ИР-169 ИСО 2033 НЕОБХОДИМЫЙ КОИ8-Р КОИ8-RU КОИ8-У Модзикё СЕЗОНЫ Стэнфорд/ИТС Символ ТРОН Единый кодекс хангыль
Управляющий персонаж	Азбука Морзе Коды управления C0 и C1 ИСО/МЭК 6429 ДЖИС Х 0211 Управляющие символы Юникода, формат и символы-разделители Пробельные символы
Связанные темы	CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Кодовая страница оборудования MICR-код Моджибаке Кодирование переменной длины
Наборы символов