Кодировка всех символов тамильского языка

Кодировка всех символов тамильского языка ( TACE16 ) — это схема кодирования в тамильского алфавита области частного использования Unicode существующей , реализующая модель символов на основе слогов , отличающуюся от модифицированной модели ISCII, используемой тамильской реализацией Unicode . ^[1]^[2]

Драйверы клавиатуры и шрифты

Драйвер клавиатуры для этой схемы кодирования доступен Tamil Virtual Academy . бесплатно на веб-сайте ^[3]^[4] Он использует Tamil 99 и Tamil Typewriter раскладки клавиатуры , одобренные правительством штата Тамил Наду , и сопоставляет вводимые нажатия клавиш с соответствующими символами схемы TACE16. ^[2] Для чтения файлов, созданных с помощью TACE16, на том же веб-сайте также доступны соответствующие тамильские шрифты Unicode. ^[3]^[4] Эти шрифты отображают глифы для символов формата TACE16, а также для блока Unicode как для символов ASCII , так и для тамильских символов , так что они могут обеспечить обратную совместимость для чтения существующих файлов, созданных с использованием блока Tamil Unicode .

Набор символов

Все символы этой схемы кодирования расположены в области частного использования базовой многоязычной плоскости универсального Юникода набора кодированных символов .

тамильской кодировки всех символов (TACE16) Набор символов ^[5]
Vowels→		∅	А	И	я	я	В	О	И	БЫЛИ	Ай	ТО	Ой	В	(Разнообразный)
Согласные ↓		_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_А	_Б	_С	_Д	_И	_Ф
(Символы)	U+E10_	௳	௴	௵	௶	௷	௸	௹	௺	○	●	★	Раджа	ௐ
(цифры)	U+E18_	௦	௧	௨	௩	௪	௫	௬	௭	௮	௯	௰	௱	௲
(Дроби)	U+E1A_	𑿌	𑿐	𑿑	𑿓	𑿅	𑿉	𑿎	𑿄	𑿈	𑿋	𑿍	𑿏	𑿀	𑿁	𑿂	𑿆
∅	U+E1F_	்		ா	ி	ீ	ு	ூ	ெ	ே	ை	ொ	ோ	ௌ
∅	U+E20_		А	б	е	Э	ты	Ф	А	А	я	О	ой	Ой	ж
К	U+E21_	К	К	Га	К	Ключ	Ку	Идти	К	К	рука	Ко	Ко	Правительство
Из	U+E22_	Нг	ЧАС	ну давай же	и т. д.	Ну давай же	Нг	Мистер	ну давай же	нравиться	Ну давай же	Мистер	Идти	Нгоу
С	U+E23_	Ч	Ч	Ч	С	С	вс	Сью	сек.	Се	Сай	Так	Так	Чжоу
С	U+E24_	Дж	Солнце	Солнце	Нг	Мистер	Джон	июнь	Солнце	Пн.	Солнце	Джон	Джно	Джно
Ṭ	U+E25_	Т	Д	доктор	Д	Чай	К	Два	Те	День	Галстук	Делать	Делать	Доу
Ṇ	U+E26_	Нет	Нет	Нет	Н	ты	Ню	Число	Нет	Нет	Н	Нет	Нет	Нет
Т	U+E27_	че	че	Та		огонь	че	Чт		чай	тайский	че	Тхо	РС
Н	U+E28_	н	Н	На	Н	ты	Ню	Ню	Не	Не	Нож	Нет	Нет	Сейчас
П	U+E29_	Б	п	Па	Б	Б	Чт	Цветок	Б	Залив	Пирог	Б	идти	Мистер
М	U+E2A_	м	М	Ма	Мистер	м	М	Муу	М	Может	Чернила	Мо	Мо	косить
И	U+E2B_	Да	Да	Да	Йи	да	ты	ты	Да	Да	Да	Да	Йо	Ты
Р	U+E2C_	Р	Р	Ра	Ри	Ре	рупий	рупий	Ре	Рэй	Рожь	рупий	Ро	Рау
л	U+E2D_	В	Ла	Ла	Ли	Ли	Лу	Лу	л	Класть	Ложь	Ло	Ло	Лу
V	U+E2E_	Вт	Вт	ну давай же	В	Ви	Ву	Ву	Вт	Способ	Вай	Ву	Вау	Ух ты
Ḻ	U+E2F_	л	Д	Ну давай же	Дерьмо	Ши	тащить	доктор	Ш	привет	вызов	Мистер	Ой	Чау
Ḷ	U+E30_	в	л	Ла	л	Ли	л	туалет	л	Ле	Лай	л	Ло	Лау
Ṟ	U+E31_	Т	Р	Ра	Ри	Ре	ру	рупий	Ре	Ре	Рэй	Ро	Ро	Рау
Ṉ	U+E32_	из	Н	нет	Ни	Ни	Ню	Нет	Не	Нех	Най	Нет	Нет	Сейчас
Персонажи Гранты
Дж	U+E33_	Дж	Дж	Джа	Г	Ну и дела	Джу	Джу	Дж	Дж	Дж	Дж	Джо	Джоу
Ш	U+E34_	Ш	Ш	Ша	Ши	Ши	Шу	Ш	Ш	Ш	Застенчивый	Ш	Шо	Шау
С	U+E35_	Ш	Ш	Шах	Ши	Она	Шу	Чистка	Она	Шэй	Застенчивый	Шо	Показывать	Шоу
С	U+E36_	С	С	суббота	Си	С	вс	Сью	С	С	Сай	Так	Зои	Мистер
ЧАС	U+E37_	ЧАС	Ха	Ха	Привет	Он	Ху	Хм	ЧАС	Привет	Привет	Да	Хо	Как
Кришна	U+E38_	Кш	Кш	Кша	Кши	Кши	Кшу	Кшу	Кше	Кше	Кшей	Кшо	Кшо	Кшоу	Шри

Легенда:
	Силлабограммы с нерегулярными глифами, которые по своей сути требуют индивидуальной обработки шрифтом. ^[а]
	Недавно добавлено. Нет в Unicode версии 6.3.
	Соответствует символу в блоке тамильских дополнений , добавленном в Unicode версии 12 (2019 г.).
	Выделено на исследования (НЛП)

Сравнение TACE16 с современным тамильским Unicode

Критика стандартной модели символов Юникода для тамильского языка

Модели кодирования Unicode для деванагари , тамильского, каннада , сингальского языка и эмодзи требуют использования невидимых объединяющих символов нулевой ширины и необъединяющих символов нулевой ширины.

Существующая модель символов Юникода для тамильского языка , как и большая часть индийского Юникода , ^[б] модель на основе abugida, полученная из ISCII . Его критиковали по нескольким причинам. ^[1]

Unicode представляет только 31 базовый символ тамильского языка в виде отдельных кодовых точек из 247 кластеров графем . К ним относятся отдельные гласные и 23 основных знака согласных (которые, поскольку не содержат вирамы , тем не менее обозначают слог, содержащий как согласную, так и гласную, когда используются отдельно). Остальные представлены в виде последовательностей кодовых точек, требующих программной поддержки расширенных функций типографики (таких как Apple Advanced Typography , Graphite или расширенная типографика OpenType ) для правильной визуализации. Это также требует использования невидимых соединяющих символов нулевой ширины и несоединяющих символов нулевой ширины в тех местах, где в противном случае желаемый кластер графем был бы неоднозначным. Эта сложность может привести к уязвимостям безопасности и неоднозначным комбинациям, может потребовать использования таблицы исключений для запрета недопустимых комбинаций кодовых точек и может вызвать необходимость использования нормализации строк для сравнения двух строк на предмет равенства.

Кроме того, поскольку слоги, содержащие как согласную, так и гласную, составляют от 64 до 70% тамильского текста, модель на основе абугиды, которая кодирует части согласного и гласного как отдельные кодовые точки, неэффективна с точки зрения того, какой длины должна быть строка, чтобы содержать заданный фрагмент текста по сравнению со слоговой моделью.

Более того, ISCII — это прежде всего кодировка деванагари , а кодировки ISCII других брахмических сценариев (включая тамильский) кодируют символы поверх кодовых точек соответствующих символов в деванагари ISCII. Хотя Unicode кодирует брахмические сценарии отдельно друг от друга, тамильский блок отражает макет ISCII (с порядком символов в стиле деванагари и зарезервированным пространством в позициях, соответствующих символам деванагари, без тамильского эквивалента); следовательно, символы не находятся в естественном порядке последовательности, а строки, сопоставленные по кодовым точкам (аналогично " ASCIIbetical " сортировке английского текста), не будут обеспечивать ожидаемый порядок сортировки. требуется сложный алгоритм сопоставления Для их расположения в естественном порядке .

TACE16 в сравнении

Следующие данные позволяют сравнить текущий тамильский Unicode с TACE16 по электронному управлению и просмотру: ^[1]

TACE16 эффективнее Тамильского Unicode примерно на 5,46–11,94 процента при хранении данных .
TACE16 эффективнее сортировки индексных данных по сравнению с тамильским Unicode примерно на 18,69–22,99 процента.
TACE16 эффективнее тамильского языка Unicode примерно на 25,39%, когда все данные на тамильском языке. Последовательность сопоставления по умолчанию (двоичная) при использовании значений кодового пространства в TACE16 не соответствует порядку словаря тамильского языка.
TACE16 быстрее сортирует тамильский код Unicode примерно на 0,31–16,96 процента.
Создание индекса по данным TACE16 происходит на 36,7% быстрее, чем Unicode.
При полном ключевом поиске по индексированным полям TACE16 работает лучше, чем Unicode Tamil, на 24,07%. В случае неиндексированных полей TACE16 работает лучше, чем тамильский Unicode, на 20,9%.
Рендеринг статических данных на тамильском языке работает с TACE16.

TACE16 обеспечивает улучшение производительности во времени обработки и пространстве обработки. Он охватывает весь общий тамильский текст; это последовательно; и он однозначен: любая точка соответствует только одному символу. ^[1] Система TACE16 требует меньше циклов команд , чем тамильский Unicode, а также позволяет программировать на основе тамильской грамматики, что требует дополнительной разработки структуры в тамильском Unicode.

Ответы Консорциума Unicode

Консорциум Unicode публикует специальную страницу часто задаваемых вопросов по тамильскому алфавиту, на которой представлены ответы на некоторые критические замечания. В защиту модели ISCII Консорциум отмечает, что в ее разработке участвовали опытные лингвисты , типографы и программисты, но признает, что компромиссы были сделаны из-за того, что ISCII был ограничен однобайтовым расширенным ASCII . Консорциум отмечает, что тамильский Unicode теперь реализован во всех основных операционных системах и веб-браузерах , и утверждает, что его следует использовать в открытых контекстах обмена, например в Интернете, поскольку такие инструменты, как поисковые системы, не обязательно смогут идентифицировать или интерпретировать последовательность кодовых точек Unicode для частного использования в виде тамильского текста. Однако Консорциум не возражает против использования схем зон частного использования, включая TACE16, внутри конкретных процессов, для которых они полезны. В частности, в нем подчеркивается, что как схемы разметки , так и альтернативные схемы кодирования могут использоваться исследователями для специализированных целей, таких как обработка естественного языка . ^[6]

Unicode определяет нормативные именованные последовательности для всех чистых тамильских согласных и слогов, которые представлены последовательностями, состоящими более чем из одной кодовой точки, а в рамках стандарта Unicode публикуется специальная таблица, в которой перечислены все эти последовательности в их традиционном порядке, а также их правильные глифы. Консорциум отмечает, что он открыт для принятия предложений по символам, для которых не существует существующего представления Unicode: например, добавление нескольких исторических дробей и других символов в качестве блока тамильского дополнения в версии 12.0 в 2019 году. ^[6]

Что касается сортировки, Консорциум утверждает, что получение правильного результата от сортировки по кодовой точке является скорее исключением, чем правилом, подчеркивая, что в немодифицированном ASCIIbetical упорядочении прописная латинская буква Z сортируется перед строчной буквой a , а также подчеркивая, что правила сортировки часто различаются в зависимости от языка (см., например, ö ). Что касается эффективности использования пространства, Консорциум утверждает, что пространство для хранения и пропускная способность, занимаемые текстом, обычно значительно затмеваются другими сопутствующими медиафайлами, такими как изображения и видео, и что текстовый контент хорошо работает при использовании методов сжатия общего назначения, таких как Deflate (первоначально из архива ZIP) . формат файла , стандартизированный в RFC 1951 и интегрированный в протокол HTTP как общая схема кодирования). ^[6]

Политика стабильности Юникода

При первой публикации (версия 1.0.0) Unicode давал лишь ограниченные гарантии стабильности. Таким образом, исходный тибетский блок был удален в версии 1.0.1 (и его место с тех пор было занято блоком Мьянмы ), а исходный блок корейских слогов был удален в версии 2.0 (и теперь занят CJK Unified Ideographs Extension). А ). И текущий блок Hangul Syllables для корейских слогов, и текущий блок тибетского языка относятся к Unicode 2.0. Это было сделано исходя из предположения, что существующего контента с использованием Unicode для этих систем письменности практически не существует. ^[7] поскольку это нарушит совместимость со всем существующим содержимым Unicode и методами ввода для этих систем письма. После этого так называемого «корейского беспорядка» ответственные комитеты обязались никогда больше не вносить подобные изменения, нарушающие совместимость. ^[7] который теперь является частью Политики стабильности Unicode. ^[8]

С тех пор эта политика стабильности поддерживается, несмотря на требования перекодировать или изменить модель символов как для тибетского, так и для корейского языка во второй раз, выдвинутые Китаем и Северной Кореей соответственно. ^[9]^[10]^[11]^[12] Аналогично и в отношении тамильского языка, Консорциум подчеркивает «важнейший вопрос поддержания стабильности стандарта для существующих реализаций» и утверждает, что «последующие затраты и последствия дестабилизации стандарта» существенно перевесят любые преимущества эффективности в скорости обработки или хранения. космос. ^[6]

Было предложение перекодировать тамильский язык. ^[13] это было отклонено Unicode, который заявил, что перекодирование будет вредным и что не существует убедительных доказательств того, что тамильская кодировка Unicode несовершенна. ^[14]

Альтернативы

Открытый-тамильский

Открытый тамильский проект ^[15] обеспечивает множество общих операций. Он утверждает, что соответствует уровню 1 обработки текста на тамильском языке без использования TACE16, но написан поверх дополнительной программной логики, которая необходима для тамильского языка Unicode.

См. также

Код тамильского письма для обмена информацией
AnyTaFont2UTF8 — проект с открытым исходным кодом для всех символов тамильской кодировки/шрифтов.

Сноски

^ Выделенные слогограммы в столбцах U и Ū — это те, в которых гласная часть глифа не соответствует ни простым формам соединения, показанным для тех, кто объединяет знаки гласных в блок-диаграмме Unicode, ни формам Grantha, соединяющимся справа (как используется для тех, кто объединяет гласные маркируются изолированно, например, шрифтами Noto ).
^ За исключением тибетского языка , в котором используется другая модель, а также тайского и родственных сценариев, в которых используется модель, полученная из TIS-620 .

Ссылки

^ Перейти обратно: ^а ^б ^с ^д ОТЧЕТ ОБ ОКОНЧАТЕЛЬНЫХ РЕКОМЕНДАЦИЯХ ЦЕЛЕВОЙ ГРУППЫ ПО TACE16 (PDF) (Отчет).
^ Перейти обратно: ^а ^б «ТЕНДЕРНЫЙ ДОКУМЕНТ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16)» (PDF) . Тамильская виртуальная академия .
^ Перейти обратно: ^а ^б «Тамильские шрифты» . ТАМИЛЬСКАЯ ВИРТУАЛЬНАЯ АКАДЕМИЯ
^ Перейти обратно: ^а ^б Постановление правительства Тамилнада (GO), драйверы клавиатуры и шрифты. Архивировано 27 декабря 2023 г. на archive.today.
^ Тамильская виртуальная академия . «Приложение 4: Расширенная клавиатурная последовательность пишущей машинки для Unicode и TACE16» (PDF) . Тендерный документ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16) . Ченнаи .
^ Перейти обратно: ^а ^б ^с ^д «Часто задаваемые вопросы — тамильский язык и письменность» . Консорциум Юникод .
^ Перейти обратно: ^а ^б Йержо, Ф. (1998). UTF-8, формат преобразования ISO 10646 . IETF . дои : 10.17487/rfc2279 . РФК 2279.
^ «Политика стабильности кодировки символов Юникода» . Консорциум Юникод.
^ Уэст, Эндрю (14 сентября 2006 г.). «Предварительно составленный тибетский язык, часть 1: BrdaRten» . Вавилонский камень .
^ Национальный орган Китая (20 октября 2003 г.). «Заявление Китая о специальном Брдартене» . ISO/IEC JTC1/SC2 /WG2 N2674.
^ Карлссон, Кент (2 марта 2000 г.). «Комментарии к предложению КНДР по новому рабочему вопросу, касающемуся корейских иероглифов» . ISO/IEC JTC1/SC2 /WG2 N2167.
^ Чо, Чун-Хуэй (5 июля 2000 г.). «Письмо КНДР об именах персонажей и их порядке в 10646-1:2000» (PDF) . ISO/IEC JTC1/SC2 /WG2 N2231.
^ Анантам, АРАмаити (26 января 2012 г.). «Новые предложения по кодированию» (PDF) . Юникод .
^ «Архив уведомлений о несогласовании» . Юникод . 05.03.2012.
^ Аннамалай, М.; Арулалан, Т., Open-Tamil: инструменты обработки текста на тамильском языке для Python v3 , получено 31 декабря 2023 г.

[6] Выделенные слогограммы в столбцах U и Ū — это те, в которых гласная часть глифа не соответствует ни простым формам соединения, показанным для тех, кто объединяет знаки гласных в блок-диаграмме Unicode, ни формам Grantha, соединяющимся справа (как используется для тех, кто объединяет гласные маркируются изолированно, например, шрифтами Noto ).

[7] За исключением тибетского языка , в котором используется другая модель, а также тайского и родственных сценариев, в которых используется модель, полученная из TIS-620 .

[TACE16Report-1] Перейти обратно: ^а ^б ^с ^д ОТЧЕТ ОБ ОКОНЧАТЕЛЬНЫХ РЕКОМЕНДАЦИЯХ ЦЕЛЕВОЙ ГРУППЫ ПО TACE16 (PDF) (Отчет).

[TNGovernmentTenderDocument-2] Перейти обратно: ^а ^б «ТЕНДЕРНЫЙ ДОКУМЕНТ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16)» (PDF) . Тамильская виртуальная академия .

[KBDFonts-3] Перейти обратно: ^а ^б «Тамильские шрифты» . ТАМИЛЬСКАЯ ВИРТУАЛЬНАЯ АКАДЕМИЯ

[GO-4] Перейти обратно: ^а ^б Постановление правительства Тамилнада (GO), драйверы клавиатуры и шрифты. Архивировано 27 декабря 2023 г. на archive.today.

[5] Тамильская виртуальная академия . «Приложение 4: Расширенная клавиатурная последовательность пишущей машинки для Unicode и TACE16» (PDF) . Тендерный документ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16) . Ченнаи .

[unicodefaq-8] Перейти обратно: ^а ^б ^с ^д «Часто задаваемые вопросы — тамильский язык и письменность» . Консорциум Юникод .

[rfc2279-9] Перейти обратно: ^а ^б Йержо, Ф. (1998). UTF-8, формат преобразования ISO 10646 . IETF . дои : 10.17487/rfc2279 . РФК 2279.

[10] «Политика стабильности кодировки символов Юникода» . Консорциум Юникод.

[11] Уэст, Эндрю (14 сентября 2006 г.). «Предварительно составленный тибетский язык, часть 1: BrdaRten» . Вавилонский камень .

[12] Национальный орган Китая (20 октября 2003 г.). «Заявление Китая о специальном Брдартене» . ISO/IEC JTC1/SC2 /WG2 N2674.

[wg2-n2167-13] Карлссон, Кент (2 марта 2000 г.). «Комментарии к предложению КНДР по новому рабочему вопросу, касающемуся корейских иероглифов» . ISO/IEC JTC1/SC2 /WG2 N2167.

[wg2-n2231-14] Чо, Чун-Хуэй (5 июля 2000 г.). «Письмо КНДР об именах персонажей и их порядке в 10646-1:2000» (PDF) . ISO/IEC JTC1/SC2 /WG2 N2231.

[15] Анантам, АРАмаити (26 января 2012 г.). «Новые предложения по кодированию» (PDF) . Юникод .

[16] «Архив уведомлений о несогласовании» . Юникод . 05.03.2012.

[17] Аннамалай, М.; Арулалан, Т., Open-Tamil: инструменты обработки текста на тамильском языке для Python v3 , получено 31 декабря 2023 г.

[1]

[2]

[3]

[4]

[5]

[а]

[б]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

v т и Кодировки символов
Early telecommunications	Telegraph code Needle Morse Non-Latin Wabun/Kana Chinese Cyrillic Korean Baudot and Murray Fieldata ASCII ISO/IEC 646 BCDIC Teletex and Videotex/Teletext T.51/ISO/IEC 6937 ITU T.61 ITU T.101 World System Teletext background sets Transcode
ISO/IEC 8859	Approved parts -1 (Western Europe) -2 (Central Europe) -3 (Maltese/Esperanto) -4 (North Europe) -5 (Cyrillic) -6 (Arabic) -7 (Greek) -8 (Hebrew) -9 (Turkish) -10 (Nordic) -11 (Thai) -13 (Baltic) -14 (Celtic) -15 (New Western Europe) -16 (Romanian) Abandoned parts -12 (Devanagari) Proposed but not approved KOI-8 Cyrillic Sámi Adaptations Welsh Barents Cyrillic Estonian Ukrainian Cyrillic
Bibliographic use	MARC-8 ANSEL CCCII/EACC ISO 5426 5426-2 5427 5428 6438 6862
National standards	ArmSCII Big5 BraSCII CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 PASCII Shift JIS SI 960 TIS-620 TSCII VISCII VSCII YUSCII
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 Extended Unix Code / EUC
Mac OS Code pages ("scripts")	Armenian Arabic Barents Cyrillic Celtic Central European Croatian Cyrillic Devanagari Farsi (Persian) Font X (Kermit) Gaelic Georgian Greek Gujarati Gurmukhi Hebrew Iceland Inuit Keyboard Latin (Kermit) Maltese/Esperanto Ogham Roman Romanian Sámi Turkish Turkic Cyrillic Ukrainian VT100
DOS code pages	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1034 1040 1042 1043 1044 1098 1115 1116 1117 1118 1127 3846 ABICOMP CS Indic CSX Indic CSX+ Indic CWI-2 Iran System Kamenický Mazovia MIK
IBM AIX code pages	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1124 1133
Windows code pages	CER-GS 932 936 (GBK) 950 1169 Extended Latin-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 Cyrillic + Finnish Cyrillic + French Cyrillic + German Polytonic Greek
EBCDIC code pages	Japanese language in EBCDIC DKOI
DEC terminals (VTx)	Multinational (MCS) National Replacement (NRCS) French Canadian Swiss Spanish United Kingdom Dutch Finnish French Norwegian and Danish Swedish Norwegian and Danish (alternative) 8-bit Greek 8-bit Turkish SI 960 Hebrew Special Graphics Technical (TCS)
Platform specific	1052 1053 1054 1055 1056 1057 1058 Acorn RISC OS Amstrad CPC Apple II ATASCII Atari ST BICS Casio calculators CDC Compucolor 8001 Compucolor II CP/M+ DEC RADIX 50 DEC MCS/NRCS DG International Galaksija GEM GSM 03.38 HP Roman HP FOCAL HP RPL SQUOZE LICS LMBCS MSX NEC APC NeXT PETSCII PostScript Standard PostScript Latin 1 SAM Coupé Sega SC-3000 Sharp calculators Sharp MZ Sinclair QL Teletext TI calculators TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX Spectrum
Unicode / ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 DIN 91379 BOCU-1 CESU-8 SCSU TACE16 Comparison of Unicode encodings
TeX typesetting system	Cork LY1 OML OMS OT1
Miscellaneous code pages	ABICOMP ASMO 449 Digital encoding of APL symbols ISO-IR-68 ARIB STD-B24 Fieldata HZ IEC-P27-1 INIS 7-bit 8-bit ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U Mojikyō SEASCII Stanford/ITS Symbol TRON Unified Hangul Code
Control character	Morse prosigns C0 and C1 control codes ISO/IEC 6429 JIS X 0211 Unicode control, format and separator characters Whitespace characters
Related topics	CCSID Character encodings in HTML Charset detection Han unification Hardware code page MICR code Mojibake Variable-length encoding
Character sets