Кодировка всех символов тамильского языка
Кодировка всех символов тамильского языка ( TACE16 ) — это схема кодирования в тамильского алфавита области частного использования Unicode существующей , реализующая модель символов на основе слогов , отличающуюся от модифицированной модели ISCII, используемой тамильской реализацией Unicode . [1] [2]
Драйверы клавиатуры и шрифты [ править ]
Драйвер клавиатуры для этой схемы кодирования доступен Tamil Virtual Academy . бесплатно на веб-сайте [3] [4] Он использует Tamil 99 и Tamil Typewriter раскладки клавиатуры , одобренные правительством штата Тамил Наду , и сопоставляет вводимые нажатия клавиш с соответствующими символами схемы TACE16. [2] Для чтения файлов, созданных с помощью TACE16, на том же веб-сайте также доступны соответствующие тамильские шрифты Unicode. [3] [4] Эти шрифты отображают глифы для символов формата TACE16, а также для блока Unicode как для символов ASCII , так и для тамильских символов , так что они могут обеспечить обратную совместимость для чтения существующих файлов, созданных с использованием блока Tamil Unicode .
Набор символов [ править ]
Все символы этой схемы кодирования расположены в области частного использования базовой многоязычной плоскости универсального Юникода набора кодированных символов .
Vowels→ | ∅ | А | И | я | я | В | О | И | БЫЛИ | Ай | ТО | Ой | В | (Разнообразный) | |||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Согласные ↓ | _0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _А | _Б | _С | _Д | _И | _Ф | |
(Символы) | U+E10_ | ௳ | ௴ | ௵ | ௶ | ௷ | ௸ | ௹ | ௺ | ○ | ● | ★ | Раджа | ௐ | |||
(цифры) | U+E18_ | ௦ | ௧ | ௨ | ௩ | ௪ | ௫ | ௬ | ௭ | ௮ | ௯ | ௰ | ௱ | ௲ | |||
(Дроби) | U+E1A_ | 𑿌 | 𑿐 | 𑿑 | 𑿓 | 𑿅 | 𑿉 | 𑿎 | 𑿄 | 𑿈 | 𑿋 | 𑿍 | 𑿏 | 𑿀 | 𑿁 | 𑿂 | 𑿆 |
∅ | U+E1F_ | ் | ா | ி | ீ | ு | ூ | ெ | ே | ை | ொ | ோ | ௌ | ||||
∅ | U+E20_ | А | б | е | Э | ты | Ф | А | А | я | О | ой | Ой | ж | |||
К | U+E21_ | К | К | Га | К | Ключ | Ку | Идти | К | К | рука | Ко | Ко | Правительство | |||
Из | U+E22_ | Нг | ЧАС | ну давай же | и т. д. | Ну давай же | Нг | Мистер | ну давай же | нравиться | Ну давай же | Мистер | Идти | Нгоу | |||
С | U+E23_ | Ч | Ч | Ч | С | С | вс | Сью | сек. | Се | Сай | Так | Так | Чжоу | |||
С | U+E24_ | Дж | Солнце | Солнце | Нг | Мистер | Джон | июнь | Солнце | Пн. | Солнце | Джон | Джно | Джно | |||
Ṭ | U+E25_ | Т | Д | доктор | Д | Чай | К | Два | Те | День | Галстук | Делать | Делать | Доу | |||
Ṇ | U+E26_ | Нет | Нет | Нет | Н | ты | Ню | Число | Нет | Нет | Н | Нет | Нет | Нет | |||
Т | U+E27_ | че | че | Та | огонь | че | Чт | чай | тайский | че | Тхо | РС | |||||
Н | U+E28_ | н | Н | На | Н | ты | Ню | Ню | Не | Не | Нож | Нет | Нет | Сейчас | |||
П | U+E29_ | Б | п | Па | Б | Б | Чт | Цветок | Б | Залив | Пирог | Б | идти | Мистер | |||
М | U+E2A_ | м | М | Ма | Мистер | м | М | Муу | М | Может | Чернила | Мо | Мо | косить | |||
И | U+E2B_ | Да | Да | Да | Йи | да | ты | ты | Да | Да | Да | Да | Йо | Ты | |||
Р | U+E2C_ | Р | Р | Ра | Ри | Ре | рупий | рупий | Ре | Рэй | Рожь | рупий | Ро | Рау | |||
л | U+E2D_ | в | Ла | Ла | Ли | Ли | Лу | Лу | л | Класть | Ложь | Ло | Ло | Лу | |||
V | U+E2E_ | Вт | Вт | ну давай же | В | Ви | Ву | Ву | Вт | Способ | Вай | Ву | Вау | Ух ты | |||
Ḻ | U+E2F_ | л | Д | Ну давай же | Дерьмо | Ши | тащить | доктор | Ш | привет | вызов | Мистер | Ой | Чау | |||
Ḷ | U+E30_ | в | л | Ла | л | Ли | л | туалет | л | Ле | Лай | л | Ло | Лау | |||
Ṟ | U+E31_ | Т | Р | Ра | Ри | Ре | ру | рупий | Ре | Ре | Рэй | Ро | Ро | Рау | |||
Ṉ | U+E32_ | из | Н | нет | Ни | Ни | Ню | Нет | Не | Нех | Най | Нет | Нет | Сейчас | |||
Персонажи Гранты | |||||||||||||||||
Дж | U+E33_ | Дж | Дж | Джа | Г | Ну и дела | Джу | Джу | Дж | Дж | Дж | Дж | Джо | Джоу | |||
Ш | U+E34_ | Ш | Ш | Ша | Ши | Ши | Шу | Ш | Ш | Ш | Застенчивый | Ш | Шо | Шау | |||
С | U+E35_ | Ш | Ш | Шах | Ши | Она | Шу | Чистка | Она | Шэй | Застенчивый | Шо | Показывать | Шоу | |||
С | U+E36_ | С | С | суббота | Си | С | вс | Сью | С | С | Сай | Так | Зои | Мистер | |||
ЧАС | U+E37_ | ЧАС | Ха | Ха | Привет | Он | Ху | Хм | ЧАС | Привет | Привет | Да | Хо | Как | |||
Кш | U+E38_ | Кш | Кш | Кша | Кши | Кши | Кшу | Кшу | Кше | Кше | Кшей | Кшо | Кшо | Кшоу | Шри |
Легенда: | |
---|---|
Силлабограммы с нерегулярными глифами, которые по своей сути требуют индивидуальной обработки шрифтом. [а] | |
Недавно добавлено. Нет в Unicode версии 6.3. | |
Соответствует символу в блоке тамильского дополнения , добавленном в Unicode версии 12 (2019 г.). | |
Выделено на исследования (НЛП) |
TACE16 с современным Unicode Сравнение тамильским
стандартной модели символов Юникода для языка Критика тамильского
Существующая модель символов Юникода для тамильского языка , как и большая часть индийского Юникода , [б] модель на основе abugida, полученная из ISCII . Его критиковали по нескольким причинам. [1]
Unicode представляет только 31 базовый символ тамильского языка в виде отдельных кодовых точек из 247 кластеров графем . К ним относятся отдельные гласные и 23 основных знака согласных (которые, поскольку не содержат вирамы , тем не менее обозначают слог, содержащий как согласную, так и гласную, когда используются отдельно). Остальные представлены в виде последовательностей кодовых точек, которых требуется программная поддержка расширенных функций типографики (таких как Apple Advanced Typography , Graphite или OpenType Advanced Typography для правильного отображения ). Это также требует использования невидимых соединяющих символов нулевой ширины и несоединяющих символов нулевой ширины в тех местах, где в противном случае желаемый кластер графем был бы неоднозначным. Эта сложность может привести к уязвимостям безопасности и неоднозначным комбинациям, может потребовать использования таблицы исключений для запрета недопустимых комбинаций кодовых точек и может вызвать необходимость использования нормализации строк для сравнения двух строк на предмет равенства.
Кроме того, поскольку слоги, содержащие как согласную, так и гласную, составляют от 64 до 70% тамильского текста, модель на основе абугиды, которая кодирует части согласного и гласного как отдельные кодовые точки, неэффективна с точки зрения того, какой длины должна быть строка, чтобы содержать заданный фрагмент текста по сравнению со слоговой моделью.
Более того, ISCII — это прежде всего кодировка деванагари , а кодировки ISCII других брахмических сценариев (включая тамильский) кодируют символы поверх кодовых точек соответствующих символов в деванагари ISCII. Хотя Unicode кодирует брахмические сценарии отдельно друг от друга, тамильский блок отражает макет ISCII (с порядком символов в стиле деванагари и зарезервированным пространством в позициях, соответствующих символам деванагари, без тамильского эквивалента); следовательно, символы не находятся в естественном порядке последовательности, а строки, сопоставленные по кодовым точкам (аналогично " ASCIIbetical " сортировке английского текста), не будут обеспечивать ожидаемый порядок сортировки. требуется сложный алгоритм сопоставления Для их расположения в естественном порядке .
TACE16 в сравнении [ править ]
Следующие данные позволяют сравнить текущий тамильский Unicode с TACE16 по электронному управлению и просмотру: [1]
- TACE16 эффективнее Тамильского Unicode примерно на 5,46–11,94 процента при хранении данных .
- TACE16 эффективнее сортировки индексных данных по сравнению с тамильским Unicode примерно на 18,69–22,99 процента.
- TACE16 эффективнее тамильского языка Unicode примерно на 25,39%, когда все данные на тамильском языке. Последовательность сопоставления по умолчанию (двоичная) при использовании значений кодового пространства в TACE16 не соответствует порядку словаря тамильского языка.
- TACE16 быстрее сортирует тамильский код Unicode примерно на 0,31–16,96 процента.
- Создание индекса по данным TACE16 происходит на 36,7% быстрее, чем Unicode.
- При полном ключевом поиске по индексированным полям TACE16 работает лучше, чем Unicode Tamil, на 24,07%. В случае неиндексированных полей TACE16 работает лучше, чем тамильский Unicode, на 20,9%.
- Рендеринг статических данных на тамильском языке работает с TACE16.
TACE16 обеспечивает улучшение производительности во времени обработки и пространстве обработки. Он охватывает весь общий тамильский текст; это последовательно; и он однозначен: любая точка соответствует только одному символу. [1] Система TACE16 требует меньше циклов команд , чем тамильский Unicode, а также позволяет программировать на основе тамильской грамматики, что требует дополнительной разработки структуры в тамильском Unicode.
Консорциума Unicode Ответы
Консорциум Unicode публикует специальную страницу часто задаваемых вопросов по тамильскому алфавиту, на которой представлены ответы на некоторые критические замечания. В защиту модели ISCII Консорциум отмечает, что в ее разработке участвовали опытные лингвисты , типографы и программисты, но признает, что компромиссы были сделаны из-за того, что ISCII был ограничен однобайтовым расширенным ASCII . Консорциум отмечает, что тамильский Unicode теперь реализован во всех основных операционных системах и веб-браузерах , и утверждает, что его следует использовать в открытых контекстах обмена, например в Интернете, поскольку такие инструменты, как поисковые системы, не обязательно смогут идентифицировать или интерпретировать последовательность кодовых точек Unicode для частного использования в виде тамильского текста. Однако Консорциум не возражает против использования схем зон частного использования, включая TACE16, внутри конкретных процессов, для которых они полезны. В частности, в нем подчеркивается, что как схемы разметки , так и альтернативные схемы кодирования могут использоваться исследователями для специализированных целей, таких как обработка естественного языка . [6]
Unicode определяет нормативные именованные последовательности для всех чистых тамильских согласных и слогов, которые представлены последовательностями, состоящими более чем из одной кодовой точки, а в рамках стандарта Unicode публикуется специальная таблица, в которой перечислены все эти последовательности в их традиционном порядке, а также их правильные глифы. Консорциум отмечает, что он открыт для принятия предложений по символам, для которых не существует существующего представления Unicode: например, добавление нескольких исторических дробей и других символов в качестве блока тамильского дополнения в версии 12.0 в 2019 году. [6]
Что касается сортировки, Консорциум утверждает, что получение правильного результата от сортировки по кодовой точке является скорее исключением, чем правилом, подчеркивая, что в немодифицированном ASCIIbetical упорядочении прописная латинская буква Z сортируется перед строчной буквой a , а также подчеркивая, что правила сортировки часто различаются в зависимости от языка (см., например, ö ). Что касается эффективности использования пространства, Консорциум утверждает, что пространство для хранения и пропускная способность, занимаемые текстом, обычно значительно затмеваются другими сопутствующими медиафайлами, такими как изображения и видео, и что текстовый контент хорошо работает при использовании методов сжатия общего назначения, таких как Deflate (первоначально из архива ZIP) . формат файла , стандартизированный в RFC 1951 и интегрированный в протокол HTTP как общая схема кодирования). [6]
Политика Unicode стабильности
При первой публикации (версия 1.0.0) Unicode давал лишь ограниченные гарантии стабильности. Таким образом, исходный тибетский блок был удален в версии 1.0.1 (и его место с тех пор было занято блоком Мьянмы ), а исходный блок корейских слогов был удален в версии 2.0 (и теперь занят CJK Unified Ideographs Extension). А ). И текущий блок Hangul Syllables для корейских слогов, и текущий блок тибетского языка относятся к Unicode 2.0. Это было сделано исходя из предположения, что существующего контента с использованием Unicode для этих систем письменности практически не существует. [7] поскольку это нарушит совместимость со всем существующим содержимым Unicode и методами ввода для этих систем письма. После этого так называемого «корейского беспорядка» ответственные комитеты обязались никогда больше не вносить подобные изменения, нарушающие совместимость. [7] который теперь является частью Политики стабильности Unicode. [8]
С тех пор эта политика стабильности поддерживается, несмотря на требования перекодировать или изменить модель символов как для тибетского, так и для корейского языка во второй раз, выдвинутые Китаем и Северной Кореей соответственно. [9] [10] [11] [12] Аналогично и в отношении тамильского языка, Консорциум подчеркивает «важнейший вопрос поддержания стабильности стандарта для существующих реализаций» и утверждает, что «последующие затраты и последствия дестабилизации стандарта» существенно перевесят любые преимущества эффективности в скорости обработки или хранения. космос. [6]
Было предложение перекодировать тамильский язык. [13] это было отклонено Unicode, который заявил, что перекодирование будет вредным и что не существует убедительных доказательств того, что тамильская кодировка Unicode несовершенна. [14]
Альтернативы [ править ]
Открытый тамильский [ править ]
Открытый тамильский проект [15] обеспечивает множество общих операций. Он утверждает, что соответствует уровню 1 обработки текста на тамильском языке без использования TACE16, но написан поверх дополнительной программной логики, которая необходима для тамильского языка Unicode.
См. также [ править ]
- Код тамильского письма для обмена информацией
- AnyTaFont2UTF8 — проект с открытым исходным кодом для всех символов тамильской кодировки/шрифтов.
Сноски [ править ]
- ^ Выделенные слогограммы в столбцах U и Ū — это те, в которых гласная часть глифа не соответствует ни простым формам соединения, показанным для тех, кто объединяет знаки гласных в блок-диаграмме Unicode, ни формам Grantha, соединяющимся справа (как используется для тех, кто объединяет гласные маркируются изолированно, например, шрифтами Noto ).
- ^ За исключением тибетского языка , в котором используется другая модель, а также тайского и родственных сценариев, в которых используется модель, полученная из TIS-620 .
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б с д ОТЧЕТ ОБ ОКОНЧАТЕЛЬНЫХ РЕКОМЕНДАЦИЯХ ЦЕЛЕВОЙ ГРУППЫ ПО TACE16 (PDF) (Отчет).
- ^ Jump up to: Перейти обратно: а б «ТЕНДЕРНЫЙ ДОКУМЕНТ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16)» (PDF) . Тамильская виртуальная академия .
- ^ Jump up to: Перейти обратно: а б «Тамильские шрифты» . ТАМИЛЬСКАЯ ВИРТУАЛЬНАЯ АКАДЕМИЯ
- ^ Jump up to: Перейти обратно: а б Постановление правительства Тамилнада (GO), драйверы клавиатуры и шрифты. Архивировано 27 декабря 2023 г. на archive.today.
- ^ Тамильская виртуальная академия . «Приложение 4: Расширенная последовательность клавиатуры пишущей машинки для Unicode и TACE16» (PDF) . Тендерный документ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16) . Ченнаи .
- ^ Jump up to: Перейти обратно: а б с д «Часто задаваемые вопросы — тамильский язык и письменность» . Консорциум Юникод .
- ^ Jump up to: Перейти обратно: а б Йержо, Ф. (1998). UTF-8, формат преобразования ISO 10646 . IETF . дои : 10.17487/rfc2279 . РФК 2279.
- ^ «Политика стабильности кодировки символов Юникода» . Консорциум Юникод.
- ^ Уэст, Эндрю (14 сентября 2006 г.). «Предварительно составленный тибетский язык, часть 1: BrdaRten» . Вавилонский камень .
- ^ Национальный орган Китая (20 октября 2003 г.). «Заявление Китая о специальном Брдартене» . ISO/IEC JTC1/SC2 /WG2 N2674.
- ^ Карлссон, Кент (2 марта 2000 г.). «Комментарии к предложению КНДР по новому рабочему вопросу, касающемуся корейских иероглифов» . ISO/IEC JTC1/SC2 /WG2 N2167.
- ^ Чо, Чун-Хуэй (5 июля 2000 г.). «Письмо КНДР об именах персонажей и их порядке в 10646-1:2000» (PDF) . ISO/IEC JTC1/SC2 /WG2 N2231.
- ^ Анантам, Арамаити (26 января 2012 г.). «Новые предложения по кодированию» (PDF) . Юникод .
- ^ «Архив уведомлений о несогласовании» . Юникод . 05.03.2012.
- ^ Аннамалай, М.; Арулалан, Т., Open-Tamil: инструменты обработки текста на тамильском языке для Python v3 , получено 31 декабря 2023 г.