Jump to content

Кодировка всех символов тамильского языка

Кодировка всех символов тамильского языка ( TACE16 ) — это схема кодирования в тамильского алфавита области частного использования Unicode существующей , реализующая модель символов на основе слогов , отличающуюся от модифицированной модели ISCII, используемой тамильской реализацией Unicode . [1] [2]

Драйверы клавиатуры и шрифты [ править ]

Драйвер клавиатуры для этой схемы кодирования доступен Tamil Virtual Academy . бесплатно на веб-сайте [3] [4] Он использует Tamil 99 и Tamil Typewriter раскладки клавиатуры , одобренные правительством штата Тамил Наду , и сопоставляет вводимые нажатия клавиш с соответствующими символами схемы TACE16. [2] Для чтения файлов, созданных с помощью TACE16, на том же веб-сайте также доступны соответствующие тамильские шрифты Unicode. [3] [4] Эти шрифты отображают глифы для символов формата TACE16, а также для блока Unicode как для символов ASCII , так и для тамильских символов , так что они могут обеспечить обратную совместимость для чтения существующих файлов, созданных с использованием блока Tamil Unicode .

Набор символов [ править ]

Все символы этой схемы кодирования расположены в области частного использования базовой многоязычной плоскости универсального Юникода набора кодированных символов .

тамильской кодировки всех символов (TACE16) Набор символов [5]
Vowels→ А И я я В О И БЫЛИ Ай ТО Ой В (Разнообразный)
Согласные
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9
(Символы) U+E10_ Раджа
(цифры) U+E18_
(Дроби) U+E1A_ 𑿌 𑿐 𑿑 𑿓 𑿅 𑿉 𑿎 𑿄 𑿈 𑿋 𑿍 𑿏 𑿀 𑿁 𑿂 𑿆
U+E1F_ ி
U+E20_ А б е Э ты Ф А А я О ой Ой ж
К U+E21_ К К Га К Ключ Ку Идти К К рука Ко Ко Правительство
Из U+E22_ Нг ЧАС ну давай же и т. д. Ну давай же Нг Мистер ну давай же нравиться Ну давай же Мистер Идти Нгоу
С U+E23_ Ч Ч Ч С С вс Сью сек. Се Сай Так Так Чжоу
С U+E24_ Дж Солнце Солнце Нг Мистер Джон июнь Солнце Пн. Солнце Джон Джно Джно
U+E25_ Т Д доктор Д Чай К Два Те День Галстук Делать Делать Доу
U+E26_ Нет Нет Нет Н ты Ню Число Нет Нет Н Нет Нет Нет
Т U+E27_ че че Та огонь че Чт чай тайский че Тхо РС
Н U+E28_ н Н На Н ты Ню Ню Не Не Нож Нет Нет Сейчас
П U+E29_ Б п Па Б Б Чт Цветок Б Залив Пирог Б идти Мистер
М U+E2A_ м М Ма Мистер м М Муу М Может Чернила Мо Мо косить
И U+E2B_ Да Да Да Йи да ты ты Да Да Да Да Йо Ты
Р U+E2C_ Р Р Ра Ри Ре рупий рупий Ре Рэй Рожь рупий Ро Рау
л U+E2D_ в Ла Ла Ли Ли Лу Лу л Класть Ложь Ло Ло Лу
V U+E2E_ Вт Вт ну давай же В Ви Ву Ву Вт Способ Вай Ву Вау Ух ты
U+E2F_ л Д Ну давай же Дерьмо Ши тащить доктор Ш привет вызов Мистер Ой Чау
U+E30_ в л Ла л Ли л туалет л Ле Лай л Ло Лау
U+E31_ Т Р Ра Ри Ре ру рупий Ре Ре Рэй Ро Ро Рау
U+E32_ из Н нет Ни Ни Ню Нет Не Нех Най Нет Нет Сейчас
Персонажи Гранты
Дж U+E33_ Дж Дж Джа Г Ну и дела Джу Джу Дж Дж Дж Дж Джо Джоу
Ш U+E34_ Ш Ш Ша Ши Ши Шу Ш Ш Ш Застенчивый Ш Шо Шау
С U+E35_ Ш Ш Шах Ши Она Шу Чистка Она Шэй Застенчивый Шо Показывать Шоу
С U+E36_ С С суббота Си С вс Сью С С Сай Так Зои Мистер
ЧАС U+E37_ ЧАС Ха Ха Привет Он Ху Хм ЧАС Привет Привет Да Хо Как
Кш U+E38_ Кш Кш Кша Кши Кши Кшу Кшу Кше Кше Кшей Кшо Кшо Кшоу Шри
Легенда:
Силлабограммы с нерегулярными глифами, которые по своей сути требуют индивидуальной обработки шрифтом. [а]
Недавно добавлено. Нет в Unicode версии 6.3.
Соответствует символу в блоке тамильского дополнения , добавленном в Unicode версии 12 (2019 г.).
Выделено на исследования (НЛП)

TACE16 с современным Unicode Сравнение тамильским

стандартной модели символов Юникода для языка Критика тамильского

Модели кодирования Unicode для деванагари , тамильского, каннада , сингальского языка и эмодзи требуют использования невидимых объединяющих символов нулевой ширины и необъединяющих символов нулевой ширины.

Существующая модель символов Юникода для тамильского языка , как и большая часть индийского Юникода , [б] модель на основе abugida, полученная из ISCII . Его критиковали по нескольким причинам. [1]

Unicode представляет только 31 базовый символ тамильского языка в виде отдельных кодовых точек из 247 кластеров графем . К ним относятся отдельные гласные и 23 основных знака согласных (которые, поскольку не содержат вирамы , тем не менее обозначают слог, содержащий как согласную, так и гласную, когда используются отдельно). Остальные представлены в виде последовательностей кодовых точек, которых требуется программная поддержка расширенных функций типографики (таких как Apple Advanced Typography , Graphite или OpenType Advanced Typography для правильного отображения ). Это также требует использования невидимых соединяющих символов нулевой ширины и несоединяющих символов нулевой ширины в тех местах, где в противном случае желаемый кластер графем был бы неоднозначным. Эта сложность может привести к уязвимостям безопасности и неоднозначным комбинациям, может потребовать использования таблицы исключений для запрета недопустимых комбинаций кодовых точек и может вызвать необходимость использования нормализации строк для сравнения двух строк на предмет равенства.

Кроме того, поскольку слоги, содержащие как согласную, так и гласную, составляют от 64 до 70% тамильского текста, модель на основе абугиды, которая кодирует части согласного и гласного как отдельные кодовые точки, неэффективна с точки зрения того, какой длины должна быть строка, чтобы содержать заданный фрагмент текста по сравнению со слоговой моделью.

Более того, ISCII — это прежде всего кодировка деванагари , а кодировки ISCII других брахмических сценариев (включая тамильский) кодируют символы поверх кодовых точек соответствующих символов в деванагари ISCII. Хотя Unicode кодирует брахмические сценарии отдельно друг от друга, тамильский блок отражает макет ISCII (с порядком символов в стиле деванагари и зарезервированным пространством в позициях, соответствующих символам деванагари, без тамильского эквивалента); следовательно, символы не находятся в естественном порядке последовательности, а строки, сопоставленные по кодовым точкам (аналогично " ASCIIbetical " сортировке английского текста), не будут обеспечивать ожидаемый порядок сортировки. требуется сложный алгоритм сопоставления Для их расположения в естественном порядке .

TACE16 в сравнении [ править ]

Следующие данные позволяют сравнить текущий тамильский Unicode с TACE16 по электронному управлению и просмотру: [1]

  • TACE16 эффективнее Тамильского Unicode примерно на 5,46–11,94 процента при хранении данных .
  • TACE16 эффективнее сортировки индексных данных по сравнению с тамильским Unicode примерно на 18,69–22,99 процента.
  • TACE16 эффективнее тамильского языка Unicode примерно на 25,39%, когда все данные на тамильском языке. Последовательность сопоставления по умолчанию (двоичная) при использовании значений кодового пространства в TACE16 не соответствует порядку словаря тамильского языка.
  • TACE16 быстрее сортирует тамильский код Unicode примерно на 0,31–16,96 процента.
  • Создание индекса по данным TACE16 происходит на 36,7% быстрее, чем Unicode.
  • При полном ключевом поиске по индексированным полям TACE16 работает лучше, чем Unicode Tamil, на 24,07%. В случае неиндексированных полей TACE16 работает лучше, чем тамильский Unicode, на 20,9%.
  • Рендеринг статических данных на тамильском языке работает с TACE16.

TACE16 обеспечивает улучшение производительности во времени обработки и пространстве обработки. Он охватывает весь общий тамильский текст; это последовательно; и он однозначен: любая точка соответствует только одному символу. [1] Система TACE16 требует меньше циклов команд , чем тамильский Unicode, а также позволяет программировать на основе тамильской грамматики, что требует дополнительной разработки структуры в тамильском Unicode.

Консорциума Unicode Ответы

Консорциум Unicode публикует специальную страницу часто задаваемых вопросов по тамильскому алфавиту, на которой представлены ответы на некоторые критические замечания. В защиту модели ISCII Консорциум отмечает, что в ее разработке участвовали опытные лингвисты , типографы и программисты, но признает, что компромиссы были сделаны из-за того, что ISCII был ограничен однобайтовым расширенным ASCII . Консорциум отмечает, что тамильский Unicode теперь реализован во всех основных операционных системах и веб-браузерах , и утверждает, что его следует использовать в открытых контекстах обмена, например в Интернете, поскольку такие инструменты, как поисковые системы, не обязательно смогут идентифицировать или интерпретировать последовательность кодовых точек Unicode для частного использования в виде тамильского текста. Однако Консорциум не возражает против использования схем зон частного использования, включая TACE16, внутри конкретных процессов, для которых они полезны. В частности, в нем подчеркивается, что как схемы разметки , так и альтернативные схемы кодирования могут использоваться исследователями для специализированных целей, таких как обработка естественного языка . [6]

Unicode определяет нормативные именованные последовательности для всех чистых тамильских согласных и слогов, которые представлены последовательностями, состоящими более чем из одной кодовой точки, а в рамках стандарта Unicode публикуется специальная таблица, в которой перечислены все эти последовательности в их традиционном порядке, а также их правильные глифы. Консорциум отмечает, что он открыт для принятия предложений по символам, для которых не существует существующего представления Unicode: например, добавление нескольких исторических дробей и других символов в качестве блока тамильского дополнения в версии 12.0 в 2019 году. [6]

Что касается сортировки, Консорциум утверждает, что получение правильного результата от сортировки по кодовой точке является скорее исключением, чем правилом, подчеркивая, что в немодифицированном ASCIIbetical упорядочении прописная латинская буква Z сортируется перед строчной буквой a , а также подчеркивая, что правила сортировки часто различаются в зависимости от языка (см., например, ö ). Что касается эффективности использования пространства, Консорциум утверждает, что пространство для хранения и пропускная способность, занимаемые текстом, обычно значительно затмеваются другими сопутствующими медиафайлами, такими как изображения и видео, и что текстовый контент хорошо работает при использовании методов сжатия общего назначения, таких как Deflate (первоначально из архива ZIP) . формат файла , стандартизированный в RFC 1951 и интегрированный в протокол HTTP как общая схема кодирования). [6]

Политика Unicode стабильности

При первой публикации (версия 1.0.0) Unicode давал лишь ограниченные гарантии стабильности. Таким образом, исходный тибетский блок был удален в версии 1.0.1 (и его место с тех пор было занято блоком Мьянмы ), а исходный блок корейских слогов был удален в версии 2.0 (и теперь занят CJK Unified Ideographs Extension). А ). И текущий блок Hangul Syllables для корейских слогов, и текущий блок тибетского языка относятся к Unicode 2.0. Это было сделано исходя из предположения, что существующего контента с использованием Unicode для этих систем письменности практически не существует. [7] поскольку это нарушит совместимость со всем существующим содержимым Unicode и методами ввода для этих систем письма. После этого так называемого «корейского беспорядка» ответственные комитеты обязались никогда больше не вносить подобные изменения, нарушающие совместимость. [7] который теперь является частью Политики стабильности Unicode. [8]

С тех пор эта политика стабильности поддерживается, несмотря на требования перекодировать или изменить модель символов как для тибетского, так и для корейского языка во второй раз, выдвинутые Китаем и Северной Кореей соответственно. [9] [10] [11] [12] Аналогично и в отношении тамильского языка, Консорциум подчеркивает «важнейший вопрос поддержания стабильности стандарта для существующих реализаций» и утверждает, что «последующие затраты и последствия дестабилизации стандарта» существенно перевесят любые преимущества эффективности в скорости обработки или хранения. космос. [6]

Было предложение перекодировать тамильский язык. [13] это было отклонено Unicode, который заявил, что перекодирование будет вредным и что не существует убедительных доказательств того, что тамильская кодировка Unicode несовершенна. [14]

Альтернативы [ править ]

Открытый тамильский [ править ]

Открытый тамильский проект [15] обеспечивает множество общих операций. Он утверждает, что соответствует уровню 1 обработки текста на тамильском языке без использования TACE16, но написан поверх дополнительной программной логики, которая необходима для тамильского языка Unicode.

См. также [ править ]

Сноски [ править ]

  1. ^ Выделенные слогограммы в столбцах U и Ū — это те, в которых гласная часть глифа не соответствует ни простым формам соединения, показанным для тех, кто объединяет знаки гласных в блок-диаграмме Unicode, ни формам Grantha, соединяющимся справа (как используется для тех, кто объединяет гласные маркируются изолированно, например, шрифтами Noto ).
  2. ^ За исключением тибетского языка , в котором используется другая модель, а также тайского и родственных сценариев, в которых используется модель, полученная из TIS-620 .

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б с д ОТЧЕТ ОБ ОКОНЧАТЕЛЬНЫХ РЕКОМЕНДАЦИЯХ ЦЕЛЕВОЙ ГРУППЫ ПО TACE16 (PDF) (Отчет).
  2. ^ Jump up to: Перейти обратно: а б «ТЕНДЕРНЫЙ ДОКУМЕНТ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16)» (PDF) . Тамильская виртуальная академия .
  3. ^ Jump up to: Перейти обратно: а б «Тамильские шрифты» . ТАМИЛЬСКАЯ ВИРТУАЛЬНАЯ АКАДЕМИЯ
  4. ^ Jump up to: Перейти обратно: а б Постановление правительства Тамилнада (GO), драйверы клавиатуры и шрифты. Архивировано 27 декабря 2023 г. на archive.today.
  5. ^ Тамильская виртуальная академия . «Приложение 4: Расширенная последовательность клавиатуры пишущей машинки для Unicode и TACE16» (PDF) . Тендерный документ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16) . Ченнаи .
  6. ^ Jump up to: Перейти обратно: а б с д «Часто задаваемые вопросы — тамильский язык и письменность» . Консорциум Юникод .
  7. ^ Jump up to: Перейти обратно: а б Йержо, Ф. (1998). UTF-8, формат преобразования ISO 10646 . IETF . дои : 10.17487/rfc2279 . РФК 2279.
  8. ^ «Политика стабильности кодировки символов Юникода» . Консорциум Юникод.
  9. ^ Уэст, Эндрю (14 сентября 2006 г.). «Предварительно составленный тибетский язык, часть 1: BrdaRten» . Вавилонский камень .
  10. ^ Национальный орган Китая (20 октября 2003 г.). «Заявление Китая о специальном Брдартене» . ISO/IEC JTC1/SC2 /WG2 N2674.
  11. ^ Карлссон, Кент (2 марта 2000 г.). «Комментарии к предложению КНДР по новому рабочему вопросу, касающемуся корейских иероглифов» . ISO/IEC JTC1/SC2 /WG2 N2167.
  12. ^ Чо, Чун-Хуэй (5 июля 2000 г.). «Письмо КНДР об именах персонажей и их порядке в 10646-1:2000» (PDF) . ISO/IEC JTC1/SC2 /WG2 N2231.
  13. ^ Анантам, Арамаити (26 января 2012 г.). «Новые предложения по кодированию» (PDF) . Юникод .
  14. ^ «Архив уведомлений о несогласовании» . Юникод . 05.03.2012.
  15. ^ Аннамалай, М.; Арулалан, Т., Open-Tamil: инструменты обработки текста на тамильском языке для Python v3 , получено 31 декабря 2023 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 27a813f58acc6dff24ee0fcbba55bce6__1708543800
URL1:https://arc.ask3.ru/arc/aa/27/e6/27a813f58acc6dff24ee0fcbba55bce6.html
Заголовок, (Title) документа по адресу, URL1:
Tamil All Character Encoding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)