~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 27A813F58ACC6DFF24EE0FCBBA55BCE6__1708543800 ✰
Заголовок документа оригинал.:
✰ Tamil All Character Encoding - Wikipedia ✰
Заголовок документа перевод.:
✰ Кодировка всех символов тамильского языка — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Tamil_All_Character_Encoding ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/27/e6/27a813f58acc6dff24ee0fcbba55bce6.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/27/e6/27a813f58acc6dff24ee0fcbba55bce6__translat.html ✰
Дата и время сохранения документа:
✰ 15.06.2024 20:54:03 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 21 February 2024, at 22:30 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Кодировка всех символов тамильского языка — Википедия Jump to content

Кодировка всех символов тамильского языка

Из Википедии, бесплатной энциклопедии

Кодировка всех символов тамильского языка ( TACE16 ) — это схема кодирования тамильского алфавита в области частного использования Unicode , , реализующая модель символов на основе слогов , отличающуюся от модифицированной модели ISCII используемой существующей тамильской реализацией Unicode . [1] [2]

Драйверы клавиатуры и шрифты [ править ]

Драйвер клавиатуры для этой схемы кодирования доступен Tamil Virtual Academy . бесплатно на веб-сайте [3] [4] Он использует Tamil 99 и Tamil Typewriter раскладки клавиатуры , одобренные правительством штата Тамилнад , и сопоставляет вводимые нажатия клавиш с соответствующими символами схемы TACE16. [2] Для чтения файлов, созданных с помощью TACE16, на том же веб-сайте также доступны соответствующие тамильские шрифты Unicode. [3] [4] Эти шрифты отображают глифы для символов формата TACE16, а также для блока Unicode как для символов ASCII , так и для символов тамильского языка , так что они могут обеспечить обратную совместимость для чтения существующих файлов, созданных с использованием блока Tamil Unicode .

Набор символов [ править ]

Все символы этой схемы кодирования расположены в частного использования базовой многоязычной плоскости Юникода области универсального набора кодированных символов .

тамильской кодировки всех символов (TACE16) Набор символов [5]
Vowels→ А И я я В О И БЫЛ Ай О Ой В (Разнообразный)
Согласные
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9
(Символы) U+E10_ Раджа
(цифры) U+E18_
(Дроби) U+E1A_ 𑿌 𑿐 𑿑 𑿓 𑿅 𑿉 𑿎 𑿄 𑿈 𑿋 𑿍 𑿏 𑿀 𑿁 𑿂 𑿆
U+E1F_ ி
U+E20_ А Корова е Э ты Ф А А я О ой Ой ж
К U+E21_ К Ка Га К Ключ Ку Идти К К рука Ко Ко Правительство
Из U+E22_ Нг ЧАС ну давай же и т. д. Ну давай же Нг Мистер ну давай же нравиться Ну давай же Мистер Идти Нгоу
С U+E23_ Ч Ч Ч С С вс Сью сек. Се Сай Так Так Чжоу
С U+E24_ Дж Солнце Солнце Нг Мистер Джон июнь Солнце Пн. Солнце Джон Джно Джно
U+E25_ Т Д Доктор Д Чай К Два Те День Галстук Делать Делать Доу
U+E26_ Нет Нет Нет Н ты Ню Число Нет Нет Н Нет Нет Нет
Т U+E27_ че че Та огонь че Чт чай тайский че Тхо РС
Н U+E28_ н На На Н ты Ню Ню Не Не Нож Нет Нет Сейчас
п U+E29_ Б п Па Б Б Чт Цветок Б Залив Пирог Б идти Мистер
М U+E2A_ м М Ма Мистер Я М Муу М Может Чернила Мо Мо косить
И U+E2B_ Да Да Да Йи да ты ты Да Да Да Да Эй Ты
р U+E2C_ р р Ра Ри Ре рупий рупий Ре Рэй Рожь рупий Ро Рау
л U+E2D_ В Ла Ла Ли Ли Лу Лу Ле Класть Ложь Ло Ло Лу
V U+E2E_ Вт Вт Приходить В Ви Ву Ву Вт Способ Вай Ву Вау Ух ты
U+E2F_ л Д Ну давай же Дерьмо Ши тащить Доктор Ш привет вызов Мистер Ой Чау
U+E30_ в л Ла л Ли л туалет л Ле Лай л Ло Лау
Р U+E31_ Т р Ра Ри Ре RU рупий Ре Ре Рэй Ро Ро Рау
U+E32_ из Н нет Ни Ни Ню Нет Не Нех Най Нет Нет Сейчас
Персонажи Гранты
Дж U+E33_ Дж Дж Джа г Ну и дела Джу Джу Дж Дж Дж Дж Джо Джоу
Ш U+E34_ Ш Ш Ша Ши Ши Шу Ш Ш Ш Застенчивый Ш Шо Шау
С U+E35_ Ш Ш Шах Ши Она Шу Чистка Она Шэй Застенчивый Шо Показывать Шоу
С U+E36_ Сш С суббота Си С вс Сью С С Сай Так Зои Мистер
ЧАС U+E37_ ЧАС Ха Ха Привет Он Ху Хм ЧАС Привет Привет Да Хо Как
Кш U+E38_ Кш Кш Кша Кши Кши Кшу Кшу Кше Кше Кшей Кшо Кшо Кшоу Шри
Легенда:
Силлабограммы с нерегулярными глифами, которые по своей сути требуют индивидуальной обработки шрифтом. [а]
Недавно добавлено. Нет в Unicode версии 6.3.
Соответствует символу в блоке тамильских дополнений , добавленном в Unicode версии 12 (2019 г.).
Выделено на исследования (НЛП)

Сравнение TACE16 с Unicode современным тамильским

стандартной модели символов Юникода для языка тамильского Критика

Модели кодирования Unicode для деванагари , тамильского, каннада , сингальского языка и эмодзи требуют использования невидимых объединяющих символов нулевой ширины и необъединяющих символов нулевой ширины.

Существующая модель символов Юникода для тамильского языка, как и большая часть индийского Юникода , [б] модель на основе abugida , полученная из ISCII . Его критиковали по нескольким причинам. [1]

Unicode представляет только 31 базовый символ тамильского языка в виде отдельных кодовых точек из 247 кластеров графем . К ним относятся отдельные гласные и 23 основных знака согласных (которые, поскольку не содержат вирамы , тем не менее обозначают слог, содержащий как согласную, так и гласную, когда используются отдельно). Остальные представлены в виде последовательностей кодовых точек, требующих программной поддержки расширенных функций типографики (таких как Apple Advanced Typography , Graphite или расширенная типографика OpenType ) для правильной визуализации. Это также требует использования невидимых соединяющих символов нулевой ширины и несоединяющих символов нулевой ширины в тех местах, где в противном случае желаемый кластер графем был бы неоднозначным. Эта сложность может привести к уязвимостям безопасности и неоднозначным комбинациям, может потребовать использования таблицы исключений для запрета недопустимых комбинаций кодовых точек и может вызвать необходимость использования нормализации строк для сравнения двух строк на предмет равенства.

Кроме того, поскольку слоги, содержащие как согласную, так и гласную, составляют от 64 до 70% тамильского текста, модель на основе абугиды, которая кодирует части согласного и гласного как отдельные кодовые точки, неэффективна с точки зрения того, какой длины должна быть строка, чтобы содержать заданный фрагмент текста по сравнению со слоговой моделью.

Более того, ISCII — это прежде всего кодировка деванагари , а кодировки ISCII других брахмических сценариев (включая тамильский) кодируют символы поверх кодовых точек соответствующих символов в деванагари ISCII. Хотя Unicode кодирует брахмические сценарии отдельно друг от друга, тамильский блок отражает макет ISCII (с порядком символов в стиле деванагари и зарезервированным пространством в позициях, соответствующих символам деванагари, без тамильского эквивалента); следовательно, символы расположены не в естественном порядке последовательности, а строки, сопоставленные по кодовым точкам (аналогично " ASCIIbetical " сортировке английского текста), не будут обеспечивать ожидаемый порядок сортировки. требуется сложный алгоритм сопоставления Для их расположения в естественном порядке .

TACE16 в сравнении [ править ]

Следующие данные позволяют сравнить текущий тамильский Unicode с TACE16 по электронному управлению и просмотру: [1]

  • TACE16 эффективнее Тамильского Unicode примерно на 5,46–11,94 процента при хранении данных .
  • TACE16 эффективнее сортировки индексных данных по сравнению с тамильским Unicode примерно на 18,69–22,99 процента.
  • TACE16 эффективнее тамильского языка Unicode примерно на 25,39%, когда все данные на тамильском языке. Последовательность сопоставления по умолчанию (двоичная) при использовании значений кодового пространства в TACE16 не соответствует порядку словаря тамильского языка.
  • TACE16 быстрее сортирует тамильский код Unicode примерно на 0,31–16,96 процента.
  • Создание индекса по данным TACE16 происходит на 36,7% быстрее, чем Unicode.
  • При полном ключевом поиске по индексированным полям TACE16 работает лучше, чем Unicode Tamil, на 24,07%. В случае неиндексированных полей TACE16 работает лучше, чем тамильский Unicode, на 20,9%.
  • Рендеринг статических данных на тамильском языке работает с TACE16.

TACE16 обеспечивает улучшение производительности во времени и пространстве обработки. Он охватывает весь общий тамильский текст; это последовательно; и он однозначен: любая точка соответствует только одному символу. [1] Система TACE16 требует меньше циклов команд , чем тамильский Unicode, а также позволяет программировать на основе тамильской грамматики, что требует дополнительной разработки структуры в тамильском Unicode.

Консорциума Unicode Ответы

Консорциум Unicode публикует специальную страницу часто задаваемых вопросов по тамильскому алфавиту, на которой представлены ответы на некоторые критические замечания. В защиту модели ISCII Консорциум отмечает, что в ее разработке участвовали опытные лингвисты , типографы и программисты, но признает, что компромиссы были сделаны из-за того, что ISCII был ограничен однобайтовым расширенным ASCII . Консорциум отмечает, что тамильский Unicode теперь реализован во всех основных операционных системах и веб-браузерах , и утверждает, что его следует использовать в открытых контекстах обмена, например, в Интернете, поскольку такие инструменты, как поисковые системы , не обязательно смогут идентифицировать или интерпретировать последовательность кодовых точек Unicode для частного использования в виде тамильского текста. Однако Консорциум не возражает против использования схем зон частного использования, включая TACE16, внутри конкретных процессов, для которых они полезны. В частности, в нем подчеркивается, что как схемы разметки , так и альтернативные схемы кодирования могут использоваться исследователями для специализированных целей, таких как обработка естественного языка . [6]

Unicode определяет нормативные именованные последовательности для всех чистых тамильских согласных и слогов, которые представлены последовательностями, состоящими более чем из одной кодовой точки, а в рамках стандарта Unicode публикуется специальная таблица, в которой перечислены все эти последовательности в их традиционном порядке, а также их правильные глифы. Консорциум отмечает, что он открыт для принятия предложений по символам, для которых не существует существующего представления в Юникоде: например, добавление нескольких исторических дробей и других символов в качестве блока тамильского дополнения в версии 12.0 в 2019 году. [6]

Что касается сортировки, Консорциум утверждает, что получение правильного результата от сортировки по кодовой точке является скорее исключением, чем правилом, подчеркивая, что в немодифицированном ASCIIbetical упорядочении прописная латинская буква Z сортируется перед строчной буквой a , а также подчеркивая, что правила сортировки часто различаются в зависимости от языка (см., например, ö ). Что касается эффективности использования пространства, Консорциум утверждает, что пространство для хранения и пропускная способность, занимаемые текстом, обычно намного затмеваются другими сопутствующими медиафайлами, такими как изображения и видео, и что текстовый контент хорошо работает при использовании методов сжатия общего назначения, таких как Deflate (первоначально из ZIP-файла ). формат файла , стандартизированный в RFC 1951 и интегрированный в протокол HTTP как общая схема кодирования). [6]

стабильности Unicode Политика

При первой публикации (версия 1.0.0) Unicode давал лишь ограниченные гарантии стабильности. Таким образом, исходный тибетский блок был удален в версии 1.0.1 (и его место с тех пор было занято блоком Мьянмы ), а исходный блок корейских слогов был удален в версии 2.0 (и теперь занят CJK Unified Ideographs Extension). А ). И текущий блок Hangul Syllables для корейских слогов, и текущий блок тибетского языка относятся к Unicode 2.0. Это было сделано исходя из предположения, что существующего контента с использованием Unicode для этих систем письменности практически не существует. [7] поскольку это нарушит совместимость со всем существующим содержимым Unicode и методами ввода для этих систем письма. После этого так называемого «корейского беспорядка» ответственные комитеты обязались никогда больше не вносить подобные изменения, нарушающие совместимость. [7] который теперь является частью Политики стабильности Unicode. [8]

С тех пор эта политика стабильности поддерживается, несмотря на требования перекодировать или изменить модель символов как для тибетского, так и для корейского языка во второй раз, выдвинутые Китаем и Северной Кореей соответственно. [9] [10] [11] [12] Аналогично и в отношении тамильского языка, Консорциум подчеркивает «важнейший вопрос поддержания стабильности стандарта для существующих реализаций» и утверждает, что «последующие затраты и последствия дестабилизации стандарта» существенно перевесят любые преимущества эффективности в скорости обработки или хранения. космос. [6]

Было предложение перекодировать тамильский язык. [13] это было отклонено Unicode, который заявил, что перекодирование будет вредным и что не существует убедительных доказательств того, что тамильская кодировка Unicode несовершенна. [14]

Альтернативы [ править ]

Открытый тамильский [ править ]

Открытый тамильский проект [15] обеспечивает множество общих операций. Он утверждает, что соответствует уровню 1 обработки текста на тамильском языке без использования TACE16, но написан поверх дополнительной программной логики, которая необходима для тамильского языка Unicode.

См. также [ править ]

Сноски [ править ]

  1. ^ Выделенные слогограммы в столбцах U и Ū — это те, в которых гласная часть глифа не соответствует ни простым формам соединения, показанным для тех, кто объединяет знаки гласных в блок-схеме Unicode, ни формам Grantha, соединяющимся справа (как используется для тех, кто объединяет гласные маркируются изолированно, например, шрифтами Noto ).
  2. ^ За исключением тибетского языка , в котором используется другая модель, а также тайского и родственных сценариев, в которых используется модель, полученная из TIS-620 .

Ссылки [ править ]

  1. ^ Перейти обратно: а б с д ОТЧЕТ ОБ ОКОНЧАТЕЛЬНЫХ РЕКОМЕНДАЦИЯХ ЦЕЛЕВОЙ ГРУППЫ ПО TACE16 (PDF) (Отчет).
  2. ^ Перейти обратно: а б «ТЕНДЕРНЫЙ ДОКУМЕНТ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16)» (PDF) . Тамильская виртуальная академия .
  3. ^ Перейти обратно: а б «Тамильские шрифты» . ТАМИЛЬСКАЯ ВИРТУАЛЬНАЯ АКАДЕМИЯ
  4. ^ Перейти обратно: а б Постановление правительства Тамилнада (GO), драйверы клавиатуры и шрифты. Архивировано 27 декабря 2023 г. на archive.today.
  5. ^ Тамильская виртуальная академия . «Приложение 4: Расширенная клавиатурная последовательность пишущей машинки для Unicode и TACE16» (PDF) . Тендерный документ на разработку тамильских шрифтов и драйвера тамильской клавиатуры для 16-битных кодировок (Unicode и TACE16) . Ченнаи .
  6. ^ Перейти обратно: а б с д «Часто задаваемые вопросы — тамильский язык и письменность» . Консорциум Юникод .
  7. ^ Перейти обратно: а б Йержо, Ф. (1998). UTF-8, формат преобразования ISO 10646 . IETF . дои : 10.17487/rfc2279 . РФК 2279.
  8. ^ «Политика стабильности кодировки символов Юникода» . Консорциум Юникод.
  9. ^ Уэст, Эндрю (14 сентября 2006 г.). «Предварительно составленный тибетский язык, часть 1: BrdaRten» . Вавилонский камень .
  10. ^ Национальный орган Китая (20 октября 2003 г.). «Заявление Китая о специальном Брдартене» . ISO/IEC JTC1/SC2 /WG2 N2674.
  11. ^ Карлссон, Кент (2 марта 2000 г.). «Комментарии к предложению КНДР по новому рабочему вопросу, касающемуся корейских иероглифов» . ISO/IEC JTC1/SC2 /WG2 N2167.
  12. ^ Чо, Чун-Хуэй (5 июля 2000 г.). «Письмо КНДР об именах персонажей и их порядке в 10646-1:2000» (PDF) . ISO/IEC JTC1/SC2 /WG2 N2231.
  13. ^ Анантам, Арамаити (26 января 2012 г.). «Новые предложения по кодированию» (PDF) . Юникод .
  14. ^ «Архив уведомлений о несогласовании» . Юникод . 05.03.2012.
  15. ^ Аннамалай, М.; Арулалан, Т., Open-Tamil: инструменты обработки текста на тамильском языке для Python v3 , получено 31 декабря 2023 г.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 27A813F58ACC6DFF24EE0FCBBA55BCE6__1708543800
URL1:https://en.wikipedia.org/wiki/Tamil_All_Character_Encoding
Заголовок, (Title) документа по адресу, URL1:
Tamil All Character Encoding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)