Тай Там (блок Unicode)
Тай Там | |
---|---|
Диапазон | U+1A20..U+1AAF (144 кодовых точки) |
Самолет | БМП |
Скрипты | Тай Там |
Основные алфавиты | Тай Там |
Назначенный | 127 кодовых точек |
Неиспользованный | 17 зарезервированных кодовых точек |
История версий Юникода | |
5.2 (2009) | 127 (+127) |
Документация Юникод | |
Таблица кодов ∣ Веб-страница | |
Примечание : [1] [2] |
Тай Там — это блок Юникода , содержащий символы письма Ланна, используемого для написания языков Северного Тайского (Кам Муанг), Тай Лю и Кхун.
Тай Там [1] [2] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | И | Ф | |
U + 1A2x | ᨠ | ᨡ | ᨢ | ᨣ | ᨤ | ᨥ | ᨦ | ᨧ | ᨨ | ᨩ | ᨪ | ᨫ | ᨬ | ᨭ | ᨮ | ᨯ |
U + 1A3x | ᨰ | ᨱ | ᨲ | ᨳ | ᨴ | ᨵ | ᨶ | ᨷ | ᨸ | ᨹ | ᨺ | ᨻ | ᨼ | ᨽ | ᨾ | ᨿ |
U + 1A4x | ᩀ | ᩁ | ᩂ | ᩃ | ᩄ | ᩅ | ᩆ | ᩇ | ᩈ | ᩉ | ᩊ | ᩋ | ᩌ | ᩍ | ᩎ | ᩏ |
U + 1A5x | ᩐ | ᩑ | ᩒ | ᩓ | ᩔ | ᩕ | ᩖ | ᩗ | ᩘ | ᩙ | ᩚ | ᩛ | ᩜ | ᩝ | ᩞ | |
U + 1A6x | ᩠ | ᩡ | ᩢ | ᩣ | ᩤ | ᩥ | ᩦ | ᩧ | ᩨ | ᩩ | ᩪ | ᩫ | ᩬ | ᩭ | ᩮ | ᩯ |
U + 1A7x | ᩰ | ᩱ | ᩲ | ᩳ | ᩴ | ᩵ | ᩶ | ᩷ | ᩸ | ᩹ | ᩺ | ᩻ | ᩼ | ᩿ | ||
U + 1A8x | ᪀ | ᪁ | ᪂ | ᪃ | ᪄ | ᪅ | ᪆ | ᪇ | ᪈ | ᪉ | ||||||
U + 1A9x | ᪐ | ᪑ | ᪒ | ᪓ | ᪔ | ᪕ | ᪖ | ᪗ | ᪘ | ᪙ | ||||||
U + 1AAx | ᪠ | ᪡ | ᪢ | ᪣ | ᪤ | ᪥ | ᪦ | ᪧ | ᪨ | ᪩ | ᪪ | ᪫ | ᪬ | ᪭ | ||
Примечания |
История [ править ]
123 из 127 первоначально закодированных кодовых точек были предложены в L2/07-007R, [3] еще два (U+1A5C и U+1A7C) в L2/08-037R2 [4] и последняя пара (U+1A5D и U+1A5E) в L2/08-073. [5] Последний из этих трех документов изменил определения U+1A37 и U+1A38, данные в первом из трех.
В следующих документах, связанных с Unicode, описывается цель и процесс определения конкретных символов в блоке Тай Тхам:
Версия | Окончательные кодовые точки [а] | Считать | L2 Идентификатор | рабочей группы 2 Идентификатор | Документ |
---|---|---|---|---|---|
5.2 [б] | U+1A20..1A5E, 1A60..1A7C, 1A7F..1A89, 1A90..1A99, 1AA0..1AAD | 127 | Л2/99-245 | N2042 | Эверсон, Майкл ; Макгоуэн, Рик (20 июля 1999 г.), Технический отчет Unicode № 3: сценарии раннего арамейского языка, балти, кират (лимбу), манипури (мейтей) и тай люй |
X3L2/94-088 | N1013 | Предложение о кодировании старой письменности Сишуан Банна Дай, вступление в BMP ISO/IEC 10646 , 18 апреля 1994 г. | |||
N1099 (pdf , doc ) | Предложение о кодировании старой письменности Сишуан Банна Дай, входящей в BMP ISO/IEC 10646 , 10 октября 1994 г. | ||||
Л2/04-351 | Хоскен, Мартин (28 июня 2004 г.), Lanna Unicode: черновой вариант предложения | ||||
Л2/05-095Р | Хоскен, Мартин (25 апреля 2005 г.), Lanna Unicode: предложение | ||||
Л2/05-166 | Курильский Г.; Бермент, В. (15 июля 2005 г.), На пути к компьютеризации системы письма Лао Там | ||||
Л2/05-188 | Хоскен, Мартин (2 августа 2005 г.), Лао Там с точки зрения Ланны: ответ на L2 / 05-166 из L2 / 05-095 | ||||
Л2/06-258Р | N3121R | Эверсон, Майкл; Хоскен, Мартин (9 сентября 2006 г.), Предложение по кодированию сценария Ланны в BMP UCS. | |||
Л2/06-311 | N3159 | Тун, Нгве (20 сентября 2006 г.), Ответ на N3121R: Предложение по кодированию сценария Lanna в BMP UCS. | |||
Л2/06-319 | N3161 | Мнения о скрипте N3121-Lanna , 22 сентября 2006 г. | |||
Л2/06-320 | N3169R | Чен, Чжуан; Эверсон, Майкл; Хоскен, Мартин; Вэй, Линь-Мэй (26 сентября 2006 г.), специальный отчет Ланны | |||
N3153 (pdf , doc ) | Умамахесваран, В.С. (16 февраля 2007 г.), «M49.17», Неподтвержденный протокол заседания РГ 2 49 AIST, Акихабара, Токио, Япония; 2006-09-25/29 | ||||
Л2/07-015 | Мур, Лиза (08 февраля 2007 г.), «Ланна (C.17)», UTC № 110 минут. | ||||
Л2/07-007Р | N3207 | Эверсон, Майкл; Хоскен, Мартин; Констебль, Питер (21 марта 2007 г.), Пересмотренное предложение по кодированию сценария Ланны в BMP UCS. | |||
Л2/07-101 | N3238 | Предложения по кодированию старого Тай Лю , 3 апреля 2007 г. | |||
Л2/07-098 | N3239 | Ответ на вклад Китая N3238 «Предложение по кодированию старого Тай Лю» , 11 апреля 2007 г. | |||
N3353 (pdf , doc ) | Умамахесваран, В.С. (10 октября 2007 г.), «M51.2», Неподтвержденный протокол заседания WG 2 51 Ханчжоу, Китай; 2007-04-24/27 | ||||
Л2/07-118Р2 | Мур, Лиза (23 мая 2007 г.), «111-C17», UTC № 111 минут. | ||||
Л2/07-268 | N3253 (pdf , doc ) | Умамахесваран, В.С. (26 июля 2007 г.), «M50.10», Неподтвержденный протокол заседания 50 РГ 2, Франкфурт-на-Майне, Германия; 2007-04-24/27 | |||
Л2/07-307 | N3313 | Комментарии по кодированию Lanna в FPDAM4 , 6 сентября 2007 г. | |||
Л2/07-316 | N3342 | Хоскен, Мартин (10 сентября 2007 г.), Ответ на N3313 | |||
Л2/07-319 | N3346 | Специальный отчет о Ланне , 19 сентября 2007 г. | |||
Л2/07-322 | N3349R | Эверсон, Майкл (28 сентября 2007 г.), «Тай Тхам», Краткое изложение репертуара для FPDAM 5 стандарта ISO / IEC 10646: 2003 и будущих поправок. | |||
Л2/07-345 | Мур, Лиза (25 октября 2007 г.), «Консенсус 113-C10», UTC № 113 минут. | ||||
Л2/07-353 | Уистлер, Кен (10 октября 2007 г.), «А. Ланна (FDAM 4 и FPDAM 5)», Квитанция о согласии WG2 | ||||
Л2/08-037Р2 | N3379R2 | Констебль, Питер (18 апреля 2008 г.), Отчет о специальном совещании в Тай Там | |||
Л2/08-073 | N3384 | Хоскен, Мартин (28 января 2008 г.), Тай Там, присоединенные варианты | |||
Л2/08-003 | Мур, Лиза (14 февраля 2008 г.), «Тай Там», UTC № 114 минут | ||||
Л2/08-318 | N3453 (pdf , doc ) | Умамахесваран, В.С. (13 августа 2008 г.), «M52.2a», Неподтвержденный протокол заседания РГ 2 52 | |||
Л2/14-126 + приложения | Пурнадер, Рузбе (02 мая 2014 г.), Требуются улучшения для свойств Unicode Indic (два приложения к текстовым файлам ЗДЕСЬ) [затронуто U+1A55, 1A60, 1A80-1A89, 1A90-1A99] | ||||
Л2/14-177 | Мур, Лиза (21 августа 2014 г.), «B.14.5», UTC № 140 минут. [затронуто U+1A56-1A5E, 1A75-1A7C, 1A7F] | ||||
Л2/17-120 | Уордингем, Ричард (01 мая 2017 г.), Исправления к индийской слоговой категории для сценария Тай Там [затронуто U+1A57, 1A5A-1A5E, 1A74, 1A7A] | ||||
Л2/17-169 | Пурнадер, Рузбе (12 мая 2017 г.), Предлагаемые изменения категории индийского слогового письма для Тай Тхам для Unicode 10 [затронуто U+1A57, 1A5A-1A5E, 1A74, 1A7A] | ||||
Л2/17-103 | Мур, Лиза (18 мая 2017 г.), «B.14.9», UTC № 151 минута [затронуто U+1A57, 1A5A-1A5E, 1A74, 1A7A] | ||||
Л2/18-053 | Пурнадер, Рузбе (24 января 2018 г.), Новая индийская слоговая категория Consonant_Initial_Postfixed [затронуто U+1A5A] | ||||
Л2/18-007 | Мур, Лиза (19 марта 2018 г.), «B.14.7», UTC № 154 минуты. [затронуто U+1A5A] | ||||
Л2/18-171 | Уордингем, Ричард (29 апреля 2018 г.), Расположение гласных Тай Там ниже [задокументировано U+1A69 и U+1A6A] | ||||
Л2/18-241 | Андерсон, Дебора; и др. (25 июля 2018 г.), «15. Тай Тхам», Рекомендации UTC № 156, июль 2018 г., по предложениям сценариев [задокументировано U+1A69 и U+1A6A] | ||||
Л2/18-183 | Мур, Лиза (20 ноября 2018 г.), «D.12 Расположение гласных Тай Тхам ниже», UTC № 156, минуты [задокументировано U+1A69 и U+1A6A] | ||||
Кодирование подстрочных согласных [ править ]
Базовые и подстрочные согласные имеют разную кодировку, поскольку такие слова, как ᨲᩥ᩠ᨠ и ᨲᩥᨠ различаются как по внешнему виду, так и по звучанию. Подстрочные согласные кодируются как последовательность из двух символов. Второй — базовый символ, а первый — специальный символ U+1A60 ТАЙ ТХАМ ЗНАК САКОТ. [3] : Раздел 2
Если согласная имеет две формы нижнего индекса и выбор влияет на значение, форма, обычно используемая для согласных в конце слога, будет закодирована с помощью SAKOT, а другая форма будет иметь свой собственный код. Таким образом, есть 7 согласных, которые имеют разные формы нижнего индекса, а именно ᩁ RA, ᩃ LA, ᨷ BA, ᩈ HIGH SA, ᨾ MA, ᨳ HIGH RATA и ᨻ LOW PA.
ᨣᩕᩪ ( Северо-тайское произношение: [k ʰ uː] ) кодируется как <U+1A23 LOW KA, U+1A55 MEDIAL RA , U+1A6A SIGN UU>, но ᨠᩣ᩠ᩁ ( IPA: [kaː n ] ) кодируется как <U+1A20 HIGH KA, U+1A63 SIGN AA, U+1A60 САКОТ, U+1A41 РА > [3] : Раздел 4
ᩆᩦ᩠ᩃ ( IPA: [siː n ] ) кодируется как <U+1A46 HIGH SHA, U+1A66 SIGN II, U+1A60 САКОТ, U+1A43 ЛА > [3] : Раздел 14.5 но ᨸᩖᩦ ( IPA: [piː] ) кодируется как <U+1A38 HIGH PA, U+1A56 MEDIAL LA , U+1A66 SIGN II>. [3] : Раздел 4 (Для использования LA в качестве последней буквы слога сравните ᩁᨭᩛᨷᩣ᩠ᩃ [3] : Раздел 4 ( Северо-тайское произношение: [lat tha baːn] ).
U+1A57 SIGN LA TANG LAI выглядит как <U+1A60 SAKOT, U+1A43 LA>, но по своей сути является его лигатурой с <U+1A60 SAKOT, U+1A26 NGA>. Тай Лю использует его, чтобы написать слово ᨴᩢ᩵ᩗᩣ ( ВЛИЯНИЕ: [taŋ laːi] ). [6]
ᨣᩝᩴ ( IPA: [kɔː b ɔː] ) кодируется как <U+1A23 LOW KA, U+1A5D SIGN BA , U+1A74 MAI KANG>, но ᨠᩢ᩠ᨷ ( IPA: [ka p ] ) кодируется как <U+1A20 HIGH KA, U+1A62 MAI SAT, U+1A60 SAKOT, U+1A37 BA > и ᨠᩢᨷ᩠ᨷ᩺ ( IPA: [кап] ) кодируется как <U+1A20 HIGH KA, U+1A62 MAI SAT, U+1A37 BA, U+1A60 SAKOT, U+1A37 BA , U+1A7A RA HAAM>
- В окончательном предложении [3] : 1 принял , что Консорциум Unicode то, что сейчас является SIGN BA (как в ᨣᩝᩴ ), будет кодироваться как <SAKOT, BA>, а то, что сейчас является <SAKOT, BA> (как в ᨠᩢ᩠ᨷ ), должно быть закодировано как <SAKOT, HIGH PA>, но в процессе ISO значение <SAKOT, BA> изменилось [5] и был добавлен ЗНАК БА. Однако исходное значение <SAKOT, HIGH PA> сохраняется для слов тайского языка, в которых ป является согласной в конце слога. (В этом предложении ошибочно названо <SAKOT, HIGH PA> <SAKOT, HIGH PHA>.)
Пали использует HIGH PA вместо BA в Лаосе и северо-восточном Таиланде. Поэтому следует быть готовым к тому, что <SAKOT, BA> закодировано как <U+1A60 SAKOT, U+1A38 HIGH PA> на пали.
У Тай Хуэна есть два способа написания индекса HIGH SA. Они не являются взаимозаменяемыми.В Тай Хуэне правильно писать ᩃᩮᩞ , а писать ᩃᩮ᩠ᩈ неправильно. [5] но писать ᩈᨶ᩠ᨶᩥᩅᩤ᩠ᩈ правильно, а писать ᩈᨶ᩠ᨶᩥᩅᩤᩞ неправильно! ᩃᩮᩞ кодируется как <U+1A43 LA, U+1A6E SIGN E, U+1A5E SIGN SA >в то время как неправильный ᩃᩮ᩠ᩈ кодируется как <U+1A43 LA, U+1A6E SIGN E, U+1A60 SAKOT, U+1A48 HIGH SA >.
У Тай Хуэна есть дополнительный способ написания индекса MA. Для этого дополнительного метода существует специальный код. [4] : Пункт 9 Слово, которое в северном тайском языке пишется как ᨵᨾ᩠ᨾ᩺ , на Тай Кхуэне пишется как ᨵᨾ᩠ᨾ᩼ , закодированное как <U+1A35 LOW THA, U+1A3E MA, U+1A60 SAKOT, U+1A3E MA , U+1A7C KARAN>, и как ᨵᨾᩜ᩼, закодированное как<U+1A35 LOW THA, U+1A3E MA, U+1A5C ЗНАК MA , U+1A7C КАРАН>.
Существует два способа написания нижнего индекса как для ВЫСОКОЙ РАТХА, так и для НИЗКОЙ ПА. ᨶᩥᨣᨱᩛ [7] : 368 кодируется как <U+1A36 NA, U+1A65 SIGN I, U+1A23 LOW KA,U+1A31 РАНА, U+1A5B ЗНАК ВЫСОКАЯ РАТХА ИЛИ НИЗКАЯ ПА >: ᩁᩣᨩᨽᩢ᩠ᨮ [3] : 3 закодирован<U+1A41 RA, U+1A63 SIGN AA, U+1A29 LOW CA, U+1A3D LOW PHA, U+1A62 MAI SAT, U+1A60 SAKOT, U+1A2E ВЫСОКАЯ РАТА >. ᨶᩥᨻᩛᩣᨶ кодируется как <U+1A36 NA, U+1A65 SIGN I, U+1A3B LOW PA, U+1A5B SIGN HIGH RATHA OR LOW PA , U+1A63 SIGN AA, U+1A36 NA>: ᨴᩮ᩠ᨻ кодируется как <U+1A34 LOW TA, U+1A6E SIGN E, U+1A60 SAKOT, U+1A3B LOW PA >.Последнее слово также пишется как ᨴᩮ᩠ᨷ .Союз согласных в лаосском стиле ᨲ᩠ᨳ (закодированный как <U+1A32 HIGH TA, U+1A60 SAKOT, U+1A33 HIGH THA>) выглядит так, как будто он закодирован как <U+1A32 HIGH TA, U+1A5B SIGN HIGH RATHA. ИЛИ НИЗКИЙ ПА>. Форма U+1A5B зависит от согласной, к которой он приписан.
Зависимая гласная в таких словах, как ᨯᩬᨠ «цветок», кодируется специальной гласной <U+1A6C SIGN OA BELOW>; не следует использовать последовательность <U+1A60 SAKOT, U+1A4B LETTER A> Существует также закодированная зависимая гласная для таких слов, как Tai Khuen, Tai Lue и лаосские слова, такие как ᨶ᩶ᩭ , а именно U+1A6D SIGN OY. Эта гласная не кодируется как <U+1A6C SIGN OA BELOW, U+1A60 SAKOT, U+1A3F LOW YA> (это то, что северный тайский язык использует для соответствующих слов; это не последовательность <U+1A60 SAKOT, U+ 1А40 ВЫСОКИЙ Я> [3] : Раздел 5
Надстрочные согласные [ править ]
Надстрочные согласные кодируются независимо от основных согласных. Некоторые символы служат как надстрочными согласными, так и в других ролях, поэтому они обсуждаются далее в этом разделе.
Ниггахита и кодируется как U+1A74 MAI KANG. Надстрочный индекс WA отдельно не кодируется. Он закодирован как MAI KANG. Например, Тай Хуэн ᨯ᩠ᨿᩴ ( IPA: [deu] ) кодируется как <U+1A2, DA, U+1A60 SAKOT, U+1A3F LOW YA, U+1A74 MAI KANG>. В целях последовательности символов он обычно рассматривается как гласный.
Надстрочный индекс NGA, начинающийся с кластера, кодируется как U+1A58 MAI KANG LAI. Обратите внимание, что в Лаосе обычно используется один и тот же символ для MAI KANG LAI и U + 1A59 SIGN FINAL NGA.
U+1A62 MAI SAT выполняет три роли: это гласная, конечная согласная и сокращатель гласных.
Выбор кодировки надстрочной формы РА и убийц гласных был трудным. В 1940-х годах Тай Хуэн писал согласную и убийцу гласных одинаково. Авторы кодировки навели справки, и им сказали, что глифы все те же, и поэтому они оба закодированы как U+1A7A RA HAAM. Затем стало известно, что Тай Хуэн изменил глифы убийцы гласных, и для стиля Тай Хуэна убийцы гласных был добавлен новый символ U + 1A7C KARAN. Некоторые писатели Северного Таиланда предпочитают использовать U + 1A7C в качестве убийцы гласных, и действительно, использование этого глифа не является чем-то неизвестным в почерке Северного Таиланда.
Особые согласные [ править ]
Специальные формы ᩓ и ᩕ кодируются кодовыми точками U+1A53 и U+1A55 соответственно.
Если символы U+1A36 NA и U+1A63 SIGN AA расположены рядом, они записываются как лигатура ᨶᩣ, а не как два отдельных глифа ᨶᩣ . Они записываются лигатурой, даже если к NA прикреплена подстрочная согласная или неследующий знак. Примеры: ᨾᨶ᩠ᨲᩣ ( IPA: [man taː] , кодировка <U+1A3E MA, U+1A36 NA, U+1A60 SAKOT, U+1A32 HIGH TA, U+1A63 SIGN AA>) и ᨶᩮᩢᩣ ( IPA: [nau] , кодировка <U+1A36 NA, 1A6E SIGN E, U+1A62 MAI SAT, U+1A63 SIGN AA>). Нижний индекс NA и SIGN AA лигируются одинаково, например ᩉ᩠ᨶᩣ (( IPA: [naː] ), закодированный <U+1A49 HIGH HA, U+1A60 SAKOT, 1A36 NA, U+1A63 SIGN AA>)
Близнецовый согласный ᩔ кодируется отдельно, поскольку слово ᩅᩥᩈᩮ᩠ᩈ ( Северо-тайское произношение: [wiseːt] , кодировка <U+1A45 WA, U+1A65 SIGN I, U+1A48 HIGH SA, U+1A6E SIGN E, U+1A60 SAKOT, U+1A48 HIGH SA>) имеет совсем другой вид. от ᩅᩥᩔᩮ , но может возникнуть необходимость сложить последний слог в <HIGH SA, SAKOT, HIGH SA, SIGN E>. Действительно, в 2019–2020 годах проводилась кампания по установлению последнего в качестве стандартного написания.
Напротив, близнецовый согласный ᨬ᩠ᨬ кодируется как союз <U+1A2C NYA, U+1A60 SAKOT, U+1A2C NYA>, хотя некоторые из его глифов могут напоминать гипотетический союз ᨱ᩠ᨬ <U+1A31 RANA, U+1A60. САКОТ, U+1A2C НЯ>.
Независимые гласные [ править ]
Независимая гласная ᩋ и согласная ᩋ представляют собой один и тот же символ, U+1A4B.
Независимый гласный ᩋᩣ , последовательность согласного ᩋ и зависимого гласного ᩣ имеют одинаковый внешний вид ᩋᩣ и поэтому оба кодируются <U+1A20 БУКВА A, U+1A63 ЗНАК AA>.
Северный тайский язык использует 5 независимых гласных со своими кодовыми точками, а именно ᩍ , ᩎ , ᩏ , ᩐ и ᩑ . [3] : Раздел 3
В северном тайском языке восьмая независимая гласная ничем не отличается от последовательности согласной ᩋ и зависимой гласной ᩰ , то есть ᩋᩰ , и поэтому они оба кодируются <U+1A4B БУКВА A, U+1A70 ЗНАК OO>. используется отдельный символ ᩒ В других языках для независимой гласной U+1A52 БУКВА OO.
Порядок символов в тексте [ править ]
Предложение по кодированию [3] определил порядок символов Юникода.
Как и в написании бирманского, кхмерского и индийского языков, символы Юникода упорядочены в соответствии с порядком звуков, за исключением особых случаев. [9] или если 2 звука объединяются в один звук, а затем используется старый порядок. Этот порядок обычно такой же, как в сиамском языке. Если звук не имеет порядка, то используется визуальный порядок или специальный альтернативный порядок.
Существуют специальные правила для:
- а) Порядок гласных
- (б) Написание май киа во всех его вариантах.
- (в) Написание май куа во всех его вариантах
- (г) Написание Май Кам
- (e) Написание тональных знаков
Символы Юникода для согласных и гласных располагаются в следующем порядке: начальные буквы, знаки истинных гласных, кодовые согласные, начальные буквы, знаки истинных гласных, кодовые согласные. [3] : Раздел 14 Для удобства принято считать, что символы, убивающие гласные, являются гласными.
«Вступительные буквы» — это согласные, независимые гласные или специальные символы. Согласные в группе располагаются в соответствии с порядком, в котором они звучат или употреблялись раньше.
Пример: ᨻᩩᨴ᩠ᨵ ( Северо-тайское произношение: [put thaʔ] )
- начальная буква: ᨻ
- чистая гласная: ᩩ
- конечная согласная: ᨴ
- начальная буква: ᨵ
- чистая гласная: без символа
- последняя согласная: нет
Кодировка: <U+1A3B LOW PA, U+1A69 SIGN U, U+1A34 LOW TA, U+1A60 SAKOT, U+1A35 LOW THA>
Пример: ᨻᩕ состоит из одного согласного звука. Произношение в северном тайском языке: [pʰ] , но раньше в нем было два звука: ᨻ , а затем ᩁ, как в центральном тайском языке. Это слово кодируется как <LOW PA, MEDIAL RA>.
За исключением МЕДИАЛЬНОГО РА, порядок согласных символов такой же, как и порядок звуков. В большинстве случаев СРЕДНЯЯ РА — последняя согласная, но за СРЕДНЕЙ РА следуют WA в /ua/ и НИЗКАЯ YA в /ia/.
Примеры:
- ᩆᩣᩈ᩠ᨲᩕ᩺ кодируется <U+1A46 HIGH SHA, U+1A63 SIGN AA, U+1A48 HIGH SA, U+1A60 SAKOT, U+1A32 HIGH TA, U+1A55 MEDIAL RA, U+1A7A RA HAAM>.
- ᨠᩕᩈᩢ᩠ᨲ кодируется <U+1A20 HIGH KA, U+1A55 MEDIAL RA, U+1A48 HIGH SA, U+1A62 MAI SAT, U+1A60 SAKOT, U+1A32 HIGH TA>.
- ᩈᩕ᩠ᩅᨾ кодируется <U+1A48 HIGH SA, U+1A55 MEDIAL RA, U+1A60 SAKOT, U+1A45 WA, U+1A3E MA>.
- Но ᨲᩕ᩠ᨶᩬᨾ ( Северо-тайское произношение: [tʰa nɔːm] ) [7] : 269 кодируется <U+1A32 HIGH TA, U+1A55 MEDIAL RA, U+1A60 SAKOT, U+1A36 NA, U+1A6C SIGN OA НИЖЕ, U+1A3E MA>
Для таких слов, как ᨧᩮᩢ᩶ᩣ, существует правило, согласно которому символы гласных и тонов имеют следующий порядок: [3] : Раздел 5 первая часть, 5.3 и 13.
- (1) ведущие гласные
- (2) гласные внизу (сверху вниз)
- (3) гласные сверху (снизу вверх)
- (4) отметки тона (слева направо)
- (5) конечные гласные (слева направо)
При применении этих правил MAI KANG считается гласной, даже если она функционирует как ниггахита или согласная. Символ Юникода MAI SAT считается гласной, даже если он действует как согласная, т. е. как mai kak, т. е. как конечная согласная, или действует как сокращатель гласных, как в ᨸᩮᩢ᩠ᨯ .
Относительный порядок знаков сверху и снизу должен соответствовать тайскому и лаосскому, как в Chao Kiaw Chum и ບິ່ .
Примеры:
- ᨧᩮᩢ᩶ᩣ кодируется как <U+1A27 HIGH CA, U+1A6E SIGN E, U+1A62 MAI SAT, U+1A76 TONE-2, U+1A63 SIGN AA> [3] : Раздел 5 нет. 29
- ᨾᩢᩣ ( IPA: [maːk] ) кодируется как <U+1A3E MA, U+1A62 MAI SAT, U+1A63 SIGN AA>
- ᩃᩪᩢ ( IPA: [luːk] ) кодируется как <U+1A43 LA, U+1A6A SIGN UU, U+1A62 MAI SAT>
- ᨶᩮᩢᩣ кодируется как <U+1A36 NA, U+1A6E SIGN E, U+1A62 MAI SAT, U+1A63 SIGN AA>
- ᩋᩫᨶ᩠ᨲᩕᩣ᩠ᨿ ( Северо-тайское произношение: [on thaʔ laːi] ) кодируется как <U+1A4B БУКВА A, U+1A6B SIGN O, U+1A36 NA, U+1A60 SAKOT, U+1A32 HIGH TA, U+1A55 MEDIAL RA, U+ 1A63 ЗНАК АА, U+1A60 САКОТ, U+1A3F НИЗКИЙ Я>
Для /ia/ и /ua/ во всех их формах нижние индексы LOW YA и WA считаются начальными согласными. [3] : Раздел 14.3
Примеры:
- ᩈ᩠ᨿᩮ на самом деле кодируется <U+1A48 HIGH SA, U+1A60 SAKOT, U+1A3F LOW YA, U+1A6E SIGN E> [3] : Раздел 5 № 33
- ᨸ᩠ᩃ᩠ᨿ᩵ᩁ на самом деле кодируется <U+1A38 HIGH PA, U+1A60 SAKOT, U+1A43 LA, U+1A60 SAKOT, U+1A3F LOW YA, U+1A75 TONE-1, U+1A41 RA> [3] : Раздел 14.9
- ᨲ᩠ᩅᩫ на самом деле кодируется <U+1A32 HIGH TA, U+1A60 SAKOT, U+1A45 WA, U+1A6B SIGN O> [3] : Раздел 14.3
- ᩈ᩠ᩅ᩵ᩁ на самом деле кодируется <U+1A48 HIGH SA, U+1A60 SAKOT, U+1A45 WA, U+1A75 TONE-1, U+1A41 RA>
- ᨠᩖ᩠ᩅ᩠᩶ᨿ на самом деле кодируется как <U+1A20 KA, U+1A56 MEDIAL LA, U+1A60 SAKOT, U+1A45 WA, U+1A76 TONE-2, U+1A60 SAKOT, U+1A3F LOW YA>
- (<U+1A60, U+1A76> канонически эквивалентно <U+1A76, U+1A60>)
За пределами Северного Таиланда MAI KANG в символе / am / написан на компоненте SIGN AA. В Северном Таиланде он располагается по-разному – на согласной, на ЗНАКЕ АА и между ними. Консорциум Unicode отказался от использования специального символа для этой комбинации. Слово ᨷᩴ᩠᩵ᨾᩣ ( Северо-тайское произношение: [bɔːmaː] ) не должно содержать ту же гласную, что и ᨲ᩵ᩣᩴ ( IPA: [там] ). Таким образом, комбинация /am/ кодируется как <U+1A63 SIGN AA, U+1A74 MAI KANG>. Слово ᨷᩴ᩠᩵ᨾᩣ кодируется как <U+1A37 BA, U+1A74 MAI KANG, U+1A75 TONE-1, U+1A60 SAKOT, U+1A3E MA, U+1A63 SIGN AA>. Слово ᨲ᩵ᩣᩴ кодируется как <U+1A32 HIGH TA, U+1A75 TONE-1, U+1A63 SIGN AA, U+1A74 MAI KANG>. Комбинация /am/ с SIGN TALL AA кодируется как <U+1A64 SIGN TALL AA, U+1A74 MAI KANG>.
U+1A5A SIGN LOW PA — особый случай; слово Тай Люэ ᨣᨽᩚ ( IPA: [kap phaʔ] ) кодируется как <U+1A23 LOW KA, U+1A3D LOW PHA, U+1A5A SIGN LOW PA>. [3] : Раздел 4
Примеры, показывающие май кан лай и ла тан лай:
- Слово Санго кодируется <U+1A48 SA, U+1A58 MAI KANG LAI, U+1A25 LOW KHA, U+1A6E SIGN E, U+1A63 SIGN AA>.
- Северо-тайское слово ᨴᩘ᩠ᩃᩣ᩠ᨿ ( Северо-тайское произношение: [tang laːi] ) кодируется <U+1A34 LOW TA, U+1A58 MAI KANG LAI, U+1A60 SAKOT, U+1A43 LA, U+1A63 SIGN AA, U+1A60 SAKOT, U+1A3F YA> .
- Или Прочитайте слово ᨴᩢᩗᩣ ( Произношение Тай Лю: [taŋ laːi] ) кодируется <U+1A34 LOW TA, U+1A62 MAI SAT, U+1A57 LA TANG LAI, U+1A63 SIGN AA>.
Внешние ссылки [ править ]
- Чу П., Саенгбун П. и Уордингем Р. (2015). «Тай Там: гибридный сценарий, бросающий вызов современным моделям кодирования» . Представлено на конференции по интернационализации и Unicode (IUC 39) .
Ссылки [ править ]
- ^ «База данных символов Юникода» . Стандарт Юникод . Проверено 26 июля 2023 г.
- ^ «Перечисленные версии стандарта Unicode» . Стандарт Юникод . Проверено 26 июля 2023 г.
- ↑ Перейти обратно: Перейти обратно: а б с д и ж г час я дж к л м н тот п д р с т Эверсон, Майкл ; Хоскен, Мартин; Констебль, Питер (21 марта 2007 г.). «Пересмотренное предложение по кодированию сценария Ланна в BMP UCS» (PDF) . Юникод .
- ↑ Перейти обратно: Перейти обратно: а б «Отчет о специальном совещании Тай Тхам (WG2 N3379)» (PDF) . Юникод . 22 января 2008 г.
- ↑ Перейти обратно: Перейти обратно: а б с Хоскен, Мартин (28 января 2008 г.). «Соединенные варианты Тай Там» (PDF) . Юникод .
- ^ Хотсимеуанг, Веомани. «Тай Лю: сложные орфографические правила: графические сочетания (I)» . Сайт SEA . Проверено 10 июня 2018 г.
- ↑ Перейти обратно: Перейти обратно: а б Рунгруэнгси, Удом (январь 2004 г.). Ланна-тайский словарь: Maefahluang Edition Словарь Ланна ~ тайский: издание Mae Fah Luang (на тайском языке). Чиангмай: Университет Чиангмая. ISBN 974-685-175-6 .
- ^ Читается как COENG, т.е. U + 17D2 КХМЕРСКИЙ ЗНАК COENG.
- ^ «Модель кодирования для Ланны аналогична модели для Мьянмы и Кхмера, с использованием CEONG [8] -похожий персонажплюс некоторые комбинации символов срединных согласных». [3] : Раздел 14