Вьетнамский язык и компьютеры
Вьетнамский язык написан латинским шрифтом с диакритическими знаками ( акцентными тонами ), что требует некоторых приспособлений при наборе текста на телефоне или компьютере. Программные системы — это форма письма на вьетнамском языке на телефонах или компьютерах с программным обеспечением, которое можно установить на устройство, или из стороннего программного обеспечения, такого как UniKey . Телекс — старейший метод ввода, разработанный для кодирования вьетнамского языка с помощью его тонов. Другие методы ввода также могут включать VNI (клавиатуру с цифровыми клавишами) и VIQR . Метод ввода VNI не следует путать с кодовой страницей VNI.
Исторически вьетнамский язык также писался на языке chữ Nôm , который в последнее время в основном используется в церемониальных и традиционных целях и остается в поле зрения историков и филологов . Были попытки набрать chữ Hán и chữ Nôm с использованием существующих вьетнамских методов ввода, но они не получили широкого распространения. [1] [2] Иногда вьетнамский язык можно печатать без знаков тона, которые носители Вьетнама обычно могут угадать в зависимости от контекста.
Шрифты и кодировки символов
[ редактировать ]Вьетнамский алфавит
[ редактировать ]Кодировки символов
[ редактировать ]Существует целых 46 символов кодировок вьетнамского алфавита . [3] Юникод стал самой популярной формой для многих мировых систем письма благодаря своей отличной совместимости и программной поддержке. Диакритические знаки могут быть закодированы либо как комбинированные символы , либо как предварительно составленные символы , которые разбросаны по блокам Latin-1 Supplement , Latin Extended-A , Latin Extended-B и Latin Extended Дополнительные блоки. Вьетнамский символ đồng закодирован в блоке «Символы валют» .
С 1990-х годов в Юникоде вьетнамского языка претерпели несколько изменений. Ранние версии Unicode кодировали dấu huyền и dấu sắc как U + 0340 ◌̀ СОЧЕТАНИЕ ГРЕЙВ ТОН МАРКИ и U+0341 ◌́ КОМБИНИРОВАНИЕ ОСТРОГО ТОНА ОТМЕТКИ соответственно. В 2001 году эти два символа были признаны устаревшими как повторяющиеся кодировки U+0300 ◌̀ СОЧЕТАНИЕ СЕРЬЕЗНОГО АКЦЕНТА и U+0301 ◌́ СОЧЕТАНИЕ ОСТРОГО АКЦЕНТА ; [4] это изменение было включено в Unicode 3.2, выпущенную в 2002 году. [5] С выпуском Unicode 5.2 в 2009 г. U + 0340 ◌̀ и U+0341 ◌́ не одобрялся, но не одобрялся. [6] [7] Исторически во вьетнамском языке использовались и другие символы, выходящие за рамки современного алфавита. Средневьетнамская B буква с росчерком (ꞗ) включена в блок Latin Extended-D . Вершина , не кодируется отдельно в Юникоде, поскольку она происходит от португальской тильды , тогда как dấu ngã , происходящее от греческого периспомени всегда ошибочно кодировалось как тильда. В качестве обходного пути, U + 1DC4 ◌᷄ ОБЪЕДИНЕНИЕ МАКРОНА И ОСТРОГО представляет собой вершину Wikisource и Викисловаря .
Для систем, в которых отсутствует поддержка Unicode, десятки 8-битных кодовых страниц на вьетнамском языке. были разработаны [3] Наиболее часто используемыми из них были VISCII , VSCII (TCVN 5712:1993), VNI , VPS и Windows-1258 . [8] [9] Там, где требуется ASCII , например, при обеспечении читаемости обычного текста электронной почты, вьетнамские буквы часто кодируются в соответствии с вьетнамским цитированием-читаемым (VIQR) или VSCII (VSCII-MNEM). мнемоникой [10] хотя использование любой из схем переменной ширины резко сократилось после принятия Unicode во Всемирной паутине . Например, поддержка всех вышеупомянутых 8-битных кодировок, за исключением Windows-1258, была исключена из программного обеспечения Mozilla в 2014 году. [11]
Многие вьетнамские шрифты, предназначенные для настольных издательских систем , закодированы в VNI или TCVN3 ( VSCII ). [9] Такие шрифты известны как «шрифты ABC». [12] Популярные веб-браузеры не поддерживают специальные вьетнамские кодировки, поэтому любая веб-страница, использующая эти шрифты, отображается как непонятный моджибаке в системах, где они не установлены.

Во вьетнамском языке диакритические знаки часто складываются друг в друга, поэтому дизайнеры шрифтов должны позаботиться о том, чтобы сложенные диакритические знаки не сталкивались с соседними буквами или строками. Когда знак тона используется вместе с другим диакритическим знаком, смещение знака тона вправо сохраняет последовательность и позволяет избежать замедления саккад . [13] В рекламных вывесках и рукописном письме диакритические знаки часто принимают формы, незнакомые другим латинским алфавитам. Например, строчная буква I сохраняет свое название в ì , ỉ , ĩ и í . [14] Эти нюансы редко учитываются в вычислительных средах.
Подходы к кодировке символов
[ редактировать ]Вьетнамское письмо требует 134 дополнительных букв (между обоими вариантами) помимо 52, уже присутствующих в ASCII. [15] Это превышает 128 дополнительных символов, доступных в обычной расширенной кодировке ASCII. Хотя эту проблему можно решить с помощью кодировки переменной ширины (как это сделано в UTF-8 ), в других кодировках использовался ряд подходов для поддержки вьетнамского языка без этого:
- Замените не менее шести символов ASCII, выбранных либо потому, что они необычны во вьетнамском языке, и/или потому, что они неинвариантны в ISO 646 или DEC NRCS. [15] (как в VNI для DOS ).
- Оставьте заглавные буквы, которые используются реже всего, [15] или все заглавные буквы со знаками тона (как в VSCII-3 (TCVN3)). Эти буквы по-прежнему можно наносить с помощью заглавных шрифтов. [16]
- Отбросьте форму буквы Y со знаками тона, что приводит к необходимости использования буквы I в таких обстоятельствах . Этот подход был отвергнут разработчиками VISCII на том основании, что кодировка символов не должна пытаться решить проблему реформы орфографии. [15]
- Замените не менее шести управляющих символов C0. [15] (как в VISCII , VSCII-1 (TCVN1) и VPS ).
- Используйте комбинированные символы, позволяющие полностью представить одну гласную с ударениями с помощью последовательности символов (как в VNI , VSCII-2 (TCVN2), Windows-1258 и ANSEL ).
Кодовые точки Юникода
[ редактировать ]В следующей таблице представлены коды Юникода для всех вьетнамских букв, отличных от ASCII.
Без пометки | Могила | Крюк | Тильда | Острый | Точка |
---|---|---|---|---|---|
̀ (U+0300) | ̉ (U+0309) | ̃ (U + 0303) | (U + 0301) | ̣ (U + 0323) | |
Прописные буквы | |||||
А | В (U+00C0) | Арабский (U+1EA2) | Ã (U+00C3) | Включено (U+00C1) | Ах (U+1EA0) |
к (U+0102) | (U+1EB0) | Ẳ (U+1EB2) | (U+1EB4) | (U+1EAE) | Э-э (U+1EB6) |
 (U+00C2) | О (U+1EA6) | Ан (U+1EA8) | (U+1EAA) | Ấ (U+1EA4) | Э-э (U+1EAC) |
Д (U + 0110) | |||||
И | И (U+00C8) | É (U+1EBA) | (U+1EBC) | É (U+00C9) | (U+1EB8) |
Ê (U+00CA) | У (U+1EC0) | Эх (U+1EC2) | Е (U+1EC4) | Эх (U+1EBE) | Е (U+1EC6) |
я | Ì (U+00CC) | Расстройство пищеварения (U+1EC8) | Ĩ (U + 0128) | В (U+00CD) | Вы (U+1ECA) |
ТО | Ò (U+00D2) | (U+1ЕЭК) | Õ (U+00D5) | Или (U+00D3) | Это (U+1ECC) |
Ячейка (U+00D4) | О (U+1ED2) | Привод (U+1ED4) | О (U+1ED6) | О (U+1ED0) | О (U+1ED8) |
О (U + 01A0) | О (U+1EDC) | В (U+1EDE) | (U+1EE0) | О (U+1EDA) | Отрыжка (U+1EE2) |
В | Ù (U+00D9) | Инкубация (U+1EE6) | Ũ (U + 0168) | Ú (U+00DA) | У (U+1EE4) |
У (U+01AF) | Да (U+1EEA) | U (U+1EEC) | U (U+1EEE) | Стазис (U+1EE8) | Ух (U+1EF0) |
И | У (U+1EF2) | Ỷ (U+1EF6) | США (U+1EF8) | Ý (U+00DD) | (U+1EF4) |
Строчные буквы | |||||
а | до (U+00E0) | она (U+1EA3) | ã (U+00E3) | на (U+00E1) | (U+1EA1) |
(U + 0103) | (U+1EB1) | (U+1EB3) | Ð (U+1EB5) | (U+1ЭАФ) | (U+1EB7) |
â (U+00E2) | ầ (U+1EA7) | (U+1EA9) | (U+1EAB) | (U+1EA5) | ậ (U+1EAD) |
д (U + 0111) | |||||
и | и (U + 00E8) | е (U+1EBB) | ẽ (U+1EBD) | есть (U+00E9) | ты (U+1EB9) |
ê (U+00EA) | (U+1EC1) | е (U+1EC3) | е (U+1EC5) | (U+1EBF) | е (U+1EC7) |
я | (U+00EC) | (U+1EC9) | ì (U+0129) | в (U+00ED) | ты (U+1ECB) |
тот | или (U+00F2) | в (U+1ECF) | х (U+00F5) | или (U+00F3) | это (U+1ECD) |
ячейка (U+00F4) | О (U+1ED3) | привод (U+1ED5) | ох (U+1ED7) | пятно (U+1ED1) | (U+1ED9) |
ох (U+01A1) | эээ (U+1EDD) | в (U+1EDF) | в (U+1EE1) | (U+1EDB) | Отрыжка (U+1EE3) |
в | ты (U+00F9) | инкубация (U+1EE7) | ũ (U+0169) | й (U+00FA) | док (U+1EE5) |
(U + 01B0) | да (U+1EEB) | (U+1EED) | (U+1ЭЭФ) | стазис (U+1EE9) | ты (U+1EF1) |
и | инерция (U+1EF3) | полагаться (U+1EF7) | ỹ (U+1EF9) | ý (U+00FD) | ỵ (U+1EF5) |
Замена шрифта
[ редактировать ]Многие шрифты поддерживают подмножество латинской системы письма, в которой отсутствует большая часть вьетнамского алфавита. Из-за высокой плотности вьетнамских символов во вьетнамском тексте веб-браузеры, реализующие замену шрифтов , надежно создают эффект требования выкупа , когда на веб-странице указан неподходящий шрифт.
Номинальный сценарий
[ редактировать ]
Unicode включает более 10 000 символов Nôm как часть репертуара Unicode CJK Unified Ideographs . Из этих символов 10 082 можно найти в блоке расширения CJK Unified Ideographs Extension B , а остальные распределены между CJK Unified Ideographs Extension A и CJK Unified Ideographs Extension C. блоками Еще 1028 символов, включая более 400 символов, характерных для языка Tày , закодированы в блоке E CJK Unified Ideographs Extension . Символы взяты из вьетнамских стандартов TCVN 5773:1993 и TCVN 6909:2001 [ошибка TCVN 6056:1995?], а также из исследований Исследовательского института Хан-Ном и других групп. [18] Все символы в TCVN 5773:1993 и около 95% символов в TCVN 6909:2001 [ошибка для TCVN 6056:1995?] имеют соответствующие кодовые точки в Unicode 5.1, хотя сам TCVN 5773:1993 сопоставил большинство своих символов с частными. Используйте область Юникода. [19] добавлены два диакритических символа В Unicode 13.0 в блок «Идеографические символы и пунктуация» , которые обычно использовались для обозначения заимствованных символов в chữ Nôm . [20] [21]
Двумя наиболее полными шрифтами Ном являются сохранения ном. Вьетнамского фонда шрифты Nôm Na Tống Light [22] и разработанный сообществом HAN NOM A / HAN NOM B , [23] оба из которых помещают большое количество нестандартных символов в области частного использования .
Консорциума Unicode База данных Unihan включает вьетнамские прочтения некоторых символов, но не делает различий между китайско-вьетнамским прочтением и прочтением Nôm .
Как и другие системы письма CJKV , chữ Nom традиционно пишется вертикально , сверху вниз и справа налево.
Китайские иероглифы и символы Nom также могут быть аннотированы с помощью рубиновых символов , что аналогично символам Quoc Ngu для вьетнамского языка. [24]
Ввод текста
[ редактировать ]
Чисто физическая вьетнамская клавиатура была бы непрактичной из-за огромного количества комбинаций букв, диакритических знаков и диакритических знаков в алфавите, например ờ, ị. Вместо этого ввод на вьетнамском языке основан на шаблонных программных раскладках клавиатуры, виртуальных клавиатурах или методах ввода (также известных как IME).
Раскладки клавиатуры
[ редактировать ]Вьетнамские раскладки клавиатуры основаны на неработающих клавишах для составления букв с диакритическими знаками. Большинство настольных операционных систем имеют вьетнамскую раскладку клавиатуры, аналогичную TCVN 6064:1995 — национальному стандарту Вьетнама. Раньше в пишущих машинках использовалась вьетнамская раскладка на основе AZERTY (AĐERTY). [25]
Методы ввода
[ редактировать ]
Три наиболее распространенных метода ввода на вьетнамском языке — это Telex , VNI и VIQR . Телекс указывает диакритические знаки с использованием букв, которые вряд ли появятся в конце слова, в то время как VNI меняет назначение цифровых или функциональных клавиш, а VIQR меняет различные знаки препинания. Соглашения Telex и VIQR возникли в более раннюю эпоху телексных машин и пишущих машинок соответственно.
Поддержка этих методов ввода обеспечивается редакторами методов ввода (IME), которые на вьетнамском языке известны как bộ gõ , что буквально означает «клюшки» или «перкуссия» в более общих терминах. IME могут предоставляться операционной системой, устанавливаться как стороннее приложение, устанавливаться как расширение браузера или предоставляться отдельным веб-сайтом в виде скрипта . К распространенным сторонним приложениям относятся GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey и xvnkb. В Unix-подобных операционных системах платформы IBus и SCIM поддерживают вьетнамский язык. Скрипты IME, такие как AVIM, Mudim и VietTyping, можно найти на большинстве вьетнамских досок объявлений , вьетнамской Википедии и других текстовых веб-сайтах. Вьетнамский веб-браузер Cốc Cốc имеет встроенный метод ввода.
Методы ввода позволяют составлять слова в более гибком порядке, чем раскладки клавиатуры. Например, чтобы ввести слово « viết », используя раскладку клавиатуры TCVN 6064:1995, необходимо ввести VI38T, в таком порядке. Напротив, большинство IME позволяют пользователю вставлять диакритические знаки в конце слова: VIEETS в телексе, VIET61 в ВНИ или VIET^' в ВИКР. Некоторые IME даже допускают ввод диакритических знаков перед базовыми буквами. В зависимости от реализации IME также возможно редактировать диакритические знаки существующего слова без повторного ввода слова.
Некоторые виртуальные клавиатуры дополняют стандартные неиспользуемые клавиши специальными сочетаниями клавиш. Например, с помощью клавиатуры VIQR, встроенной в iOS , можно добавить звуковой сигнал к букве «U», нажав либо 123#+=+ или посвященный ◌̛ клавиша, не имеющая аналога на физической клавиатуре.

Заимствовав функцию, распространенную среди китайских методов ввода , некоторые вьетнамские IME позволяют вообще пропускать диакритические знаки и вместо этого после ввода основных букв пользователь может выбрать слово с ударением из списка кандидатов. Чтобы предоставить этот список автозаполнения , IME может потребоваться связь с веб-службой . Некоторые IME также используют списки кандидатов, чтобы позволить пользователю преобразовывать текст из вьетнамского алфавита в chữ Nôm нет однозначного соответствия , поскольку между буквенными словами и символами nom .
Другие соображения
[ редактировать ]Типичный вьетнамский текст содержит большое количество сложных слов. В современном использовании сложные слова никогда не пишутся через дефис, поэтому программы проверки орфографии ограничиваются проверкой отдельных слогов, если не статистическую языковую модель использовать .
Во вьетнамском языке действуют строгие правила правописания и есть несколько исключений, поэтому системы преобразования текста в речь могут избегать поиска в словаре, за исключением случаев, когда встречаются слова, заимствованные из иностранного языка. Механизмы TTS должны учитывать тона , которые важны для значения любого вьетнамского слова, например, má (мать) — это другое слово, чем mà (но).
Интернационализированные пользовательские интерфейсы, как правило, не могут использовать полный набор вьетнамских местоимений , который можно было бы ожидать в традиционной социальной среде, даже если о пользователе известно многое. Вместо этого в пользовательских интерфейсах обычно используются общие местоимения, такие как toi и bạn , некоторые из которых делают потенциально неверные предположения о возрасте пользователя и отношениях с другими пользователями. Например, когда платформа социальных сетей уведомляет пользователя о более молодом пользователе, она может обращаться к последнему в третьем лице как anh ấy вместо em ấy , что приводит к тому, что пользователь неправильно интерпретирует уведомление как ссылку на кого-то другого. [26]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Как вводить символы Хан Ном?» . winvnkey.sourceforge.net . Проверено 8 декабря 2022 г.
- ^ «Чу Ном Ресурс» . chunom.org . Проверено 8 декабря 2022 г.
- ^ Перейти обратно: а б Нго Динь Хок; Чан Ту Бинь (21 июля 2014 г.). «Экспресс-руководство для WinVNKey» . WinVNKey . Проверено 5 октября 2014 г.
- ^ ISO/IEC JTC1/SC2/WG2 (10 октября 2001 г.). Отчет о взаимодействии консорциума Unicode (Отчет). Международная организация по стандартизации . Л2/01-378 . Проверено 5 июля 2024 г.
{{cite report}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Уистлер, Кен (1 августа 2001 г.). Анализ устаревания символов в стандарте Unicode (отчет). Технический комитет Юникод. Л2/01-301 . Проверено 5 июля 2024 г.
- ^ «Сочетание диакритических знаков» . Таблицы кодов символов Юникода 7.0 . Консорциум Юникод . 16 июня 2014 года . Проверено 5 октября 2014 г.
- ^ Бафф, Шарлотта (16 сентября 2018 г.). Несоответствия устаревания в аннотациях диаграммы кода (PDF) (отчет). Технический комитет Юникод. Л2/18-301 . Проверено 5 июля 2024 г.
- ^ Нго, Хок Динь; Тран, ТуБинь. «5. Зачем нужно конвертировать вьетнамскую кодировку (набор символов – кодировка)?» . Некоторые специальные функции WinVNKey .
- ^ Перейти обратно: а б «Выберите шрифт и кодировку для ввода вьетнамского языка» . Vietnamese Percussion.Com (на вьетнамском языке). МангВН. Архивировано 2009. 20 ноября 2010 года.
- ^ Лунде, Кен (2009). Обработка информации CJKV (2-е изд.). О'Рейли Медиа . стр. 47–49. ISBN 978-0-596-51447-1 – через Google Книги.
- ^ Сивонен, Анри (26 сентября 2014 г.). «Изменения кодировки символов в mc требуют действия cc» . mozilla.dev.apps.thunderbird .
- ^ Хоанг То; Нгуен Куан Сон; Нгуен Сон Тунг; Фан Куанг Минь; Фам Тхук Чыонг Луонг; Нгуен Куанг Хиеп; Буй Ван Кьен; Нгуен Ич Винь (20 июля 2014 г.). История Тинхвана: 20 лет обмена и создания [ История Тинхвана: 20 лет обмена и создания ] (на вьетнамском языке). Том. 1. Группа Тинхван. п. 37 – через Google Книги.
- ^ Транг, Донни. «Проблемы дизайна» . Вьетнамская типография . Проверено 10 апреля 2018 г.
- ^ См., например: «Вьет Тхо». Выборки для чтения на вьетнамском языке (на вьетнамском языке) (2-е изд.). Армейская языковая школа . 1956. стр. 98–100.
- ^ Перейти обратно: а б с д и «2. Обзор действующих конвенций». Отчет о стандартизации кодировки символов Вьетнама — Спецификации кодировки символов VISCII и VIQR 1.1 (Технический отчет). Вьетнамская группа. 1992. с. 10.
- ^ «Юникод и устаревшие вьетнамские кодировки символов» . Часто задаваемые вопросы о вьетнамском Unicode .
TCVN3 не является двухбайтовым, но из-за особенностей его кодирования заглавные буквы (гласные) отображаются в отдельный прописной шрифт, аналогичный обычному строчному.
- ^ Тран Ван Кием (2004). «суп с лапшой» . Помогите прочитать Ном и китайско-вьетнамский язык (на вьетнамском языке) (4-е изд.). [1]
- ^ Нгуен Куанг Хонг. «Введение в репертуар кодированных символов» [Введение в репертуар кодированных символов Хан Нома] (на вьетнамском языке). Вьетнамский фонд сохранения номов.
- ^ Лунде 2009 , стр. 152–153.
- ^ Коллинз, Ли; Нго Тхань Нхан (6 ноября 2017 г.). «Предложение закодировать два вьетнамских альтернативных знака чтения» (PDF) .
- ^ «Предлагаемые новые персонажи: Трубопровод» . Консорциум Юникод. 8 мая 2019 года . Проверено 26 мая 2019 г.
- ^ «Ном шрифт» . Вьетнамский фонд сохранения нома . Проверено 5 октября 2014 г.
- ^ До Куок Бао; Минь Таму; Дзенский монастырь Вьен Кье (8 декабря 2005 г.). «Набор шрифтов UNICODE Han Nom» . Проверено 5 октября 2014 г.
- ^ Лунде 2009 , стр. 529.
- ^ Дункан, Джон Уильям (22 декабря 2005 г.), вьетнамская пишущая машинка , получено 11 июля 2020 г.
- ^ Джейкоб, Ракель (2 февраля 2022 г.). «Руководство по использованию языка – вьетнамский» . Унбабель . Проверено 18 июля 2022 г.
Дальнейшее чтение
[ редактировать ]- Лунде, Кен (2009). Обработка информации CJKV . Севастополь, Калифорния: O'Reilly Media . ISBN 978-0-596-51447-1 – через Google Книги.
Внешние ссылки
[ редактировать ]- Вычисление на вьетнамском языке: прогресс и проблемы - презентация Международной группы пользователей Macintosh, 2005 г.
- Vietnamese Conversions – онлайн-инструмент для восстановления вьетнамского моджибаке