Jump to content

Вьетнамский язык и компьютеры

Вьетнамский язык написан латинским шрифтом с диакритическими знаками ( акцентными тонами ), что требует некоторых приспособлений при наборе текста на телефоне или компьютере. Программные системы — это форма письма на вьетнамском языке на телефонах или компьютерах с программным обеспечением, которое можно установить на устройство, или из стороннего программного обеспечения, такого как UniKey . Телекс — старейший метод ввода, разработанный для кодирования вьетнамского языка с помощью его тонов. Другие методы ввода также могут включать VNI (клавиатуру с цифровыми клавишами) и VIQR . Метод ввода VNI не следует путать с кодовой страницей VNI.

Исторически вьетнамский язык также писался на языке chữ Nôm , который в последнее время в основном используется в церемониальных и традиционных целях и остается в поле зрения историков и филологов . Были попытки набрать chữ Hán и chữ Nôm с использованием существующих вьетнамских методов ввода, но они не получили широкого распространения. [1] [2] Иногда вьетнамский язык можно печатать без знаков тона, которые носители Вьетнама обычно могут угадать в зависимости от контекста.

Шрифты и кодировки символов

[ редактировать ]

Вьетнамский алфавит

[ редактировать ]
Обычно два диакритических знака ставятся на одну вьетнамскую гласную. Некоторые шрифты объединяют эти диакритические знаки, а другие смещают знак тона.

Кодировки символов

[ редактировать ]

Существует целых 46 символов кодировок вьетнамского алфавита . [3] Юникод стал самой популярной формой для многих мировых систем письма благодаря своей отличной совместимости и программной поддержке. Диакритические знаки могут быть закодированы либо как комбинированные символы , либо как предварительно составленные символы , которые разбросаны по блокам Latin-1 Supplement , Latin Extended-A , Latin Extended-B и Latin Extended Дополнительные блоки. Вьетнамский символ đồng закодирован в блоке «Символы валют» .

С 1990-х годов в Юникоде вьетнамского языка претерпели несколько изменений. Ранние версии Unicode кодировали dấu huyền и dấu sắc как U + 0340 ◌̀ СОЧЕТАНИЕ ГРЕЙВ ТОН МАРКИ и U+0341 ◌́ КОМБИНИРОВАНИЕ ОСТРОГО ТОНА ОТМЕТКИ соответственно. В 2001 году эти два символа были признаны устаревшими как повторяющиеся кодировки U+0300 ◌̀ СОЧЕТАНИЕ СЕРЬЕЗНОГО АКЦЕНТА и U+0301 ◌́ СОЧЕТАНИЕ ОСТРОГО АКЦЕНТА ; [4] это изменение было включено в Unicode 3.2, выпущенную в 2002 году. [5] С выпуском Unicode 5.2 в 2009 г. U + 0340 ◌̀ и U+0341 ◌́ не одобрялся, но не одобрялся. [6] [7] Исторически во вьетнамском языке использовались и другие символы, выходящие за рамки современного алфавита. Средневьетнамская B буква с росчерком (ꞗ) включена в блок Latin Extended-D . Вершина , не кодируется отдельно в Юникоде, поскольку она происходит от португальской тильды , тогда как dấu ngã , происходящее от греческого периспомени всегда ошибочно кодировалось как тильда. В качестве обходного пути, U + 1DC4 ◌᷄ ОБЪЕДИНЕНИЕ МАКРОНА И ОСТРОГО представляет собой вершину Wikisource и Викисловаря .

Для систем, в которых отсутствует поддержка Unicode, десятки 8-битных кодовых страниц на вьетнамском языке. были разработаны [3] Наиболее часто используемыми из них были VISCII , VSCII (TCVN 5712:1993), VNI , VPS и Windows-1258 . [8] [9] Там, где требуется ASCII , например, при обеспечении читаемости обычного текста электронной почты, вьетнамские буквы часто кодируются в соответствии с вьетнамским цитированием-читаемым (VIQR) или VSCII (VSCII-MNEM). мнемоникой [10] хотя использование любой из схем переменной ширины резко сократилось после принятия Unicode во Всемирной паутине . Например, поддержка всех вышеупомянутых 8-битных кодировок, за исключением Windows-1258, была исключена из программного обеспечения Mozilla в 2014 году. [11]

Многие вьетнамские шрифты, предназначенные для настольных издательских систем , закодированы в VNI или TCVN3 ( VSCII ). [9] Такие шрифты известны как «шрифты ABC». [12] Популярные веб-браузеры не поддерживают специальные вьетнамские кодировки, поэтому любая веб-страница, использующая эти шрифты, отображается как непонятный моджибаке в системах, где они не установлены.

Справа: буква í, сохранившая свое название .

Во вьетнамском языке диакритические знаки часто складываются друг в друга, поэтому дизайнеры шрифтов должны позаботиться о том, чтобы сложенные диакритические знаки не сталкивались с соседними буквами или строками. Когда знак тона используется вместе с другим диакритическим знаком, смещение знака тона вправо сохраняет последовательность и позволяет избежать замедления саккад . [13] В рекламных вывесках и рукописном письме диакритические знаки часто принимают формы, незнакомые другим латинским алфавитам. Например, строчная буква I сохраняет свое название в ì , , ĩ и í . [14] Эти нюансы редко учитываются в вычислительных средах.

Подходы к кодировке символов

[ редактировать ]

Вьетнамское письмо требует 134 дополнительных букв (между обоими вариантами) помимо 52, уже присутствующих в ASCII. [15] Это превышает 128 дополнительных символов, доступных в обычной расширенной кодировке ASCII. Хотя эту проблему можно решить с помощью кодировки переменной ширины (как это сделано в UTF-8 ), в других кодировках использовался ряд подходов для поддержки вьетнамского языка без этого:

  • Замените не менее шести символов ASCII, выбранных либо потому, что они необычны во вьетнамском языке, и/или потому, что они неинвариантны в ISO 646 или DEC NRCS. [15] (как в VNI для DOS ).
  • Оставьте заглавные буквы, которые используются реже всего, [15] или все заглавные буквы со знаками тона (как в VSCII-3 (TCVN3)). Эти буквы по-прежнему можно наносить с помощью заглавных шрифтов. [16]
  • Отбросьте форму буквы Y со знаками тона, что приводит к необходимости использования буквы I в таких обстоятельствах . Этот подход был отвергнут разработчиками VISCII на том основании, что кодировка символов не должна пытаться решить проблему реформы орфографии. [15]
  • Замените не менее шести управляющих символов C0. [15] (как в VISCII , VSCII-1 (TCVN1) и VPS ).
  • Используйте комбинированные символы, позволяющие полностью представить одну гласную с ударениями с помощью последовательности символов (как в VNI , VSCII-2 (TCVN2), Windows-1258 и ANSEL ).

Кодовые точки Юникода

[ редактировать ]

В следующей таблице представлены коды Юникода для всех вьетнамских букв, отличных от ASCII.

Без пометки Могила Крюк Тильда Острый Точка
̀ (U+0300) ̉ (U+0309) ̃ (U + 0303) (U + 0301) ̣ (U + 0323)
Прописные буквы
А В (U+00C0) Арабский (U+1EA2) Ã (U+00C3) Включено (U+00C1) Ах (U+1EA0)
к (U+0102) (U+1EB0) Ẳ (U+1EB2) (U+1EB4) (U+1EAE) Э-э (U+1EB6)
 (U+00C2) О (U+1EA6) Ан (U+1EA8) (U+1EAA) Ấ (U+1EA4) Э-э (U+1EAC)
Д (U + 0110)
И И (U+00C8) É (U+1EBA) (U+1EBC) É (U+00C9) (U+1EB8)
Ê (U+00CA) У (U+1EC0) Эх (U+1EC2) Е (U+1EC4) Эх (U+1EBE) Е (U+1EC6)
я Ì (U+00CC) Расстройство пищеварения (U+1EC8) Ĩ (U + 0128) В (U+00CD) Вы (U+1ECA)
ТО Ò (U+00D2) (U+1ЕЭК) Õ (U+00D5) Или (U+00D3) Это (U+1ECC)
Ячейка (U+00D4) О (U+1ED2) Привод (U+1ED4) О (U+1ED6) О (U+1ED0) О (U+1ED8)
О (U + 01A0) О (U+1EDC) В (U+1EDE) (U+1EE0) О (U+1EDA) Отрыжка (U+1EE2)
В Ù (U+00D9) Инкубация (U+1EE6) Ũ (U + 0168) Ú (U+00DA) У (U+1EE4)
У (U+01AF) Да (U+1EEA) U (U+1EEC) U (U+1EEE) Стазис (U+1EE8) Ух (U+1EF0)
И У (U+1EF2) Ỷ (U+1EF6) США (U+1EF8) Ý (U+00DD) (U+1EF4)
Строчные буквы
а до (U+00E0) она (U+1EA3) ã (U+00E3) на (U+00E1) (U+1EA1)
(U + 0103) (U+1EB1) (U+1EB3) Ð (U+1EB5) (U+1ЭАФ) (U+1EB7)
â (U+00E2) ầ (U+1EA7) (U+1EA9) (U+1EAB) (U+1EA5) ậ (U+1EAD)
д (U + 0111)
и и (U + 00E8) е (U+1EBB) ẽ (U+1EBD) есть (U+00E9) ты (U+1EB9)
ê (U+00EA) (U+1EC1) е (U+1EC3) е (U+1EC5) (U+1EBF) е (U+1EC7)
я (U+00EC) (U+1EC9) ì (U+0129) в (U+00ED) ты (U+1ECB)
тот или (U+00F2) в (U+1ECF) х (U+00F5) или (U+00F3) это (U+1ECD)
ячейка (U+00F4) О (U+1ED3) привод (U+1ED5) ох (U+1ED7) пятно (U+1ED1) (U+1ED9)
ох (U+01A1) эээ (U+1EDD) в (U+1EDF) в (U+1EE1) (U+1EDB) Отрыжка (U+1EE3)
в ты (U+00F9) инкубация (U+1EE7) ũ (U+0169) й (U+00FA) док (U+1EE5)
(U + 01B0) да (U+1EEB) (U+1EED) (U+1ЭЭФ) стазис (U+1EE9) ты (U+1EF1)
и инерция (U+1EF3) полагаться (U+1EF7) ỹ (U+1EF9) ý (U+00FD) ỵ (U+1EF5)

Замена шрифта

[ редактировать ]

Многие шрифты поддерживают подмножество латинской системы письма, в которой отсутствует большая часть вьетнамского алфавита. Из-за высокой плотности вьетнамских символов во вьетнамском тексте веб-браузеры, реализующие замену шрифтов , надежно создают эффект требования выкупа , когда на веб-странице указан неподходящий шрифт.

Номинальный сценарий

[ редактировать ]
𬖾
Имя для фо [17]

Unicode включает более 10 000 символов Nôm как часть репертуара Unicode CJK Unified Ideographs . Из этих символов 10 082 можно найти в блоке расширения CJK Unified Ideographs Extension B , а остальные распределены между CJK Unified Ideographs Extension A и CJK Unified Ideographs Extension C. блоками Еще 1028 символов, включая более 400 символов, характерных для языка Tày , закодированы в блоке E CJK Unified Ideographs Extension . Символы взяты из вьетнамских стандартов TCVN 5773:1993 и TCVN 6909:2001 [ошибка TCVN 6056:1995?], а также из исследований Исследовательского института Хан-Ном и других групп. [18] Все символы в TCVN 5773:1993 и около 95% символов в TCVN 6909:2001 [ошибка для TCVN 6056:1995?] имеют соответствующие кодовые точки в Unicode 5.1, хотя сам TCVN 5773:1993 сопоставил большинство своих символов с частными. Используйте область Юникода. [19] добавлены два диакритических символа В Unicode 13.0 в блок «Идеографические символы и пунктуация» , которые обычно использовались для обозначения заимствованных символов в chữ Nôm . [20] [21]

Двумя наиболее полными шрифтами Ном являются сохранения ном. Вьетнамского фонда шрифты Nôm Na Tống Light [22] и разработанный сообществом HAN NOM A / HAN NOM B , [23] оба из которых помещают большое количество нестандартных символов в области частного использования .

Консорциума Unicode База данных Unihan включает вьетнамские прочтения некоторых символов, но не делает различий между китайско-вьетнамским прочтением и прочтением Nôm .

Как и другие системы письма CJKV , chữ Nom традиционно пишется вертикально , сверху вниз и справа налево.

Китайские иероглифы и символы Nom также могут быть аннотированы с помощью рубиновых символов , что аналогично символам Quoc Ngu для вьетнамского языка. [24]

Ввод текста

[ редактировать ]
Пишущая машинка Olympia Splendid 33, макет AĐERTY (на основе AZERTY ), использовавшаяся во Вьетнаме в 1960-х годах, ее можно увидеть в Музее Хошимина.

Чисто физическая вьетнамская клавиатура была бы непрактичной из-за огромного количества комбинаций букв, диакритических знаков и диакритических знаков в алфавите, например ờ, ị. Вместо этого ввод на вьетнамском языке основан на шаблонных программных раскладках клавиатуры, виртуальных клавиатурах или методах ввода (также известных как IME).

Раскладки клавиатуры

[ редактировать ]
Microsoft Windows включает вьетнамскую раскладку клавиатуры, основанную на TCVN 6064:1995.
Раскладка клавиатуры вьетнамской пишущей машинки на базе AZERTY

Вьетнамские раскладки клавиатуры основаны на неработающих клавишах для составления букв с диакритическими знаками. Большинство настольных операционных систем имеют вьетнамскую раскладку клавиатуры, аналогичную TCVN 6064:1995 [ vi ] — национальному стандарту Вьетнама. Раньше в пишущих машинках использовалась вьетнамская раскладка на основе AZERTY (AĐERTY). [25]

Методы ввода

[ редактировать ]
xvnkb, IME, совместимый со структурой метода ввода X в системах Unix, поддерживает вывод в шести кодировках символов.

Три наиболее распространенных метода ввода на вьетнамском языке — это Telex , VNI и VIQR . Телекс указывает диакритические знаки с использованием букв, которые вряд ли появятся в конце слова, в то время как VNI меняет назначение цифровых или функциональных клавиш, а VIQR меняет различные знаки препинания. Соглашения Telex и VIQR возникли в более раннюю эпоху телексных машин и пишущих машинок соответственно.

Поддержка этих методов ввода обеспечивается редакторами методов ввода (IME), которые на вьетнамском языке известны как bộ gõ , что буквально означает «клюшки» или «перкуссия» в более общих терминах. IME могут предоставляться операционной системой, устанавливаться как стороннее приложение, устанавливаться как расширение браузера или предоставляться отдельным веб-сайтом в виде скрипта . К распространенным сторонним приложениям относятся GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey и xvnkb. В Unix-подобных операционных системах платформы IBus и SCIM поддерживают вьетнамский язык. Скрипты IME, такие как AVIM, Mudim и VietTyping, можно найти на большинстве вьетнамских досок объявлений , вьетнамской Википедии и других текстовых веб-сайтах. Вьетнамский веб-браузер Cốc Cốc имеет встроенный метод ввода.

Методы ввода позволяют составлять слова в более гибком порядке, чем раскладки клавиатуры. Например, чтобы ввести слово « viết », используя раскладку клавиатуры TCVN 6064:1995, необходимо ввести VI38T, в таком порядке. Напротив, большинство IME позволяют пользователю вставлять диакритические знаки в конце слова: VIEETS в телексе, VIET61 в ВНИ или VIET^' в ВИКР. Некоторые IME даже допускают ввод диакритических знаков перед базовыми буквами. В зависимости от реализации IME также возможно редактировать диакритические знаки существующего слова без повторного ввода слова.

Некоторые виртуальные клавиатуры дополняют стандартные неиспользуемые клавиши специальными сочетаниями клавиш. Например, с помощью клавиатуры VIQR, встроенной в iOS , можно добавить звуковой сигнал к букве «U», нажав либо 123#+=+ или посвященный ◌̛ клавиша, не имеющая аналога на физической клавиатуре.

Когда вьетнамские методы ввода недоступны, вьетнамский текст обычно печатается без диакритических знаков, а затем пишется от руки.

Заимствовав функцию, распространенную среди китайских методов ввода , некоторые вьетнамские IME позволяют вообще пропускать диакритические знаки и вместо этого после ввода основных букв пользователь может выбрать слово с ударением из списка кандидатов. Чтобы предоставить этот список автозаполнения , IME может потребоваться связь с веб-службой . Некоторые IME также используют списки кандидатов, чтобы позволить пользователю преобразовывать текст из вьетнамского алфавита в chữ Nôm нет однозначного соответствия , поскольку между буквенными словами и символами nom .

Другие соображения

[ редактировать ]

Типичный вьетнамский текст содержит большое количество сложных слов. В современном использовании сложные слова никогда не пишутся через дефис, поэтому программы проверки орфографии ограничиваются проверкой отдельных слогов, если не статистическую языковую модель использовать .

Во вьетнамском языке действуют строгие правила правописания и есть несколько исключений, поэтому системы преобразования текста в речь могут избегать поиска в словаре, за исключением случаев, когда встречаются слова, заимствованные из иностранного языка. Механизмы TTS должны учитывать тона , которые важны для значения любого вьетнамского слова, например, má (мать) — это другое слово, чем mà (но).

Интернационализированные пользовательские интерфейсы, как правило, не могут использовать полный набор вьетнамских местоимений , который можно было бы ожидать в традиционной социальной среде, даже если о пользователе известно многое. Вместо этого в пользовательских интерфейсах обычно используются общие местоимения, такие как toi и bạn , некоторые из которых делают потенциально неверные предположения о возрасте пользователя и отношениях с другими пользователями. Например, когда платформа социальных сетей уведомляет пользователя о более молодом пользователе, она может обращаться к последнему в третьем лице как anh ấy вместо em ấy , что приводит к тому, что пользователь неправильно интерпретирует уведомление как ссылку на кого-то другого. [26]

См. также

[ редактировать ]
  1. ^ «Как вводить символы Хан Ном?» . winvnkey.sourceforge.net . Проверено 8 декабря 2022 г.
  2. ^ «Чу Ном Ресурс» . chunom.org . Проверено 8 декабря 2022 г.
  3. ^ Перейти обратно: а б Нго Динь Хок; Чан Ту Бинь (21 июля 2014 г.). «Экспресс-руководство для WinVNKey» . WinVNKey . Проверено 5 октября 2014 г.
  4. ^ ISO/IEC JTC1/SC2/WG2 (10 октября 2001 г.). Отчет о взаимодействии консорциума Unicode (Отчет). Международная организация по стандартизации . Л2/01-378 . Проверено 5 июля 2024 г. {{cite report}}: CS1 maint: числовые имена: список авторов ( ссылка )
  5. ^ Уистлер, Кен (1 августа 2001 г.). Анализ устаревания символов в стандарте Unicode (отчет). Технический комитет Юникод. Л2/01-301 . Проверено 5 июля 2024 г.
  6. ^ «Сочетание диакритических знаков» . Таблицы кодов символов Юникода 7.0 . Консорциум Юникод . 16 июня 2014 года . Проверено 5 октября 2014 г.
  7. ^ Бафф, Шарлотта (16 сентября 2018 г.). Несоответствия устаревания в аннотациях диаграммы кода (PDF) (отчет). Технический комитет Юникод. Л2/18-301 . Проверено 5 июля 2024 г.
  8. ^ Нго, Хок Динь; Тран, ТуБинь. «5. Зачем нужно конвертировать вьетнамскую кодировку (набор символов – кодировка)?» . Некоторые специальные функции WinVNKey .
  9. ^ Перейти обратно: а б «Выберите шрифт и кодировку для ввода вьетнамского языка» . Vietnamese Percussion.Com (на вьетнамском языке). МангВН. Архивировано 2009. 20 ноября 2010 года.
  10. ^ Лунде, Кен (2009). Обработка информации CJKV (2-е изд.). О'Рейли Медиа . стр. 47–49. ISBN  978-0-596-51447-1 – через Google Книги.
  11. ^ Сивонен, Анри (26 сентября 2014 г.). «Изменения кодировки символов в mc требуют действия cc» . mozilla.dev.apps.thunderbird .
  12. ^ Хоанг То; Нгуен Куан Сон; Нгуен Сон Тунг; Фан Куанг Минь; Фам Тхук Чыонг Луонг; Нгуен Куанг Хиеп; Буй Ван Кьен; Нгуен Ич Винь (20 июля 2014 г.). История Тинхвана: 20 лет обмена и создания [ История Тинхвана: 20 лет обмена и создания ] (на вьетнамском языке). Том. 1. Группа Тинхван. п. 37 – через Google Книги.
  13. ^ Транг, Донни. «Проблемы дизайна» . Вьетнамская типография . Проверено 10 апреля 2018 г.
  14. ^ См., например: «Вьет Тхо». Выборки для чтения на вьетнамском языке (на вьетнамском языке) (2-е изд.). Армейская языковая школа . 1956. стр. 98–100.
  15. ^ Перейти обратно: а б с д и «2. Обзор действующих конвенций». Отчет о стандартизации кодировки символов Вьетнама — Спецификации кодировки символов VISCII и VIQR 1.1 (Технический отчет). Вьетнамская группа. 1992. с. 10.
  16. ^ «Юникод и устаревшие вьетнамские кодировки символов» . Часто задаваемые вопросы о вьетнамском Unicode . TCVN3 не является двухбайтовым, но из-за особенностей его кодирования заглавные буквы (гласные) отображаются в отдельный прописной шрифт, аналогичный обычному строчному.
  17. ^ Тран Ван Кием (2004). «суп с лапшой» . Помогите прочитать Ном и китайско-вьетнамский язык (на вьетнамском языке) (4-е изд.). [1]
  18. ^ Нгуен Куанг Хонг. «Введение в репертуар кодированных символов» [Введение в репертуар кодированных символов Хан Нома] (на вьетнамском языке). Вьетнамский фонд сохранения номов.
  19. ^ Лунде 2009 , стр. 152–153.
  20. ^ Коллинз, Ли; Нго Тхань Нхан (6 ноября 2017 г.). «Предложение закодировать два вьетнамских альтернативных знака чтения» (PDF) .
  21. ^ «Предлагаемые новые персонажи: Трубопровод» . Консорциум Юникод. 8 мая 2019 года . Проверено 26 мая 2019 г.
  22. ^ «Ном шрифт» . Вьетнамский фонд сохранения нома . Проверено 5 октября 2014 г.
  23. ^ До Куок Бао; Минь Таму; Дзенский монастырь Вьен Кье (8 декабря 2005 г.). «Набор шрифтов UNICODE Han Nom» . Проверено 5 октября 2014 г.
  24. ^ Лунде 2009 , стр. 529.
  25. ^ Дункан, Джон Уильям (22 декабря 2005 г.), вьетнамская пишущая машинка , получено 11 июля 2020 г.
  26. ^ Джейкоб, Ракель (2 февраля 2022 г.). «Руководство по использованию языка – вьетнамский» . Унбабель . Проверено 18 июля 2022 г.

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ec46a1d985ae0f8a28ac6baf0ee3d432__1720206780
URL1:https://arc.ask3.ru/arc/aa/ec/32/ec46a1d985ae0f8a28ac6baf0ee3d432.html
Заголовок, (Title) документа по адресу, URL1:
Vietnamese language and computers - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)