Межъязыковой машинный перевод

Межъязыковой машинный перевод — один из классических подходов к машинному переводу . При таком подходе исходный язык, т. е. текст, подлежащий переводу, преобразуется в интерлингва, т. е. абстрактное, независимое от языка представление. Целевой язык затем генерируется из интерлингва. В рамках парадигмы машинного перевода, основанной на правилах, межъязыковой подход является альтернативой прямому подходу и подходу переноса .

При прямом подходе слова переводятся напрямую, не проходя через дополнительное представление. При подходе переноса исходный язык преобразуется в абстрактное, менее специфичное для языка представление. Лингвистические правила, специфичные для языковой пары, затем преобразуют представление исходного языка в абстрактное представление целевого языка, и на основе этого генерируется целевое предложение.

Межъязыковой подход к машинному переводу имеет свои преимущества и недостатки. Преимущества заключаются в том, что для связи каждого исходного языка с каждым целевым языком требуется меньше компонентов, для добавления нового языка требуется меньше компонентов, поддерживается перефразирование входных данных на исходном языке, что позволяет использовать как анализаторы, так и генераторы. написан разработчиками одноязычной системы и работает с языками, которые сильно отличаются друг от друга (например, английский и арабский). ^[1]). Очевидным недостатком является то, что определение интерлингва сложно и, возможно, даже невозможно для более широкой области. Таким образом, идеальным контекстом для межъязыкового машинного перевода является многоязычный машинный перевод в очень специфической области. Например, интерлингва использовался в качестве основного языка на международных конференциях и был предложен в качестве основного языка для Европейского Союза . ^[2]

История

Первые идеи о межъязыковом машинном переводе появились в 17 веке у Декарта и Лейбница , которые выдвинули теории о том, как создавать словари с использованием универсальных числовых кодов, мало чем отличающихся от числовых токенов, используемых сегодня в больших языковых моделях . Другие, такие как Кейв Бек , Афанасий Кирхер и Иоганн Иоахим Бехер, работали над разработкой однозначного универсального языка, основанного на принципах логики и иконографии. В 1668 году Джон Уилкинс описал свой интерлингва в своем «Очерке о реальном характере и философском языке». В XVIII и XIX веках было разработано множество предложений по «универсальным» международным языкам, наиболее известным из которых является эсперанто .

При этом применение идеи универсального языка к машинному переводу не фигурировало ни в одном из первых значимых подходов. Вместо этого началась работа над парами языков. Однако в 1950-60-е годы в этой области начали работать исследователи в Кембридже под руководством Маргарет Мастерман , в Ленинграде под руководством Николая Андреева и в Милане под руководством Сильвио Чеккато . Эта идея широко обсуждалась израильским философом Иеошуа Бар-Гиллелем в 1969 году.

В 1970-х годах в Гренобле были проведены примечательные исследования, пытавшиеся перевести физические и математические тексты с русского на французский , а в Техасе аналогичный проект (МЕТАЛЛ) осуществлялся с русского на английский . Ранние межъязыковые системы машинного перевода были также созданы в Стэнфорде в 1970-х годах Роджером Шанком и Йориком Уилксом ; первая стала основой коммерческой системы перевода средств, а код второй хранится в Компьютерном музее в Бостоне как первая межъязыковая система машинного перевода.

В 1980-х годах новое значение приобрели подходы к машинному переводу, основанные на интерлингве и знаниях, в целом, и в этой области проводилось много исследований. Объединяющим фактором в этом исследовании было то, что качественный перевод требовал отказа от идеи полного понимания текста. Вместо этого перевод должен основываться на лингвистических знаниях и конкретной области, в которой будет использоваться система. Наиболее важные исследования этой эпохи были проведены в области распределенного языкового перевода (DLT) в Утрехте , который работал с модифицированной версией эсперанто , и системы Fujitsu в Японии.

Контур

В этом методе перевода интерлингва можно рассматривать как способ описания анализа текста, написанного на исходном языке, таким образом, чтобы можно было преобразовать его морфологические, синтаксические, семантические (и даже прагматические) характеристики, то есть « значение» на целевой язык . Этот интерлингва способен описать все характеристики всех языков, которые необходимо перевести, вместо простого перевода с одного языка на другой.

Иногда при переводе используются два интерлингва. Вполне возможно, что один из двух охватывает больше характеристик исходного языка, а другой обладает большим количеством характеристик целевого языка. Затем перевод продолжается путем преобразования предложений с первого языка в предложения, более близкие к целевому языку, в два этапа. Система также может быть настроена таким образом, чтобы второй интерлингва использовал более конкретный словарный запас, который ближе или более соответствует целевому языку, и это может улучшить качество перевода.

Вышеупомянутая система основана на идее использования лингвистической близости для улучшения качества перевода текста на одном языке оригинала на множество других структурно близких языков на основе только одного оригинального анализа. Этот принцип также используется в машинном переводе , где естественный язык используется как «мост» между двумя более удаленными языками. Например, в случае перевода на английский с украинского с использованием русского в качестве промежуточного языка. ^[3]

Процесс перевода

В межъязыковых системах машинного перевода есть два одноязычных компонента: анализ исходного языка и межъязыкового языка и генерация интерлингва и целевого языка. Однако необходимо различать межъязыковые системы, использующие только синтаксические методы (например, системы, разработанные в 1970-х годах в университетах Гренобля и Техаса) и системы, основанные на искусственном интеллекте (с 1987 года в Японии и исследованиях в университетах Южной Калифорнии). и Карнеги-Меллон). Первый тип системы соответствует схеме, показанной на рисунке 1, тогда как другие типы будут аппроксимированы схемой на рисунке 4.

Для межъязыковой системы машинного перевода необходимы следующие ресурсы:

Словари (или лексиконы) для анализа и создания (специфичные для предметной области и задействованных языков).
Концептуальный словарь (специфичный для предметной области), который представляет собой базу знаний о событиях и сущностях, известных в предметной области.
Набор правил проекции (специфичных для предметной области и языков).
Грамматики для анализа и генерации задействованных языков.

Одна из проблем систем машинного перевода, основанных на знаниях, заключается в том, что становится невозможным создание баз данных для областей, выходящих за рамки очень конкретных областей. Во-вторых, обработка этих баз данных требует очень больших вычислительных затрат.

Эффективность

Одним из основных преимуществ этой стратегии является то, что она обеспечивает экономичный способ создания многоязычных систем перевода. При использовании интерлингва становится ненужным создавать пару переводов между каждой парой языков в системе. Поэтому вместо того, чтобы создавать $n(n-1)$ языковые пары, где $n$ это количество языков в системе, нужно только сделать $2n$ пары между $n$ языки и интерлингва.

Основным недостатком этой стратегии является сложность создания адекватного интерлингва. Он должен быть абстрактным и независимым от исходного и целевого языков. Чем больше языков добавлено в систему перевода и чем более они различны, тем более мощным должен быть интерлингва, чтобы выражать все возможные направления перевода. Другая проблема заключается в том, что трудно извлечь смысл из текстов на языках оригинала для создания промежуточного представления.

Существующие системы межъязыкового машинного перевода

Каллиопа-Аэро
Лингвистическая виртуальная машина Карабао
Грамматическая основа
Переводчик чисел
Google Translate использует английский внутри себя в качестве основного языка для некоторых языковых пар, таких как китайский и японский, и, в более общем плане, для тех, у кого есть «более качественные» переводчики нейронных сетей с английским, но не между собой.

См. также

Примечания

^ Абдель Монем, А., Шаалан, К., Рафеа, А., Барака, Х., Генерация арабского текста в многоязычной системе машинного перевода речи в речь , Машинный перевод, Springer, Нидерланды, 20 (4): 205– 258, декабрь 2008 г.
^ Брейнструп, Томас. «Лингвафобос? Нет в LE UE». [Лингвофобы? Не в ЕС]. Панорама в Интерлингве , 2006, Выпуск 5.
^ Богдан Бабич, Энтони Хартли и Серж Шарофф (2007) « Перевод с языков с ограниченными ресурсами: сравнение прямого перевода и сводного перевода. Архивировано 3 марта 2016 года в Wayback Machine ». Материалы XI саммита MT, 10–14 сентября 2007 г., Копенгаген, Дания . стр.29—35

Внешние ссылки

Методы интерлингвы
- Слайды
- Бумага

[1] Абдель Монем, А., Шаалан, К., Рафеа, А., Барака, Х., Генерация арабского текста в многоязычной системе машинного перевода речи в речь , Машинный перевод, Springer, Нидерланды, 20 (4): 205– 258, декабрь 2008 г.

[2] Брейнструп, Томас. «Лингвафобос? Нет в LE UE». [Лингвофобы? Не в ЕС]. Панорама в Интерлингве , 2006, Выпуск 5.

[3] Богдан Бабич, Энтони Хартли и Серж Шарофф (2007) « Перевод с языков с ограниченными ресурсами: сравнение прямого перевода и сводного перевода. Архивировано 3 марта 2016 года в Wayback Machine ». Материалы XI саммита MT, 10–14 сентября 2007 г., Копенгаген, Дания . стр.29—35

[1]

[2]

[3]