Jump to content

Сравнение различных подходов к машинному переводу

Алгоритмы машинного перевода (МП) можно классифицировать по принципу действия. MT может быть основан на наборе лингвистических правил или на больших корпусах уже существующих параллельных текстов . Методологии, основанные на правилах, могут заключаться в прямом дословном переводе или действовать через более абстрактное представление значения: представление либо специфичное для языковой пары, либо независимое от языка интерлингва . Корпоративные методологии основаны на машинном обучении и могут следовать конкретным примерам, взятым из параллельных текстов, или могут рассчитывать статистические вероятности для выбора предпочтительного варианта из всех возможных переводов.

Машинный перевод на основе правил и корпусов

[ редактировать ]

Машинный перевод на основе правил (RBMT) создается на основе морфологического, синтаксического и семантического анализа как исходного, так и целевого языков. Корпусный машинный перевод (CBMT) создается на основе анализа двуязычных текстовых корпусов. Первое принадлежит области рационализма, второе — эмпиризма. Учитывая крупномасштабные и детализированные лингвистические правила, системы RBMT способны производить переводы с приемлемым качеством, но построение системы требует очень много времени и труда, поскольку такие лингвистические ресурсы необходимо создавать вручную, что часто называют проблема приобретения знаний . Более того, очень сложно исправить ввод или добавить в систему новые правила для генерации перевода. Напротив, добавление большего количества примеров в систему CBMT может улучшить систему, поскольку она основана на данных, хотя накопление и управление огромным массивом двуязычных данных также может быть дорогостоящим.

Прямой, трансферный и межъязыковой машинный перевод

[ редактировать ]
Изображение треугольника Вокуа , иллюстрирующее различные подходы к проектированию систем машинного перевода.

Прямой машинный перевод на основе переноса и методы межъязыкового машинного перевода относятся к RBMT, но различаются глубиной анализа исходного языка и степенью, в которой они пытаются достичь независимого от языка представления смысла или намерения между исходный и целевой языки. Их различия можно очевидно наблюдать через треугольник Вокуа (см. иллюстрацию), который иллюстрирует эти уровни анализа.

Начиная с самого поверхностного уровня внизу, непосредственный перенос осуществляется на уровне слов. В зависимости от поиска прямых соответствий между исходным языком и лексическими единицами целевого языка, DMT представляет собой подход к пословному переводу с некоторыми простыми грамматическими корректировками. Система DMT разработана для конкретной пары исходного и целевого языков, единицей перевода которой обычно является слово. Затем выполняется перевод представлений структуры и значения исходного предложения соответственно с помощью подходов синтаксического и семантического переноса.

Система машинного перевода на основе перевода включает в себя три этапа. На первом этапе проводится анализ исходного текста и преобразование его в абстрактные представления; второй этап преобразует их в эквивалентные представления, ориентированные на целевой язык; а третий генерирует окончательный целевой текст. Представление специфично для каждой языковой пары. Стратегию трансфера можно рассматривать как «практический компромисс между эффективным использованием ресурсов межъязыковых систем и простотой внедрения прямых систем».

Наконец, на межъязыковом уровне понятие переноса заменяется интерлингвой . IMT работает в два этапа: анализ текста на ИЯ в абстрактное универсальное независимое от языка представление значения, т.е. интерлингва, что является этапом анализа; генерирование этого значения с помощью лексических единиц и синтаксических конструкций ЯЯ, что является этапом синтеза. Теоретически, чем выше треугольник, тем меньше затрат на анализ и синтез. Например, чтобы перевести один SL в N TL, необходимо (1+N) шагов с использованием интерлингва по сравнению с N шагами перевода. Но для перевода всех языков при подходе IMT требуется всего 2N шагов по сравнению с N² при подходе TBMT, что является значительным сокращением. Хотя при использовании подхода IMT не требуется создавать компонент переноса для каждой языковой пары, определение интерлингва представляет собой большую трудность и даже, возможно, невозможно для более широкой области.

Статистический и машинный перевод на основе примеров

[ редактировать ]

Статистический машинный перевод (SMT) генерируется на основе статистических моделей, параметры которых получены на основе анализа двуязычных текстовых корпусов. Первоначальная модель SMT, основанная на теореме Байеса , предложенная Брауном и др. придерживается мнения, что каждое предложение на одном языке является возможным переводом любого предложения на другой язык, и наиболее подходящим является перевод, которому система присваивает наибольшую вероятность. Машинный перевод на основе примеров (EBMT) характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основного знания, в котором перевод по аналогии является основной идеей. В EBMT есть четыре задачи: получение примеров, база примеров и управление ими, применение примеров и синтез.

Оба относятся к CBMT, иногда называемые MT, управляемыми данными, EBMT и SMT, имеют что-то общее, что отличает их от RBMT. Во-первых, они оба используют битовый текст в качестве основного источника данных. Во-вторых, они оба являются эмпирическими по принципу машинного обучения, а не рациональными по принципу написания правил лингвистами. В-третьих, их обоих можно улучшить, получив больше данных. В-четвертых, новые языковые пары можно разрабатывать, если это возможно, просто находя подходящие данные параллельного корпуса. Помимо этих сходств, имеются и некоторые различия. SMT по существу использует статистические данные, такие как параметры и вероятности, полученные из битового текста, при этом предварительная обработка данных имеет важное значение, и даже если входные данные находятся в обучающих данных, не гарантируется тот же перевод. Напротив, EBMT использует битовый текст в качестве основного источника данных, в котором предварительная обработка данных необязательна, и если входные данные находятся в наборе примеров, должен произойти тот же перевод.

  • Нано Гоф и Энди Уэй. 2004. «Управляемый перевод на основе примеров». В материалах девятого семинара EAMT, Валлетта, Мальта, стр. 73–81.
  • Жан, Сенелларт (2006). «Усиление системы машинного перевода, основанной на лингвистических правилах, с помощью корпусных подходов». {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  • А, Ламперт (2004). «Интерлингва в машинном переводе». Технический отчет .
  • Решеф, Шилон (2011). «Машинный перевод на основе перевода между морфологически богатыми и бедными ресурсами языками: пример иврита и арабского языка». {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  • Сомерс, Х. (1999). «Обзорная статья: Машинный перевод на основе примеров». Машинный перевод . 14 (2): 113–157. дои : 10.1023/а:1008109312730 . S2CID   17733262 .
  • Трухильо, А. (1999). Системы перевода: методы машинного перевода . Лондон: Спрингер. ISBN  9781447105879 .
  • Энди, Уэй; Нано Гоф (2005). «Сравнение машинного перевода на основе примеров и статистического машинного перевода». Инженерия естественного языка .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: cabe6af57e184b139125337999a45f08__1676578500
URL1:https://arc.ask3.ru/arc/aa/ca/08/cabe6af57e184b139125337999a45f08.html
Заголовок, (Title) документа по адресу, URL1:
Comparison of different machine translation approaches - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)