Jump to content

Статистический машинный перевод

Статистический машинный перевод ( SMT ) представлял собой подход к машинному переводу , который заменил предыдущий подход, основанный на правилах, поскольку он требовал явного описания каждого лингвистического правила, что было дорогостоящим и часто не распространялось на другие языки. С 2003 года статистический подход постепенно вытесняется подходом нейронных сетей, основанным на глубоком обучении .

Первые идеи статистического машинного перевода были предложены Уорреном Уивером в 1949 году. [1] включая идеи применения Клода Шеннона теории информации . Статистический машинный перевод был вновь представлен в конце 1980-х - начале 1990-х годов исследователями из IBM . Исследовательского центра Томаса Дж. Уотсона [2] [3] [4]

Основа [ править ]

Идея статистического машинного перевода исходит из теории информации . Документ переводится в соответствии с распределением вероятностей это строка на целевом языке (например, английском) — это перевод строки на исходном языке (например, французском).

Проблема моделирования распределения вероятностей подходили с разных сторон. Одним из подходов, который хорошо подходит для компьютерной реализации, является применение теоремы Байеса , т.е. , где модель перевода — это вероятность того, что исходная строка является переводом целевой строки, а языковая модель — это вероятность увидеть эту строку целевого языка. Эта декомпозиция привлекательна, поскольку она разбивает проблему на две подзадачи. В поисках лучшего перевода делается путем выбора того, который дает наибольшую вероятность:

.

Для строгой реализации этого пришлось бы выполнить исчерпывающий поиск, пройдя по всем строкам. на родном языке. Эффективное выполнение поиска — это работа декодера машинного перевода , который использует чужую строку, эвристику и другие методы для ограничения пространства поиска и в то же время сохраняет приемлемое качество. Этот компромисс между качеством и использованием времени также можно найти в распознавании речи .

Поскольку системы перевода не могли хранить все собственные строки и их переводы, документ обычно переводился предложение за предложением, но даже этого было недостаточно. Языковые модели обычно аппроксимировались сглаженными n -граммными моделями , и аналогичные подходы применялись к моделям перевода, но возникла дополнительная сложность из-за разной длины предложений и порядка слов в языках.

Модели статистического перевода изначально были основаны на словах (модели 1–5 от IBM, скрытая марковская модель от Стефана Фогеля). [5] и Модель 6 от Франца-Иосифа Оха [6] ), но значительные успехи были достигнуты с введением моделей, основанных на фразах . [7] Более поздние работы включали синтаксические или квазисинтаксические структуры. [8]

Преимущества [ править ]

Наиболее часто цитируемый [ нужна ссылка ] Преимущества статистического машинного перевода (SMT) по сравнению с подходом, основанным на правилах, заключались в следующем:

  • Более эффективное использование человеческих ресурсов и ресурсов данных
    • Было много параллельных корпусов в машиночитаемом формате и еще больше одноязычных данных.
    • Как правило, системы SMT не были адаптированы к какой-либо конкретной паре языков.
  • Более свободный перевод благодаря использованию языковой модели

Недостатки [ править ]

  • Создание корпуса может оказаться дорогостоящим.
  • Конкретные ошибки трудно предсказать и исправить.
  • Результаты могут иметь поверхностную беглость, которая маскирует проблемы перевода. [9]
  • Статистический машинный перевод обычно работает хуже для языковых пар со значительно отличающимся порядком слов.
  • Преимущества, полученные при переводе между западноевропейскими языками, не являются репрезентативными для результатов для других языковых пар из-за меньшего размера учебных корпусов и больших грамматических различий.

Фразовый перевод [ править ]

При переводе на основе фраз цель заключалась в том, чтобы уменьшить ограничения перевода на основе слов путем перевода целых последовательностей слов, длина которых может различаться. Последовательности слов назывались блоками или фразами, однако, как правило, это были не лингвистические фразы , а фраземы , найденные статистическими методами из корпусов. Показано, что ограничение фраз лингвистическими словосочетаниями (синтаксически мотивированными группами слов, см. синтаксические категории ) снижает качество перевода. [10]

Выбранные фразы далее сопоставлялись один к одному на основе таблицы перевода фраз, и их можно было переупорядочить. Эту таблицу можно изучить на основе выравнивания слов или непосредственно из параллельного корпуса. Вторая модель обучалась с использованием алгоритма максимизации ожидания , аналогично словесной модели IBM . [11]

Синтаксический перевод [ править ]

Синтаксический перевод был основан на идее перевода синтаксических единиц, а не отдельных слов или строк слов (как в MT на основе фраз), то есть (частичных) деревьев разбора предложений/высказываний. [12] До 1990-х годов, с появлением мощных стохастических анализаторов , статистический аналог старой идеи синтаксического перевода не получил распространения. Примеры этого подхода включали MT на основе DOP и более поздние синхронные контекстно-свободные грамматики .

Иерархический фразовый перевод [ править ]

Иерархический фразовый перевод сочетает в себе фразовый и синтаксический подходы к переводу. В нем использовались синхронные бесконтекстные грамматические правила, но грамматики могли быть построены путем расширения методов фразового перевода без ссылки на лингвистически мотивированные синтаксические составляющие. Эта идея была впервые представлена ​​в системе Иеро Чанга (2005). [8]

машинным со статистическим переводом Проблемы

Проблемы, которые не решил статистический машинный перевод, включали:

Выравнивание предложений [ править ]

Параллельно корпусы отдельных предложений на одном языке могут быть переведены в несколько предложений на другом языке и наоборот. [12] Длинные предложения можно разбивать, короткие — объединять. Есть даже некоторые языки, в которых используются системы письма без четкого указания конца предложения (например, тайский). Выравнивание предложений можно выполнить с помощью алгоритма выравнивания Гейла-Черча . С помощью этой и других математических моделей возможен эффективный поиск и извлечение выравнивания предложений с наивысшей оценкой.

Выравнивание слов [ править ]

Выравнивание предложений обычно либо обеспечивается корпусом, либо получается с помощью вышеупомянутого алгоритма выравнивания Гейла-Черча . Однако, чтобы изучить, например, модель перевода, нам нужно знать, какие слова совпадают в паре предложений «источник-цель». IBM -модели или HMM-подход были попытками решить эту проблему.

Функциональные слова, не имеющие четкого эквивалента в целевом языке, стали еще одной проблемой для статистических моделей. Например, при переводе с английского на немецкий предложения «Джон здесь не живет» слово «живет» не имеет четкого соответствия в переведенном предложении «Джон не живет здесь». С помощью логических рассуждений его можно сопоставить со словами «wohnt» (поскольку в английском языке оно содержит грамматическую информацию для слова «live») или «nicht» (поскольку оно появляется в предложении только потому, что оно отрицается) или может быть невыровненный. [11]

аномалии Статистические

Примером такой аномалии было то, что фраза «Я сел на поезд в Берлин» была неправильно переведена как «Я сел на поезд в Париж» из-за статистического обилия слов «поезд в Париж» в обучающем наборе.

Идиомы [ править ]

В зависимости от используемых корпусов идиомы нельзя было перевести «идиоматически». Например, при использовании канадского Хансарда в качестве двуязычного корпуса слово «слушай» почти всегда переводилось как «Браво!» поскольку в парламенте «Слушайте, слушайте!» становится «Браво!». [13]

Эта проблема связана с выравниванием слов, поскольку в очень специфических контекстах идиоматическое выражение совпадает со словами, что приводит к идиоматическому выражению того же значения на целевом языке. Однако это маловероятно, поскольку в других контекстах выравнивание обычно не работает. По этой причине идиомы могли быть подвергнуты только фразовому выравниванию, так как их нельзя было разложить дальше без потери своего смысла. Эта проблема была специфична для словесного перевода. [11]

Разный порядок слов [ править ]

Порядок слов в языках различается. Некоторую классификацию можно провести, назвав типичный порядок подлежащего (S), глагола (V) и дополнения (O) в предложении, и можно говорить, например, о языках SVO или VSO. Существуют также дополнительные различия в порядке слов, например, где расположены определители существительных или где одни и те же слова используются в качестве вопроса или утверждения.

При распознавании речи речевой сигнал и соответствующее текстовое представление могут быть сопоставлены друг с другом блоками по порядку. Это не всегда происходит с одним и тем же текстом на двух языках. В SMT машинный переводчик может обрабатывать только небольшие последовательности слов, и разработчик программы должен учитывать порядок слов. Попытки найти решение включали модели переупорядочения, в которых распределение изменений местоположения для каждого элемента перевода угадывается на основе выровненного битекста. Различные изменения местоположения можно ранжировать с помощью языковой модели и выбрать лучшее.

Слова из словаря (OOV) [ править ]

Системы SMT обычно хранят разные словоформы как отдельные символы, не имеющие никакой связи друг с другом и словоформами. или фразы, которых не было в обучающих данных, невозможно перевести. Это может быть связано с отсутствием обучающих данных, изменениями в человеческой среде, где используется система, или различиями в морфологии.

См. также [ править ]

Примечания и ссылки [ править ]

  1. ^ В. Уивер (1955). Перевод (1949). В: Машинный перевод языков , MIT Press, Кембридж, Массачусетс.
  2. ^ П. Браун; Джон Кок ; С. Делла Пьетра; В. Делла Пьетра; Фредерик Елинек ; Роберт Л. Мерсер ; П. Руссин (1988). «Статистический подход к языковому переводу» . Колинг'88 . 1 . Ассоциация компьютерной лингвистики: 71–76 . Проверено 22 марта 2015 г.
  3. ^ П. Браун; Джон Кок ; С. Делла Пьетра; В. Делла Пьетра; Фредерик Елинек ; Джон Д. Лафферти ; Роберт Л. Мерсер ; П. Руссин (1990). «Статистический подход к машинному переводу» . Компьютерная лингвистика . 16 (2). Массачусетский технологический институт Пресс: 79–85 . Проверено 22 марта 2015 г.
  4. ^ П. Браун; С. Делла Пьетра; В. Делла Пьетра; Р. Мерсер (1993). «Математика статистического машинного перевода: оценка параметров» . Компьютерная лингвистика . 19 (2). Массачусетский технологический институт Пресс: 263–311 . Проверено 22 марта 2015 г.
  5. ^ С. Фогель, Х. Ней и К. Тиллманн. 1996. Выравнивание слов на основе HMM в статистическом переводе . В COLING '96: 16-я Международная конференция по компьютерной лингвистике, стр. 836-841, Копенгаген, Дания.
  6. ^ Ох, Франц Иосиф; Ней, Герман (2003). «Систематическое сравнение различных моделей статистического выравнивания» . Компьютерная лингвистика . 29 : 19–51. дои : 10.1162/089120103321337421 .
  7. ^ П. Коэн, Ф. Дж. Оч и Д. Марку (2003). Статистический фразовый перевод . В материалах совместной конференции по технологиям человеческого языка и ежегодного собрания Североамериканского отделения Ассоциации компьютерной лингвистики (HLT/NAACL) .
  8. ^ Jump up to: Перейти обратно: а б Д. Чан (2005). Иерархическая фразовая модель для статистического машинного перевода . В материалах 43-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL'05) .
  9. ^ Чжоу, Шэрон (25 июля 2018 г.). «Превзошёл ли ИИ людей в переводе? Даже близко!» . Скайнет сегодня . Проверено 2 августа 2018 г.
  10. ^ Филипп Кен, Франц Йозеф Ох, Даниэль Марку: Статистический фразовый перевод (2003)
  11. ^ Jump up to: Перейти обратно: а б с Коэн, Филипп (2010). Статистический машинный перевод . Издательство Кембриджского университета. ISBN  978-0-521-87415-1 .
  12. ^ Jump up to: Перейти обратно: а б Филип Уильямс; Рико Сеннрич; Мэтт Пост; Филипп Кен (1 августа 2016 г.). Статистический машинный перевод на основе синтаксиса . Издательство Морган и Клейпул. ISBN  978-1-62705-502-4 .
  13. ^ У. Дж. Хатчинс и Х. Сомерс. (1992). Введение в машинный перевод , 18.3:322. ISBN   978-0-12-362830-5

Внешние ссылки [ править ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 37c4d1d71b63626b33c72c23508fc021__1718025840
URL1:https://arc.ask3.ru/arc/aa/37/21/37c4d1d71b63626b33c72c23508fc021.html
Заголовок, (Title) документа по адресу, URL1:
Statistical machine translation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)