Jump to content

Модели согласования IBM

Модели выравнивания IBM представляют собой последовательность все более сложных моделей, используемых в статистическом машинном переводе для обучения модели перевода и модели выравнивания, начиная с вероятностей лексического перевода и заканчивая переупорядочением и дублированием слов. [1] Они лежали в основе большинства систем статистического машинного перевода в течение почти двадцати лет, начиная с начала 1990-х годов, пока нейронный машинный перевод не начал доминировать. Эти модели предлагают принципиальную вероятностную формулировку и (в основном) понятные выводы. [2]

В первоначальной работе по статистическому машинному переводу в IBM предлагалось пять моделей, а модель 6 была предложена позже. Последовательность шести моделей можно резюмировать следующим образом:

  • Модель 1: лексический перевод
  • Модель 2: дополнительная модель абсолютного выравнивания
  • Модель 3: модель повышенной рождаемости
  • Модель 4: добавлена ​​модель относительного выравнивания.
  • Модель 5: фиксированная проблема дефицита.
  • Модель 6: Модель 4 в сочетании с моделью выравнивания HMM лог-линейным способом.

Математическая установка [ править ]

Перевод моделей выравнивания IBM в модель условной вероятности. Для каждого предложения на исходном («иностранном») языке , мы генерируем предложение на целевом языке («английском») и выравнивание . Тогда проблема состоит в том, чтобы найти хорошую статистическую модель для , вероятность того, что мы сгенерируем предложение на английском языке и выравнивание вынесено иностранное предложение .

Значение выравнивания становится все более сложным по мере роста номера версии модели. См. Модель 1, наиболее простую и понятную версию.

Модель 1 [ править ]

Выравнивание слов [ править ]

Учитывая любую пару предложений на иностранном и английском языках. , выравнивание пары предложений является функцией типа . То есть мы предполагаем, что английское слово в месте «объясняется» иностранным словом в месте . Например, рассмотрим следующую пару предложений

Завтра обязательно будет дождь - Завтра обязательно будет дождь

Мы можем привести некоторые английские слова в соответствие с соответствующими японскими словами, но не все:

это -> ?

будет -> ?

конечно -> конечно

дождь -> дождь

завтра -> завтра

В основном это происходит из-за разной грамматики и условностей речи на разных языках. Английские предложения требуют подлежащего, а когда подлежащего нет, используется фиктивное местоимение it . Японские глаголы не имеют разных форм будущего и настоящего времени, а будущее время подразумевает существительное 明日 (завтра). И наоборот, маркер темы は и грамматическое слово だ (примерно «быть») не соответствуют ни одному слову в английском предложении.Итак, мы можем записать выравнивание как

1->0; 2 -> 0; 3 -> 3; 4 -> 4; 5 -> 1

где 0 означает, что соответствующего выравнивания нет.

Таким образом, мы видим, что функция выравнивания в общем случае является функцией типа .

Будущие модели позволят согласовать один английский мир с множеством иностранных слов.

Статистическая модель [ править ]

Учитывая приведенное выше определение выравнивания, мы можем определить статистическую модель, используемую в Модели 1:

  • Начните со «словаря». Его записи имеют форму , что можно интерпретировать как «иностранное слово переводится на английское слово с вероятностью ".
  • После вынесения иностранного приговора с длиной , мы сначала генерируем длину английского предложения равномерно в диапазоне . В частности, это не зависит от или .
  • Затем мы генерируем выравнивание равномерно во множестве всех возможных функций выравнивания. .
  • Наконец, для каждого английского слова , сгенерируйте каждое из них независимо от любого другого английского слова. Для слова , сгенерируйте его в соответствии с .

Вместе мы имеем вероятность

Модель IBM 1 использует очень упрощенные предположения о статистической модели, чтобы позволить следующему алгоритму иметь решение в замкнутой форме.

Обучение по корпусу [ править ]

Если словарь изначально не указан, но у нас есть корпус пар английский-иностранный язык (без информации о выравнивании), то модель можно привести к следующему виду:

  • фиксированные параметры: иностранные предложения .
  • обучаемые параметры: записи словаря .
  • наблюдаемые переменные: английские предложения .
  • скрытые переменные: выравнивания


В такой форме это именно та задача, которую решает алгоритм ожидания-максимизации . Благодаря упрощенным предположениям алгоритм имеет эффективно вычислимое решение в замкнутой форме, которое является решением следующих уравнений:

Эту проблему можно решить с помощью множителей Лагранжа , а затем упростить. Подробный вывод алгоритма см. [3] Глава 4 и. [4]

Вкратце, алгоритм EM выглядит следующим образом:

ВХОД. корпус пар англо-иностранных предложений


ИНИЦИАЛИЗИРОВАТЬ. матрица вероятностей переводов .

Это может быть как равномерным, так и случайным образом. Требуется только, чтобы каждая запись была положительной, и для каждого , сумма вероятности равна единице: .

ПЕТЛЯ. до сходится:

где каждый — это константа нормализации, которая гарантирует, что каждый .

ВОЗВРАЩАТЬСЯ. .

В приведенной выше формуле — это дельта-функция Дирака . Она равна 1, если две записи равны, и 0 в противном случае. Обозначение индекса следующее:

варьируется в пределах пар англо-иностранных предложений в корпусе;

варьируется по словам в английских предложениях;

пробегает по словам в предложениях на иностранном языке;

колеблется по всему словарю английских слов в корпусе;

колеблется по всему словарю иностранных слов в корпусе.

Ограничения [ править ]

Модель IBM 1 имеет несколько ограничений. [3]

  • Нет беглости: учитывая любую пару предложений. , любая перестановка английского предложения одинаково вероятна: для любой перестановки английского предложения в .
  • Нет предпочтения длины: вероятность каждой длины перевода равна: для любого .
  • Не моделирует явным образом рождаемость: некоторые иностранные слова имеют тенденцию давать фиксированное количество английских слов. Например, при переводе с немецкого на английский ja обычно опускается, а zum обычно переводится как to the, for the, to a, for a .

Модель 2 [ править ]

Модель 2 позволяет определять выравнивание в зависимости от длины предложения. То есть у нас есть распределение вероятностей , что означает «вероятность того, что английское слово соответствует иностранному слову , когда английское предложение длинное , а иностранное предложение имеет длину ".

Остальная часть Модели 1 не изменилась. При этом у нас есть

Алгоритм EM все еще можно решить в закрытой форме, что дает следующий алгоритм:
где все еще являются факторами нормализации. См. раздел 4.4.1. [3] для вывода и алгоритма.

Модель 3 [ править ]

Проблема рождаемости решается в модели IBM 3. Рождаемость моделируется с использованием распределения вероятностей, определяемого как:

За каждое иностранное слово , такое распределение указывает на то, сколько выходных слов обычно это переводит. Эта модель имеет дело с удалением входных слов, поскольку позволяет . Но при добавлении слов все еще остается проблема. Например, английское слово do часто вставляется при отрицании. Эта проблема генерирует специальный NULL -токен, рождаемость которого также можно смоделировать с использованием условного распределения, определенного как:

Количество вставленных слов зависит от длины предложения. Вот почему вставка NULL-токена моделируется как дополнительный шаг: этап рождаемости. Это увеличивает процесс перевода IBM Model 3 до четырех этапов:

Последний шаг называется искажением вместо выравнивания, поскольку один и тот же перевод с одинаковым выравниванием можно выполнить разными способами. Например, в приведенном выше примере у нас есть другой способ получить то же выравнивание: [5]

  • Я НУЛЬ не пойду в дом
  • не хожу домой я
  • я не хожу в дом

Модель IBM 3 может быть математически выражена как:

где представляет плодородие , каждое исходное слово присвоено распределение рождаемости , и и относятся к абсолютной длине целевого и исходного предложений соответственно. [6]

См. раздел 4.4.2. [3] для вывода и алгоритма.

Модель 4 [ править ]

В IBM Model 4 каждое слово зависит от ранее выровненного слова и от классов слов окружающих слов. Некоторые слова имеют тенденцию меняться во время перевода чаще, чем другие (например, инверсия прилагательного и существительного при переводе с польского на английский). Прилагательные часто ставятся перед предшествующим им существительным. Классы слов, представленные в модели 4, решают эту проблему, обуславливая распределения вероятностей этих классов. Результатом такого распределения является лексикализованная модель. Такое распределение можно определить следующим образом:

Для начального слова в септе:

Дополнительные слова:

где и функции сопоставляют слова с их классами слов и и — распределения вероятностей искажений слов. Концепция формируется путем выравнивания каждого входного слова хотя бы к одному выходному слову. [7]

И Модель 3, и Модель 4 игнорируют, была ли выбрана входная позиция и была ли зарезервирована масса вероятности для входных позиций за пределами границ предложения. Это причина того, что в этих двух моделях (неполноценные модели) суммы вероятностей всех правильных выравниваний не равны единице. [7]

Модель 5 [ править ]

IBM Model 5 переформулирует IBM Model 4, дополняя модель согласования большим количеством параметров обучения, чтобы преодолеть недостатки модели. [8] При трансляции в Модели 3 и Модели 4 отсутствуют эвристики, которые запрещали бы размещение выходного слова на уже занятой позиции. В Модели 5 важно располагать слова только на свободных позициях. Это делается путем отслеживания количества свободных позиций и разрешения размещения только на таких позициях. Модель искажения аналогична IBM Model 4, но основана на свободных позициях. Если обозначает количество свободных позиций в выходных данных, вероятности искажения IBM Model 5 будут определяться как: [9]

Для начального слова в септе:

Дополнительные слова:

Модели выравнивания, в которых используются зависимости первого порядка, такие как HMM или модели IBM 4 и 5, дают лучшие результаты, чем другие методы выравнивания. Основная идея HMM — предсказать расстояние между последующими позициями исходного языка. С другой стороны, IBM Model 4 пытается предсказать расстояние между последующими позициями целевого языка. Поскольку ожидалось, что при использовании обоих типов таких зависимостей будет достигнуто лучшее качество выравнивания, HMM и Модель 4 были объединены лог-линейным образом в Модели 6 следующим образом: [10]

где параметр интерполяции используется для подсчета веса Модели 4 относительно скрытой модели Маркова . Лог-линейную комбинацию нескольких моделей можно определить как с как:

Лог-линейная комбинация используется вместо линейной комбинации, поскольку значения обычно различаются по порядку величины для HMM и IBM Model 4. [11]

Ссылки [ править ]

  1. ^ «Модели IBM» . Wiki-исследование SMT Research. 11 сентября 2015 года . Проверено 26 октября 2015 г.
  2. ^ Ярин Гал; Фил Блансом (12 июня 2013 г.). «Систематическая байесовская трактовка моделей выравнивания IBM» (PDF) . Кембриджский университет. Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 26 октября 2015 г.
  3. Перейти обратно: Перейти обратно: а б с д Коэн, Филипп (2010). «4. Словесные модели». Статистический машинный перевод . Издательство Кембриджского университета. ISBN  978-0-521-87415-1 .
  4. ^ «CS288, весна 2020 г., лекция 05: Статистический машинный перевод» (PDF) . Архивировано (PDF) из оригинала 24 октября 2020 г.
  5. ^ Волк К., Марасек К. (2014). Польско-английские системы статистического машинного перевода речи для IWSLT 2014 . Материалы 11-го Международного семинара по переводу разговорной речи, Лейк-Тахо, США.
  6. ^ ФЕРНАНДЕС, Пабло Мальвар. Улучшение пословного выравнивания с использованием морфологической информации. 2008. Кандидатская диссертация. Государственный университет Сан-Диего.
  7. Перейти обратно: Перейти обратно: а б Шенеманн, Томас (2010). Вычисление оптимальных выравниваний для модели перевода IBM-3 . Материалы четырнадцатой конференции по компьютерному изучению естественного языка. Ассоциация компьютерной лингвистики. стр. 98–106.
  8. ^ НОЧЬ, Кевин. Учебное пособие по статистическому машинному переводу. Рукопись подготовлена ​​для летнего семинара JHU 1999 г., 1999 г.
  9. ^ Браун, Питер Ф. (1993). «Математика статистического машинного перевода: оценка параметров». Компьютерная лингвистика (19): 263–311.
  10. ^ Вулич И. (2010). «Согласование сроков. Обзор современного состояния» (PDF) . Католический университет Левена . Проверено 26 октября 2015 г. [ постоянная мертвая ссылка ]
  11. ^ Волк, К. (2015). «Методология шумно-параллельной и сопоставимой корпусной фильтрации для извлечения двуязычных эквивалентных данных на уровне предложения». Информатика . 16 (2): 169–184. arXiv : 1510.04500 . Бибкод : 2015arXiv151004500W . дои : 10.7494/csci.2015.16.2.169 . S2CID   12860633 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 86e35ec4f43b1ef82b617122bd10587e__1695557520
URL1:https://arc.ask3.ru/arc/aa/86/7e/86e35ec4f43b1ef82b617122bd10587e.html
Заголовок, (Title) документа по адресу, URL1:
IBM alignment models - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)