Модели согласования IBM

Модели выравнивания IBM представляют собой последовательность все более сложных моделей, используемых в статистическом машинном переводе для обучения модели перевода и модели выравнивания, начиная с вероятностей лексического перевода и заканчивая переупорядочением и дублированием слов. ^[1] Они лежали в основе большинства систем статистического машинного перевода в течение почти двадцати лет, начиная с начала 1990-х годов, пока нейронный машинный перевод не начал доминировать. Эти модели предлагают принципиальную вероятностную формулировку и (в основном) понятные выводы. ^[2]

В первоначальной работе по статистическому машинному переводу в IBM предлагалось пять моделей, а модель 6 была предложена позже. Последовательность шести моделей можно резюмировать следующим образом:

Модель 1: лексический перевод
Модель 2: дополнительная модель абсолютного выравнивания
Модель 3: модель повышенной рождаемости
Модель 4: добавлена модель относительного выравнивания.
Модель 5: фиксированная проблема дефицита.
Модель 6: Модель 4 в сочетании с моделью выравнивания HMM лог-линейным способом.

Математическая установка [ править ]

Перевод моделей выравнивания IBM в модель условной вероятности. Для каждого предложения на исходном («иностранном») языке $f$ , мы генерируем предложение на целевом языке («английском») $e$ и выравнивание $a$ . Тогда проблема состоит в том, чтобы найти хорошую статистическую модель для $p(e,a|f)$ , вероятность того, что мы сгенерируем предложение на английском языке $e$ и выравнивание $a$ вынесено иностранное предложение $f$ .

Значение выравнивания становится все более сложным по мере роста номера версии модели. См. Модель 1, наиболее простую и понятную версию.

Модель 1 [ править ]

Выравнивание слов [ править ]

Учитывая любую пару предложений на иностранном и английском языках. $(e,f)$ , выравнивание пары предложений является функцией типа $\{1,.,...,l_{e}\}\to \{0,1,.,...,l_{f}\}$ . То есть мы предполагаем, что английское слово в месте $i$ «объясняется» иностранным словом в месте $a(i)$ . Например, рассмотрим следующую пару предложений

Завтра обязательно будет дождь - Завтра обязательно будет дождь

Мы можем привести некоторые английские слова в соответствие с соответствующими японскими словами, но не все:

это -> ?
будет -> ?
конечно -> конечно
дождь -> дождь
завтра -> завтра

В основном это происходит из-за разной грамматики и условностей речи на разных языках. Английские предложения требуют подлежащего, а когда подлежащего нет, используется фиктивное местоимение it . Японские глаголы не имеют разных форм будущего и настоящего времени, а будущее время подразумевает существительное 明日 (завтра). И наоборот, маркер темы は и грамматическое слово だ (примерно «быть») не соответствуют ни одному слову в английском предложении.Итак, мы можем записать выравнивание как

1->0; 2 -> 0; 3 -> 3; 4 -> 4; 5 -> 1

где 0 означает, что соответствующего выравнивания нет.

Таким образом, мы видим, что функция выравнивания в общем случае является функцией типа $\{1,.,...,l_{e}\}\to \{0,1,.,...,l_{f}\}$ .

Будущие модели позволят согласовать один английский мир с множеством иностранных слов.

Статистическая модель [ править ]

Учитывая приведенное выше определение выравнивания, мы можем определить статистическую модель, используемую в Модели 1:

Начните со «словаря». Его записи имеют форму $t(e_{i}|f_{j})$ , что можно интерпретировать как «иностранное слово $f_{j}$ переводится на английское слово $e_{i}$ с вероятностью $t(e_{i}|f_{j})$ ".

После вынесения иностранного приговора $f$ с длиной $l_{f}$ , мы сначала генерируем длину английского предложения $l_{e}$ равномерно в диапазоне $Uniform[1,2,...,N]$ . В частности, это не зависит от $f$ или $l_{f}$ .
Затем мы генерируем выравнивание равномерно во множестве всех возможных функций выравнивания. $\{1,.,...,l_{e}\}\to \{0,1,.,...,l_{f}\}$ .
Наконец, для каждого английского слова $e_{1},e_{2},...e_{l_{e}}$ , сгенерируйте каждое из них независимо от любого другого английского слова. Для слова $e_{i}$ , сгенерируйте его в соответствии с $t(e_{i}|f_{a(i)})$ .

Вместе мы имеем вероятность

p(e,a|f)={\frac {1/N}{(1+l_{f})^{l_{e}}}}\prod _{i=1}^{l_{e}}t(e_{i}|f_{a(i)})

Модель IBM 1 использует очень упрощенные предположения о статистической модели, чтобы позволить следующему алгоритму иметь решение в замкнутой форме.

Обучение по корпусу [ править ]

Если словарь изначально не указан, но у нас есть корпус пар английский-иностранный язык $\{(e^{(k)},f^{(k)})\}_{k}$ (без информации о выравнивании), то модель можно привести к следующему виду:

фиксированные параметры: иностранные предложения $\{f^{(k)}\}_{k}$ .
обучаемые параметры: записи словаря $t(e_{i}|f_{j})$ .
наблюдаемые переменные: английские предложения $\{e^{(k)}\}_{k}$ .
скрытые переменные: выравнивания $\{a^{(k)}\}_{k}$

В такой форме это именно та задача, которую решает алгоритм ожидания-максимизации . Благодаря упрощенным предположениям алгоритм имеет эффективно вычислимое решение в замкнутой форме, которое является решением следующих уравнений:

{\begin{cases}\max _{t'}\sum _{k}\sum _{i}\sum _{a^{(k)}}t(a^{(k)}|e^{(k)},f^{(k)})\ln t(e_{i}^{(k)}|f_{a^{(k)}(i)}^{(k)})\\\sum _{x}t'(e_{x}|f_{y})=1\quad \forall y\end{cases}}

Эту проблему можно решить с помощью множителей Лагранжа , а затем упростить. Подробный вывод алгоритма см. ^[3] Глава 4 и. ^[4]

Вкратце, алгоритм EM выглядит следующим образом:

ВХОД. корпус пар англо-иностранных предложений $\{(e^{(k)},f^{(k)})\}_{k}$

ИНИЦИАЛИЗИРОВАТЬ. матрица вероятностей переводов $t(e_{x}|f_{y})$ .
Это может быть как равномерным, так и случайным образом. Требуется только, чтобы каждая запись была положительной, и для каждого $y$ , сумма вероятности равна единице: $\sum _{x}t(e_{x}|f_{y})=1$ .
ПЕТЛЯ. до $t(e_{x}|f_{y})$ сходится:
$t(e_{x}|f_{y})\leftarrow {\frac {t(e_{x}|f_{y})}{\lambda _{y}}}\sum _{k,i,j}{\frac {\delta (e_{x},e_{i}^{(k)})\delta (f_{y},f_{j}^{(k)})}{\sum _{j'}t(e_{i}^{(k)}|f_{j'}^{(k)})}}$
где каждый $\lambda _{y}$ — это константа нормализации, которая гарантирует, что каждый $\sum _{x}t(e_{x}|f_{y})=1$ .
ВОЗВРАЩАТЬСЯ. $t(e_{x}|f_{y})$ .

В приведенной выше формуле $\delta$ — это дельта-функция Дирака . Она равна 1, если две записи равны, и 0 в противном случае. Обозначение индекса следующее:

$k$ варьируется в пределах пар англо-иностранных предложений в корпусе;
$i$ варьируется по словам в английских предложениях;
$j$ пробегает по словам в предложениях на иностранном языке;
$x$ колеблется по всему словарю английских слов в корпусе;
$y$ колеблется по всему словарю иностранных слов в корпусе.

Ограничения [ править ]

Модель IBM 1 имеет несколько ограничений. ^[3]

Нет беглости: учитывая любую пару предложений. $(e,f)$ , любая перестановка английского предложения одинаково вероятна: $p(e|f)=p(e'|f)$ для любой перестановки английского предложения $e$ в $e'$ .
Нет предпочтения длины: вероятность каждой длины перевода равна: $\sum _{e{\text{ has length }}l}p(e|f)={\frac {1}{N}}$ для любого $l\in \{1,2,...,N\}$ .
Не моделирует явным образом рождаемость: некоторые иностранные слова имеют тенденцию давать фиксированное количество английских слов. Например, при переводе с немецкого на английский ja обычно опускается, а zum обычно переводится как to the, for the, to a, for a .

Модель 2 [ править ]

Модель 2 позволяет определять выравнивание в зависимости от длины предложения. То есть у нас есть распределение вероятностей $p_{a}(j|i,l_{e},l_{f})$ , что означает «вероятность того, что английское слово $i$ соответствует иностранному слову $j$ , когда английское предложение длинное $l_{e}$ , а иностранное предложение имеет длину $l_{f}$ ".

Остальная часть Модели 1 не изменилась. При этом у нас есть

p(e,a|f)={1/N}\prod _{i=1}^{l_{e}}t(e_{i}|f_{a(i)})p_{a}(a(i)|i,l_{e},l_{f})

Алгоритм EM все еще можно решить в закрытой форме, что дает следующий алгоритм:

t(e_{x}|f_{y})\leftarrow {\frac {1}{\lambda _{y}}}\sum _{k,i,j}{\frac {t(e_{i}^{(k)}|f_{j}^{(k)})p_{a}(j|i,l_{e},l_{f})\delta (e_{x},e_{i}^{(k)})\delta (f_{y},f_{j}^{(k)})}{\sum _{j'}t(e_{i}^{(k)}|f_{j'}^{(k)})p_{a}(j'|i,l_{e},l_{f})}}

p_{a}(j|i,l_{e},l_{f})\leftarrow {\frac {1}{\lambda _{i,l_{e},l_{f}}}}\sum _{k}{\frac {t(e_{i}^{(k)}|f_{j}^{(k)})p_{a}(j|i,l_{e},l_{f})\delta (e_{x},e_{i}^{(k)})\delta (f_{y},f_{j}^{(k)})\delta (l_{e},l_{e}^{(k)})\delta (l_{f},l_{f}^{(k)})}{\sum _{j'}t(e_{i}^{(k)}|f_{j'}^{(k)})p_{a}(j'|i,l_{e},l_{f})}}

где

\lambda

все еще являются факторами нормализации. См. раздел 4.4.1. ^[3] для вывода и алгоритма.

Модель 3 [ править ]

Проблема рождаемости решается в модели IBM 3. Рождаемость моделируется с использованием распределения вероятностей, определяемого как:

n(\phi \lor f)

За каждое иностранное слово $j$ , такое распределение указывает на то, сколько выходных слов $\phi$ обычно это переводит. Эта модель имеет дело с удалением входных слов, поскольку позволяет $\phi =0$ . Но при добавлении слов все еще остается проблема. Например, английское слово do часто вставляется при отрицании. Эта проблема генерирует специальный NULL -токен, рождаемость которого также можно смоделировать с использованием условного распределения, определенного как:

n(\varnothing \lor NULL)

Количество вставленных слов зависит от длины предложения. Вот почему вставка NULL-токена моделируется как дополнительный шаг: этап рождаемости. Это увеличивает процесс перевода IBM Model 3 до четырех этапов:

Последний шаг называется искажением вместо выравнивания, поскольку один и тот же перевод с одинаковым выравниванием можно выполнить разными способами. Например, в приведенном выше примере у нас есть другой способ получить то же выравнивание: ^[5]

Я НУЛЬ не пойду в дом
не хожу домой я
я не хожу в дом

Модель IBM 3 может быть математически выражена как:

P(S\mid E,A)=\prod _{i=1}^{I}\Phi _{i}!n(\Phi \mid e_{j})*\prod _{j=1}^{J}t(f_{j}\mid e_{a_{j}})*\prod _{j:a(j)\neq 0}^{J}d(j|a_{j},I,J){\binom {J-\Phi _{0}}{\Phi _{0}}}p_{0}^{\Phi _{0}}p_{1}^{J}

где $\Phi _{i}$ представляет плодородие $e_{i}$ , каждое исходное слово $s$ присвоено распределение рождаемости $n$ , и $I$ и $J$ относятся к абсолютной длине целевого и исходного предложений соответственно. ^[6]

См. раздел 4.4.2. ^[3] для вывода и алгоритма.

Модель 4 [ править ]

В IBM Model 4 каждое слово зависит от ранее выровненного слова и от классов слов окружающих слов. Некоторые слова имеют тенденцию меняться во время перевода чаще, чем другие (например, инверсия прилагательного и существительного при переводе с польского на английский). Прилагательные часто ставятся перед предшествующим им существительным. Классы слов, представленные в модели 4, решают эту проблему, обуславливая распределения вероятностей этих классов. Результатом такого распределения является лексикализованная модель. Такое распределение можно определить следующим образом:

Для начального слова в септе: $d_{1}(j-\odot _{[i-1]}\lor A(f_{[i-1]}),B(e_{j}))$

Дополнительные слова: $d_{1}(j-\pi _{i,k-1}\lor B(e_{j}))$

где $A(f)$ и $B(e)$ функции сопоставляют слова с их классами слов и $e_{j}$ и $f_{[i-1]}$ — распределения вероятностей искажений слов. Концепция формируется путем выравнивания каждого входного слова $f_{i}$ хотя бы к одному выходному слову. ^[7]

И Модель 3, и Модель 4 игнорируют, была ли выбрана входная позиция и была ли зарезервирована масса вероятности для входных позиций за пределами границ предложения. Это причина того, что в этих двух моделях (неполноценные модели) суммы вероятностей всех правильных выравниваний не равны единице. ^[7]

Модель 5 [ править ]

IBM Model 5 переформулирует IBM Model 4, дополняя модель согласования большим количеством параметров обучения, чтобы преодолеть недостатки модели. ^[8] При трансляции в Модели 3 и Модели 4 отсутствуют эвристики, которые запрещали бы размещение выходного слова на уже занятой позиции. В Модели 5 важно располагать слова только на свободных позициях. Это делается путем отслеживания количества свободных позиций и разрешения размещения только на таких позициях. Модель искажения аналогична IBM Model 4, но основана на свободных позициях. Если $v_{j}$ обозначает количество свободных позиций в выходных данных, вероятности искажения IBM Model 5 будут определяться как: ^[9]

Для начального слова в септе: $d_{1}(v_{j}\lor B(e_{j}),v_{\odot i-1},v_{max})$

Дополнительные слова: $d_{1}(v_{j}-v_{\pi _{i,k-1}}\lor B(e_{j}),v_{max'})$

Модели выравнивания, в которых используются зависимости первого порядка, такие как HMM или модели IBM 4 и 5, дают лучшие результаты, чем другие методы выравнивания. Основная идея HMM — предсказать расстояние между последующими позициями исходного языка. С другой стороны, IBM Model 4 пытается предсказать расстояние между последующими позициями целевого языка. Поскольку ожидалось, что при использовании обоих типов таких зависимостей будет достигнуто лучшее качество выравнивания, HMM и Модель 4 были объединены лог-линейным образом в Модели 6 следующим образом: ^[10]

p_{6}(f,a\lor e)={\frac {p_{4}(f,a\lor e)^{\alpha }*p_{HMM}(f,a\lor e)}{\sum _{a',f'}p_{4}(f',a'\lor e)^{\alpha }*p_{HMM}(f',a'\lor e)}}

где параметр интерполяции $\alpha$ используется для подсчета веса Модели 4 относительно скрытой модели Маркова . Лог-линейную комбинацию нескольких моделей можно определить как $p_{k}(f,a\mid e)$ с $k=1,2,\dotsc ,K$ как:

p_{6}(f,a\lor e)={\frac {\prod _{k=1}^{K}p_{k}(f,a\lor e)^{\alpha _{k}}}{\sum _{a',f'}\prod _{k=1}^{K}p_{k}(f',a'\mid e)^{\alpha _{k}}}}

Лог-линейная комбинация используется вместо линейной комбинации, поскольку $P_{r}(f,a\mid e)$ значения обычно различаются по порядку величины для HMM и IBM Model 4. ^[11]

Ссылки [ править ]

^ «Модели IBM» . Wiki-исследование SMT Research. 11 сентября 2015 года . Проверено 26 октября 2015 г.
^ Ярин Гал; Фил Блансом (12 июня 2013 г.). «Систематическая байесовская трактовка моделей выравнивания IBM» (PDF) . Кембриджский университет. Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 26 октября 2015 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д Коэн, Филипп (2010). «4. Словесные модели». Статистический машинный перевод . Издательство Кембриджского университета. ISBN 978-0-521-87415-1 .
^ «CS288, весна 2020 г., лекция 05: Статистический машинный перевод» (PDF) . Архивировано (PDF) из оригинала 24 октября 2020 г.
^ Волк К., Марасек К. (2014). Польско-английские системы статистического машинного перевода речи для IWSLT 2014 . Материалы 11-го Международного семинара по переводу разговорной речи, Лейк-Тахо, США.
^ ФЕРНАНДЕС, Пабло Мальвар. Улучшение пословного выравнивания с использованием морфологической информации. 2008. Кандидатская диссертация. Государственный университет Сан-Диего.
↑ Перейти обратно: Перейти обратно: ^а ^б Шенеманн, Томас (2010). Вычисление оптимальных выравниваний для модели перевода IBM-3 . Материалы четырнадцатой конференции по компьютерному изучению естественного языка. Ассоциация компьютерной лингвистики. стр. 98–106.
^ НОЧЬ, Кевин. Учебное пособие по статистическому машинному переводу. Рукопись подготовлена для летнего семинара JHU 1999 г., 1999 г.
^ Браун, Питер Ф. (1993). «Математика статистического машинного перевода: оценка параметров». Компьютерная лингвистика (19): 263–311.
^ Вулич И. (2010). «Согласование сроков. Обзор современного состояния» (PDF) . Католический университет Левена . Проверено 26 октября 2015 г. ^{[ постоянная мертвая ссылка ]}
^ Волк, К. (2015). «Методология шумно-параллельной и сопоставимой корпусной фильтрации для извлечения двуязычных эквивалентных данных на уровне предложения». Информатика . 16 (2): 169–184. arXiv : 1510.04500 . Бибкод : 2015arXiv151004500W . дои : 10.7494/csci.2015.16.2.169 . S2CID 12860633 .

[1] «Модели IBM» . Wiki-исследование SMT Research. 11 сентября 2015 года . Проверено 26 октября 2015 г.

[2] Ярин Гал; Фил Блансом (12 июня 2013 г.). «Систематическая байесовская трактовка моделей выравнивания IBM» (PDF) . Кембриджский университет. Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 26 октября 2015 г.

[:0-3] Перейти обратно: Перейти обратно: ^а ^б ^с ^д Коэн, Филипп (2010). «4. Словесные модели». Статистический машинный перевод . Издательство Кембриджского университета. ISBN 978-0-521-87415-1 .

[4] «CS288, весна 2020 г., лекция 05: Статистический машинный перевод» (PDF) . Архивировано (PDF) из оригинала 24 октября 2020 г.

[5] Волк К., Марасек К. (2014). Польско-английские системы статистического машинного перевода речи для IWSLT 2014 . Материалы 11-го Международного семинара по переводу разговорной речи, Лейк-Тахо, США.

[6] ФЕРНАНДЕС, Пабло Мальвар. Улучшение пословного выравнивания с использованием морфологической информации. 2008. Кандидатская диссертация. Государственный университет Сан-Диего.

[Schoenemann-7] Перейти обратно: Перейти обратно: ^а ^б Шенеманн, Томас (2010). Вычисление оптимальных выравниваний для модели перевода IBM-3 . Материалы четырнадцатой конференции по компьютерному изучению естественного языка. Ассоциация компьютерной лингвистики. стр. 98–106.

[8] НОЧЬ, Кевин. Учебное пособие по статистическому машинному переводу. Рукопись подготовлена для летнего семинара JHU 1999 г., 1999 г.

[9] Браун, Питер Ф. (1993). «Математика статистического машинного перевода: оценка параметров». Компьютерная лингвистика (19): 263–311.

[10] Вулич И. (2010). «Согласование сроков. Обзор современного состояния» (PDF) . Католический университет Левена . Проверено 26 октября 2015 г. ^{[ постоянная мертвая ссылка ]}

[11] Волк, К. (2015). «Методология шумно-параллельной и сопоставимой корпусной фильтрации для извлечения двуязычных эквивалентных данных на уровне предложения». Информатика . 16 (2): 169–184. arXiv : 1510.04500 . Бибкод : 2015arXiv151004500W . дои : 10.7494/csci.2015.16.2.169 . S2CID 12860633 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]