Модели согласования IBM
Модели выравнивания IBM представляют собой последовательность все более сложных моделей, используемых в статистическом машинном переводе для обучения модели перевода и модели выравнивания, начиная с вероятностей лексического перевода и заканчивая переупорядочением и дублированием слов. [1] Они лежали в основе большинства систем статистического машинного перевода в течение почти двадцати лет, начиная с начала 1990-х годов, пока нейронный машинный перевод не начал доминировать. Эти модели предлагают принципиальную вероятностную формулировку и (в основном) понятные выводы. [2]
В первоначальной работе по статистическому машинному переводу в IBM предлагалось пять моделей, а модель 6 была предложена позже. Последовательность шести моделей можно резюмировать следующим образом:
- Модель 1: лексический перевод
- Модель 2: дополнительная модель абсолютного выравнивания
- Модель 3: модель повышенной рождаемости
- Модель 4: добавлена модель относительного выравнивания.
- Модель 5: фиксированная проблема дефицита.
- Модель 6: Модель 4 в сочетании с моделью выравнивания HMM лог-линейным способом.
Математическая установка [ править ]
Перевод моделей выравнивания IBM в модель условной вероятности. Для каждого предложения на исходном («иностранном») языке , мы генерируем предложение на целевом языке («английском») и выравнивание . Тогда проблема состоит в том, чтобы найти хорошую статистическую модель для , вероятность того, что мы сгенерируем предложение на английском языке и выравнивание вынесено иностранное предложение .
Значение выравнивания становится все более сложным по мере роста номера версии модели. См. Модель 1, наиболее простую и понятную версию.
Модель 1 [ править ]
Выравнивание слов [ править ]
Учитывая любую пару предложений на иностранном и английском языках. , выравнивание пары предложений является функцией типа . То есть мы предполагаем, что английское слово в месте «объясняется» иностранным словом в месте . Например, рассмотрим следующую пару предложений
Завтра обязательно будет дождь - Завтра обязательно будет дождь
Мы можем привести некоторые английские слова в соответствие с соответствующими японскими словами, но не все:
это -> ?
будет -> ?
конечно -> конечно
дождь -> дождь
завтра -> завтра
В основном это происходит из-за разной грамматики и условностей речи на разных языках. Английские предложения требуют подлежащего, а когда подлежащего нет, используется фиктивное местоимение it . Японские глаголы не имеют разных форм будущего и настоящего времени, а будущее время подразумевает существительное 明日 (завтра). И наоборот, маркер темы は и грамматическое слово だ (примерно «быть») не соответствуют ни одному слову в английском предложении.Итак, мы можем записать выравнивание как
1->0; 2 -> 0; 3 -> 3; 4 -> 4; 5 -> 1
где 0 означает, что соответствующего выравнивания нет.
Таким образом, мы видим, что функция выравнивания в общем случае является функцией типа .
Будущие модели позволят согласовать один английский мир с множеством иностранных слов.
Статистическая модель [ править ]
Учитывая приведенное выше определение выравнивания, мы можем определить статистическую модель, используемую в Модели 1:
- Начните со «словаря». Его записи имеют форму , что можно интерпретировать как «иностранное слово переводится на английское слово с вероятностью ".
- После вынесения иностранного приговора с длиной , мы сначала генерируем длину английского предложения равномерно в диапазоне . В частности, это не зависит от или .
- Затем мы генерируем выравнивание равномерно во множестве всех возможных функций выравнивания. .
- Наконец, для каждого английского слова , сгенерируйте каждое из них независимо от любого другого английского слова. Для слова , сгенерируйте его в соответствии с .
Вместе мы имеем вероятность
Обучение по корпусу [ править ]
Если словарь изначально не указан, но у нас есть корпус пар английский-иностранный язык (без информации о выравнивании), то модель можно привести к следующему виду:
- фиксированные параметры: иностранные предложения .
- обучаемые параметры: записи словаря .
- наблюдаемые переменные: английские предложения .
- скрытые переменные: выравнивания
В такой форме это именно та задача, которую решает алгоритм ожидания-максимизации . Благодаря упрощенным предположениям алгоритм имеет эффективно вычислимое решение в замкнутой форме, которое является решением следующих уравнений:
Вкратце, алгоритм EM выглядит следующим образом:
ВХОД. корпус пар англо-иностранных предложений
ИНИЦИАЛИЗИРОВАТЬ. матрица вероятностей переводов .
Это может быть как равномерным, так и случайным образом. Требуется только, чтобы каждая запись была положительной, и для каждого , сумма вероятности равна единице: .
ПЕТЛЯ. до сходится:
где каждый — это константа нормализации, которая гарантирует, что каждый .
ВОЗВРАЩАТЬСЯ. .
В приведенной выше формуле — это дельта-функция Дирака . Она равна 1, если две записи равны, и 0 в противном случае. Обозначение индекса следующее:
варьируется в пределах пар англо-иностранных предложений в корпусе;
варьируется по словам в английских предложениях;
пробегает по словам в предложениях на иностранном языке;
колеблется по всему словарю английских слов в корпусе;
колеблется по всему словарю иностранных слов в корпусе.
Ограничения [ править ]
Модель IBM 1 имеет несколько ограничений. [3]
- Нет беглости: учитывая любую пару предложений. , любая перестановка английского предложения одинаково вероятна: для любой перестановки английского предложения в .
- Нет предпочтения длины: вероятность каждой длины перевода равна: для любого .
- Не моделирует явным образом рождаемость: некоторые иностранные слова имеют тенденцию давать фиксированное количество английских слов. Например, при переводе с немецкого на английский ja обычно опускается, а zum обычно переводится как to the, for the, to a, for a .
Модель 2 [ править ]
Модель 2 позволяет определять выравнивание в зависимости от длины предложения. То есть у нас есть распределение вероятностей , что означает «вероятность того, что английское слово соответствует иностранному слову , когда английское предложение длинное , а иностранное предложение имеет длину ".
Остальная часть Модели 1 не изменилась. При этом у нас есть
Модель 3 [ править ]
Проблема рождаемости решается в модели IBM 3. Рождаемость моделируется с использованием распределения вероятностей, определяемого как:
За каждое иностранное слово , такое распределение указывает на то, сколько выходных слов обычно это переводит. Эта модель имеет дело с удалением входных слов, поскольку позволяет . Но при добавлении слов все еще остается проблема. Например, английское слово do часто вставляется при отрицании. Эта проблема генерирует специальный NULL -токен, рождаемость которого также можно смоделировать с использованием условного распределения, определенного как:
Количество вставленных слов зависит от длины предложения. Вот почему вставка NULL-токена моделируется как дополнительный шаг: этап рождаемости. Это увеличивает процесс перевода IBM Model 3 до четырех этапов:

Последний шаг называется искажением вместо выравнивания, поскольку один и тот же перевод с одинаковым выравниванием можно выполнить разными способами. Например, в приведенном выше примере у нас есть другой способ получить то же выравнивание: [5]
- Я НУЛЬ не пойду в дом
- не хожу домой я
- я не хожу в дом
Модель IBM 3 может быть математически выражена как:
где представляет плодородие , каждое исходное слово присвоено распределение рождаемости , и и относятся к абсолютной длине целевого и исходного предложений соответственно. [6]
См. раздел 4.4.2. [3] для вывода и алгоритма.
Модель 4 [ править ]
В IBM Model 4 каждое слово зависит от ранее выровненного слова и от классов слов окружающих слов. Некоторые слова имеют тенденцию меняться во время перевода чаще, чем другие (например, инверсия прилагательного и существительного при переводе с польского на английский). Прилагательные часто ставятся перед предшествующим им существительным. Классы слов, представленные в модели 4, решают эту проблему, обуславливая распределения вероятностей этих классов. Результатом такого распределения является лексикализованная модель. Такое распределение можно определить следующим образом:
Для начального слова в септе:
Дополнительные слова:
где и функции сопоставляют слова с их классами слов и и — распределения вероятностей искажений слов. Концепция формируется путем выравнивания каждого входного слова хотя бы к одному выходному слову. [7]
И Модель 3, и Модель 4 игнорируют, была ли выбрана входная позиция и была ли зарезервирована масса вероятности для входных позиций за пределами границ предложения. Это причина того, что в этих двух моделях (неполноценные модели) суммы вероятностей всех правильных выравниваний не равны единице. [7]
Модель 5 [ править ]
IBM Model 5 переформулирует IBM Model 4, дополняя модель согласования большим количеством параметров обучения, чтобы преодолеть недостатки модели. [8] При трансляции в Модели 3 и Модели 4 отсутствуют эвристики, которые запрещали бы размещение выходного слова на уже занятой позиции. В Модели 5 важно располагать слова только на свободных позициях. Это делается путем отслеживания количества свободных позиций и разрешения размещения только на таких позициях. Модель искажения аналогична IBM Model 4, но основана на свободных позициях. Если обозначает количество свободных позиций в выходных данных, вероятности искажения IBM Model 5 будут определяться как: [9]
Для начального слова в септе:
Дополнительные слова:
Модели выравнивания, в которых используются зависимости первого порядка, такие как HMM или модели IBM 4 и 5, дают лучшие результаты, чем другие методы выравнивания. Основная идея HMM — предсказать расстояние между последующими позициями исходного языка. С другой стороны, IBM Model 4 пытается предсказать расстояние между последующими позициями целевого языка. Поскольку ожидалось, что при использовании обоих типов таких зависимостей будет достигнуто лучшее качество выравнивания, HMM и Модель 4 были объединены лог-линейным образом в Модели 6 следующим образом: [10]
где параметр интерполяции используется для подсчета веса Модели 4 относительно скрытой модели Маркова . Лог-линейную комбинацию нескольких моделей можно определить как с как:
Лог-линейная комбинация используется вместо линейной комбинации, поскольку значения обычно различаются по порядку величины для HMM и IBM Model 4. [11]
Ссылки [ править ]
- ^ «Модели IBM» . Wiki-исследование SMT Research. 11 сентября 2015 года . Проверено 26 октября 2015 г.
- ^ Ярин Гал; Фил Блансом (12 июня 2013 г.). «Систематическая байесовская трактовка моделей выравнивания IBM» (PDF) . Кембриджский университет. Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 26 октября 2015 г.
- ↑ Перейти обратно: Перейти обратно: а б с д Коэн, Филипп (2010). «4. Словесные модели». Статистический машинный перевод . Издательство Кембриджского университета. ISBN 978-0-521-87415-1 .
- ^ «CS288, весна 2020 г., лекция 05: Статистический машинный перевод» (PDF) . Архивировано (PDF) из оригинала 24 октября 2020 г.
- ^ Волк К., Марасек К. (2014). Польско-английские системы статистического машинного перевода речи для IWSLT 2014 . Материалы 11-го Международного семинара по переводу разговорной речи, Лейк-Тахо, США.
- ^ ФЕРНАНДЕС, Пабло Мальвар. Улучшение пословного выравнивания с использованием морфологической информации. 2008. Кандидатская диссертация. Государственный университет Сан-Диего.
- ↑ Перейти обратно: Перейти обратно: а б Шенеманн, Томас (2010). Вычисление оптимальных выравниваний для модели перевода IBM-3 . Материалы четырнадцатой конференции по компьютерному изучению естественного языка. Ассоциация компьютерной лингвистики. стр. 98–106.
- ^ НОЧЬ, Кевин. Учебное пособие по статистическому машинному переводу. Рукопись подготовлена для летнего семинара JHU 1999 г., 1999 г.
- ^ Браун, Питер Ф. (1993). «Математика статистического машинного перевода: оценка параметров». Компьютерная лингвистика (19): 263–311.
- ^ Вулич И. (2010). «Согласование сроков. Обзор современного состояния» (PDF) . Католический университет Левена . Проверено 26 октября 2015 г. [ постоянная мертвая ссылка ]
- ^ Волк, К. (2015). «Методология шумно-параллельной и сопоставимой корпусной фильтрации для извлечения двуязычных эквивалентных данных на уровне предложения». Информатика . 16 (2): 169–184. arXiv : 1510.04500 . Бибкод : 2015arXiv151004500W . дои : 10.7494/csci.2015.16.2.169 . S2CID 12860633 .