Jump to content

Выравнивание битового текста

Выравнивание двухтекстовых слов находит соответствующие слова в двух текстах.

Выравнивание битового текста или просто выравнивание слов — это задача обработки естественного языка , заключающаяся в выявлении переводческих отношений между словами (или, реже, многословными единицами) в битексте словами . , в результате чего между двумя сторонами битекста образуется двудольный граф с дугой между двумя тогда и только тогда, когда они являются переводами друг друга. Выравнивание слов обычно выполняется после того, как при выравнивании предложений уже были идентифицированы пары предложений, которые являются переводами друг друга.

Выравнивание битового текста является важной вспомогательной задачей для большинства методов статистического машинного перевода . Параметры статистических моделей машинного перевода обычно оцениваются путем наблюдения за битовыми текстами, выровненными по словам. [1] и наоборот, автоматическое выравнивание слов обычно выполняется путем выбора того выравнивания, которое лучше всего соответствует модели статистического машинного перевода. Круговое применение этих двух идей приводит к созданию алгоритма максимизации ожидания . [2]

Этот подход к обучению является примером неконтролируемого обучения , при котором системе не предоставляются примеры желаемого результата, а она пытается найти значения для ненаблюдаемой модели и выравниваний, которые лучше всего объясняют наблюдаемый битекст. Недавняя работа началась с изучения контролируемых методов, которые основаны на предоставлении системе (обычно небольшого) количества выровненных вручную предложений. [3] В дополнение к преимуществам дополнительной информации, предоставляемой контролем, эти модели, как правило, также могут более легко использовать преимущества объединения многих функций данных, таких как контекст, синтаксическая структура , часть речи или о лексиконе перевода информация . которые трудно интегрировать в традиционно используемые генеративные статистические модели . [ нужна ссылка ]

Помимо обучения систем машинного перевода, другие применения выравнивания слов включают переводческой лексики индукцию , обнаружение смысла слова , устранение смысловой неоднозначности и межъязыковое проецирование лингвистической информации.

Обучение

[ редактировать ]

Модели IBM

[ редактировать ]

Модели IBM [4] используются в статистическом машинном переводе для обучения модели перевода и модели выравнивания. Они являются примером алгоритма ожидания-максимизации : на этапе ожидания вычисляются вероятности перевода внутри каждого предложения, на этапе максимизации они суммируются до глобальных вероятностей перевода. Функции:

  • Модель IBM 1: вероятности лексического выравнивания
  • Модель IBM 2: абсолютные позиции
  • IBM Model 3: плодородие (поддерживает вставки)
  • Модель IBM 4: относительные позиции
  • IBM Model 5: исправляет недостатки (гарантирует, что никакие два слова не могут быть выровнены по одной и той же позиции)

Фогель и др. [5] разработал подход, включающий вероятности лексического перевода и относительное выравнивание, отображая проблему в скрытой марковской модели . Состояния и наблюдения представляют собой исходные и целевые слова соответственно. Вероятности перехода моделируют вероятности выравнивания. При обучении вероятности перевода и выравнивания можно получить из и в алгоритме вперед-назад .

Программное обеспечение

[ редактировать ]
  • GIZA++ (свободное программное обеспечение под лицензией GPL)
    • Наиболее широко используемый набор инструментов для выравнивания, реализующий известные модели IBM с множеством улучшений.
  • Berkeley Word Aligner (бесплатное программное обеспечение под лицензией GPL)
    • Еще один широко используемый механизм выравнивания, реализующий выравнивание по соглашению, и дискриминационные модели выравнивания.
  • Нил (свободное программное обеспечение под лицензией GPL)
    • Контролируемый выравниватель слов, который может использовать синтаксическую информацию на исходной и целевой стороне.
  • pialign (бесплатное программное обеспечение под лицензией Common Public License)
    • Средство выравнивания, которое выравнивает слова и фразы с использованием байесовских грамматик обучения и инверсионной трансдукции.
  • Natura Alignment Tools (NATools, бесплатное программное обеспечение под лицензией GPL)
  • UNL aligner (бесплатное программное обеспечение под лицензией Creative Commons Attribution 3.0 Unported License)
  • Геометрическое картографирование и выравнивание (GMA) (бесплатное программное обеспечение под лицензией GPL)
  • HunAlign (бесплатное программное обеспечение под лицензией LGPL-2.1)
  • Anymalign (свободное программное обеспечение под лицензией GPL)
  1. ^ П. Ф. Браун и др. 1993. Математика статистического машинного перевода: оценка параметров. Архивировано 24 апреля 2009 года в Wayback Machine . Компьютерная лингвистика, 19(2):263–311.
  2. ^ Ох, Ф.Дж., Тиллманн, К., Ней, Х. и другие, 1999, Улучшенные модели выравнивания для статистического машинного перевода , Proc. Объединенной конференции SIGDAT. по эмпирическим методам обработки естественного языка и очень большим корпусам
  3. ^ ACL 2005: Создание и использование параллельных текстов для языков с ограниченными ресурсами. Архивировано 9 мая 2009 г., на Wayback Machine.
  4. ^ Филипп Коэн (2009). Статистический машинный перевод . Издательство Кембриджского университета. п. 86 и след. ISBN  978-0521874151 . Проверено 21 октября 2015 г.
  5. ^ С. Фогель, Х. Ней и К. Тиллманн. 1996. Выравнивание слов на основе HMM в статистическом переводе. Архивировано 2 марта 2018 г. в Wayback Machine . В COLING '96: 16-я Международная конференция по компьютерной лингвистике, стр. 836-841, Копенгаген, Дания.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6b45fdc1c8a7962f5d89ec86b9cc5afb__1701672360
URL1:https://arc.ask3.ru/arc/aa/6b/fb/6b45fdc1c8a7962f5d89ec86b9cc5afb.html
Заголовок, (Title) документа по адресу, URL1:
Bitext word alignment - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)