Jump to content

Машинный перевод на основе примеров

Машинный перевод на основе примеров ( EBMT ) — это метод машинного перевода, который часто характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения. По сути, это перевод по аналогии , и его можно рассматривать как реализацию на основе прецедентного рассуждения подхода к машинному обучению .

Перевод по аналогии [ править ]

В основе машинного перевода на основе примеров лежит идея перевода по аналогии. Применительно к процессу человеческого перевода идея о том, что перевод происходит по аналогии, является отказом от идеи, что люди переводят предложения, проводя глубокий лингвистический анализ. Вместо этого оно основано на убеждении, что люди переводят, сначала разлагая предложение на определенные фразы, затем переводя эти фразы и, наконец, правильно составляя эти фрагменты в одно длинное предложение. Фразовые переводы переводятся по аналогии с предыдущими переводами. Принцип перевода по аналогии закодирован в машинном переводе на основе примеров посредством переводов примеров, которые используются для обучения такой системы.

Другие подходы к машинному переводу, включая статистический машинный перевод , также используют двуязычные корпуса для изучения процесса перевода.

История [ править ]

Машинный перевод на основе примеров был впервые предложен Макото Нагао в 1984 году. [1] Он отметил, что он специально адаптирован для перевода между двумя совершенно разными языками, такими как английский и японский. , бесполезно В этом случае одно предложение можно перевести в несколько хорошо структурированных предложений на другом языке, поэтому проводить глубокий лингвистический анализ, характерный для машинного перевода на основе правил .

Пример [ править ]

Пример двуязычного корпуса
Английский японский
Сколько стоит этот красный зонтик ? Ано акаи каса ва икура десу ка.
Сколько стоит эта маленькая камера ? Ано чиисай камера ва икура десу ка.

Системы машинного перевода на основе примеров обучаются на двуязычных параллельных корпусах, содержащих пары предложений, как в примере, показанном в таблице выше. Пары предложений содержат предложения на одном языке с их переводом на другой. В конкретном примере показан пример минимальной пары , что означает, что предложения различаются всего на один элемент. Эти предложения упрощают изучение перевода частей предложения. Например, система машинного перевода на основе примеров изучит три единицы перевода из приведенного выше примера:

  1. Сколько стоит это Х ? соответствует Ано Х ва икура десу ка.
  2. красный зонтик соответствует акаи каса
  3. маленькая камера соответствует камере Тиисай

Составление этих единиц может быть использовано для создания новых переводов в будущем. Например, если нас обучали с использованием текста, содержащего предложения:

Президент Кеннеди был застрелен во время парада. и Осужденный сбежал 15 июля. , тогда мы могли бы перевести предложение . Осужденный был застрелен во время парада. заменив соответствующие части предложений.

Фразовые глаголы [ править ]

Машинный перевод на основе примеров лучше всего подходит для таких подъязыковых явлений, как фразовые глаголы . Фразовые глаголы имеют сильно зависящее от контекста значение. Они распространены в английском языке и состоят из глагола, за которым следует наречие и/или предлог , которые называются частицей глагола. Фразовые глаголы имеют специализированные, зависящие от контекста значения, которые не могут быть выведены из значения составляющих. При дословном переводе с исходного языка на целевой язык почти всегда возникает двусмысленность.

В качестве примера рассмотрим фразовый глагол «надеть» и его перевод на хиндустани . Его можно использовать любым из следующих способов:

  • Рам включил свет. (Включено) (перевод на хиндустани: Джалана )
  • Рам надел кепку. (Носить) (перевод на хиндустани: Пахенна )

См. также [ править ]

Ссылки [ править ]

  1. ^ Макото Нагао (1984). «Схема механического перевода между японским и английским языками по принципу аналогии» (PDF) . В А. Элиторн и Р. Банерджи (ред.). Искусственный и человеческий интеллект . Научное издательство «Эльзевир» . Архивировано из оригинала (PDF) 6 февраля 2012 г. Проверено 11 декабря 2006 г.

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

  • Cunei — платформа с открытым исходным кодом для машинного перевода на основе данных, которая возникла на основе исследований в области EBMT, но также включает в себя последние достижения в SMT. области
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f4490950ec56d42fc5092e6be994f2bf__1711140720
URL1:https://arc.ask3.ru/arc/aa/f4/bf/f4490950ec56d42fc5092e6be994f2bf.html
Заголовок, (Title) документа по адресу, URL1:
Example-based machine translation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)