Jump to content

Машинный перевод на основе правил

Машинный перевод на основе правил ( RBMT ; «Классический подход» МП) — это машинного перевода, системы основанные на лингвистической информации об исходном и целевом языках, в основном полученной из (одноязычных, двуязычных или многоязычных) словарей и грамматик, охватывающих основные семантические, морфологические и синтаксические закономерности каждого языка соответственно. Имея входные предложения (на каком-то исходном языке), система RBMT генерирует их для вывода предложений (на каком-то целевом языке) на основе морфологического, синтаксического и семантического анализа как исходного, так и целевого языков, задействованных в конкретной задаче перевода.

История [ править ]

Первые системы RBMT были разработаны в начале 1970-х годов. Важнейшими шагами этой эволюции стало появление следующих систем RBMT:

Сегодня другие распространенные системы RBMT включают:

Типы RBMT [ править ]

Существует три различных типа систем машинного перевода, основанных на правилах:

  1. Прямые системы ( машинный перевод на основе словаря ) сопоставляют входные данные с выходными с помощью основных правил.
  2. Системы Transfer RBMT ( машинный перевод на основе переноса ) используют морфологический и синтаксический анализ.
  3. Межъязыковые системы RBMT ( Интерлингва ) используют абстрактное значение. [1] [2]

Системы RBMT также можно охарактеризовать как системы, противоположные системам машинного перевода на основе примеров ( машинный перевод на основе примеров ), тогда как гибридные системы машинного перевода используют многие принципы, заимствованные из RBMT.

Основные принципы [ править ]

Основной подход систем RBMT основан на связывании структуры данного входного предложения со структурой требуемого выходного предложения, обязательно сохраняя их уникальный смысл. Следующий пример может проиллюстрировать общую структуру RBMT:

Девушка ест яблоко. Исходный язык = английский; Требуемый целевой язык = немецкий

Как минимум, чтобы получить немецкий перевод этого английского предложения, нужно:

  1. Словарь, который сопоставит каждое английское слово с соответствующим немецким словом.
  2. Правила, представляющие структуру обычного английского предложения.
  3. Правила, представляющие структуру обычного немецкого предложения.

И, наконец, нам нужны правила, согласно которым можно связать эти две структуры между собой.

Соответственно, можно выделить следующие этапы перевода :

1-й: получение основной информации о частях речи каждого исходного слова:
а = неопределенная.статья; девушка = существительное; ест = глагол; an = indef.article; яблоко = существительное
2-й: получение синтаксической информации о глаголе «есть»:
НП-есть-НП; здесь: eat – настоящее простое время, 3-е лицо единственного числа, активный залог
3-й: разбор исходного предложения:
(NP яблоко) = объект еды

Часто только частичного анализа достаточно, чтобы добраться до синтаксической структуры исходного предложения и сопоставить ее со структурой целевого предложения.

4-й: переведите английские слова на немецкий
a (категория = неопределенная.статья) => ein (категория = неопределенная.статья)
девушка (категория = существительное) => Mädchen (категория = существительное)
съесть (категория = глагол) => essen (категория = глагол)
an (категория = неопределенный артикул) => ein (категория = неопределенный артикул)
яблоко (категория = существительное) => Apfel (категория = существительное)
Пятое: Преобразование словарных статей в соответствующие изменяемые формы (окончательное поколение ):
Девушка ест яблоко. => Девушка ест яблоко.

Компоненты [ править ]

Система RBMT содержит:

  • морфологический анализатор SL - анализирует слово исходного языка и предоставляет морфологическую информацию;
  • парсер SL — синтаксический анализатор, анализирующий предложения исходного языка;
  • переводчик – используется для перевода слова исходного языка на целевой язык;
  • морфологический генератор TL - работает как генератор соответствующих слов целевого языка для данной грамматической информации;
  • анализатор TL — работает как составитель подходящих предложений целевого языка;
  • Несколько словарей , а точнее минимум три словаря:
словарь SL - необходим морфологическому анализатору исходного языка для морфологического анализа,
двуязычный словарь - используется переводчиком для перевода слов исходного языка в слова целевого языка,
словарь TL - необходим морфологическому генератору целевого языка для генерации слов целевого языка. [3]

Система RBMT использует следующее:

  • для Исходная грамматика входного языка, которая строит синтаксические конструкции из входных предложений;
  • Исходный словарь , охватывающий всю допустимую лексику в предметной области;
  • Правила сопоставления источника , которые указывают, как синтаксические главы и грамматические функции исходного языка отображаются на концепции предметной области и семантические роли в интерлингве;
  • Модель предметной области / Онтология , которая определяет классы понятий предметной области и ограничивает заполнители семантических ролей для каждого класса;
  • Правила целевого сопоставления , которые указывают, как концепции предметной области и семантические роли в интерлингве отображаются на синтаксические главы и грамматические функции целевого языка;
  • целевой лексикон , который содержит соответствующие целевые лексемы для каждого понятия предметной области;
  • Целевая грамматика для целевого языка, которая реализует целевые синтаксические конструкции в виде линеаризованных выходных предложений. [4]

Преимущества [ править ]

  • Никаких двуязычных текстов не требуется. Это позволяет создавать системы перевода для языков, не имеющих общих текстов или даже вообще не имеющих оцифрованных данных.
  • Независимый от домена. Правила обычно пишутся независимо от домена, поэтому подавляющее большинство правил «просто работает» в каждом домене, и только в нескольких конкретных случаях для каждого домена могут потребоваться правила, написанные для них.
  • Нет качественного потолка. Любую ошибку можно исправить с помощью целевого правила, даже если срабатывание происходит крайне редко. В этом отличие от статистических систем, в которых редкие формы по умолчанию удаляются.
  • Тотальный контроль. Поскольку все правила написаны вручную, вы можете легко отладить систему, основанную на правилах, чтобы точно увидеть, где именно та или иная ошибка попадает в систему и почему.
  • Многоразовость. Поскольку системы RBMT обычно строятся на основе тщательного анализа исходного языка, который передается на этап перевода и генератор целевого языка, части анализа исходного языка и генерации целевого языка могут использоваться совместно несколькими системами перевода, требуя специализации только этапа перевода. Кроме того, анализ исходного языка для одного языка можно повторно использовать для запуска тесно связанного языкового анализа.

Недостатки [ править ]

  • Недостаточное количество действительно хороших словарей. Создание новых словарей обходится дорого.
  • Некоторую лингвистическую информацию по-прежнему необходимо задавать вручную.
  • Трудно иметь дело с взаимодействием правил в больших системах, двусмысленностью и идиоматическими выражениями.
  • Неспособность адаптироваться к новым доменам. Хотя системы RBMT обычно предоставляют механизм для создания новых правил, а также расширения и адаптации словаря, изменения обычно обходятся очень дорого, а результаты зачастую не окупаются. [5]

Ссылки [ править ]

  1. ^ Коэн, Филипп (2010). Статистический машинный перевод . Кембридж: Издательство Кембриджского университета. п. 15. ISBN  9780521874151 .
  2. ^ Ниренбург, Сергей (1989). «Машинный перевод, основанный на знаниях». Машиностроение 4 (1989), 5 – 24 . 4 (1). Издательство Kluwer Academic: 5–24. JSTOR   40008396 .
  3. ^ Хеттиге, Б.; Карунананда, А.С. (2011). «Вычислительная модель грамматики машинного перевода с английского на сингальский». Международная конференция 2011 года по достижениям в области ИКТ в развивающихся регионах (ICTer) . стр. 26–31. дои : 10.1109/ICTer.2011.6075022 . ISBN  978-1-4577-1114-5 . S2CID   45871137 .
  4. ^ Лонсдейл, Дерил; Митамура, Теруко; Нюберг, Эрик (1995). «Приобретение больших лексиконов для практического машинного обучения, основанного на знаниях». Машинный перевод . 9 (3–4). Издательство Kluwer Academic: 251–283. дои : 10.1007/BF00980580 . S2CID   1106335 .
  5. ^ Лагарда, А.-Л.; Алабау, В.; Касакуберта, Ф.; Сильва, Р.; Диас-де-Льяно, Э. (2009). «Статистическое постредактирование системы машинного перевода, основанной на правилах» (PDF) . Труды NAACL HLT 2009: Короткие статьи, страницы 217–220, Боулдер, Колорадо . Ассоциация компьютерной лингвистики . Проверено 20 июня 2012 г.

Литература [ править ]

  • Арнольд, DJ и др. (1993): Машинный перевод: вводное руководство.
  • Хатчинс, WJ (1986): Машинный перевод: прошлое, настоящее, будущее

Ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a5cc18ba24b8fbd5144439d7707d764f__1703640720
URL1:https://arc.ask3.ru/arc/aa/a5/4f/a5cc18ba24b8fbd5144439d7707d764f.html
Заголовок, (Title) документа по адресу, URL1:
Rule-based machine translation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)