Сравнение различных подходов к машинному переводу
![]() | Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( декабрь 2012 г. ) |
Алгоритмы машинного перевода (МП) можно классифицировать по принципу действия. MT может быть основан на наборе лингвистических правил или на больших корпусах уже существующих параллельных текстов . Методологии, основанные на правилах, могут заключаться в прямом дословном переводе или действовать через более абстрактное представление значения: представление либо специфичное для языковой пары, либо независимое от языка интерлингва . Корпоративные методологии основаны на машинном обучении и могут следовать конкретным примерам, взятым из параллельных текстов, или могут рассчитывать статистические вероятности для выбора предпочтительного варианта из всех возможных переводов.
Машинный перевод на основе правил и корпусов
[ редактировать ]Машинный перевод на основе правил (RBMT) создается на основе морфологического, синтаксического и семантического анализа как исходного, так и целевого языков. Корпусный машинный перевод (CBMT) создается на основе анализа двуязычных текстовых корпусов. Первое принадлежит области рационализма, второе — эмпиризма. Учитывая крупномасштабные и детализированные лингвистические правила, системы RBMT способны производить переводы с приемлемым качеством, но построение системы требует очень много времени и труда, поскольку такие лингвистические ресурсы необходимо создавать вручную, что часто называют проблема приобретения знаний . Более того, очень сложно исправить ввод или добавить в систему новые правила для генерации перевода. Напротив, добавление большего количества примеров в систему CBMT может улучшить систему, поскольку она основана на данных, хотя накопление и управление огромным массивом двуязычных данных также может быть дорогостоящим.
Прямой, трансферный и межъязыковой машинный перевод
[ редактировать ]
Прямой машинный перевод на основе переноса и методы межъязыкового машинного перевода относятся к RBMT, но различаются глубиной анализа исходного языка и степенью, в которой они пытаются достичь независимого от языка представления смысла или намерения между исходный и целевой языки. Их различия можно очевидно наблюдать через треугольник Вокуа (см. иллюстрацию), который иллюстрирует эти уровни анализа.
Начиная с самого поверхностного уровня внизу, непосредственный перенос осуществляется на уровне слов. В зависимости от поиска прямых соответствий между исходным языком и лексическими единицами целевого языка, DMT представляет собой подход к пословному переводу с некоторыми простыми грамматическими корректировками. Система DMT разработана для конкретной пары исходного и целевого языков, единицей перевода которой обычно является слово. Затем выполняется перевод представлений структуры и значения исходного предложения соответственно с помощью подходов синтаксического и семантического переноса.
Система машинного перевода на основе перевода включает в себя три этапа. На первом этапе проводится анализ исходного текста и преобразование его в абстрактные представления; второй этап преобразует их в эквивалентные представления, ориентированные на целевой язык; а третий генерирует окончательный целевой текст. Представление специфично для каждой языковой пары. Стратегию трансфера можно рассматривать как «практический компромисс между эффективным использованием ресурсов межъязыковых систем и простотой внедрения прямых систем».
Наконец, на межъязыковом уровне понятие переноса заменяется интерлингвой . IMT работает в два этапа: анализ текста на ИЯ в абстрактное универсальное независимое от языка представление значения, т.е. интерлингва, что является этапом анализа; генерирование этого значения с помощью лексических единиц и синтаксических конструкций ЯЯ, что является этапом синтеза. Теоретически, чем выше треугольник, тем меньше затрат на анализ и синтез. Например, чтобы перевести один SL в N TL, необходимо (1+N) шагов с использованием интерлингва по сравнению с N шагами перевода. Но для перевода всех языков при подходе IMT требуется всего 2N шагов по сравнению с N² при подходе TBMT, что является значительным сокращением. Хотя при использовании подхода IMT не требуется создавать компонент переноса для каждой языковой пары, определение интерлингва представляет собой большую трудность и даже, возможно, невозможно для более широкой области.
Статистический и машинный перевод на основе примеров
[ редактировать ]Статистический машинный перевод (SMT) генерируется на основе статистических моделей, параметры которых получены на основе анализа двуязычных текстовых корпусов. Первоначальная модель SMT, основанная на теореме Байеса , предложенная Брауном и др. придерживается мнения, что каждое предложение на одном языке является возможным переводом любого предложения на другой язык, и наиболее подходящим является перевод, которому система присваивает наибольшую вероятность. Машинный перевод на основе примеров (EBMT) характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основного знания, в котором перевод по аналогии является основной идеей. В EBMT есть четыре задачи: получение примеров, база примеров и управление ими, применение примеров и синтез.
Оба относятся к CBMT, иногда называемые MT, управляемыми данными, EBMT и SMT, имеют что-то общее, что отличает их от RBMT. Во-первых, они оба используют битовый текст в качестве основного источника данных. Во-вторых, они оба являются эмпирическими по принципу машинного обучения, а не рациональными по принципу написания правил лингвистами. В-третьих, их обоих можно улучшить, получив больше данных. В-четвертых, новые языковые пары можно разрабатывать, если это возможно, просто находя подходящие данные параллельного корпуса. Помимо этих сходств, имеются и некоторые различия. SMT по существу использует статистические данные, такие как параметры и вероятности, полученные из битового текста, при этом предварительная обработка данных имеет важное значение, и даже если входные данные находятся в обучающих данных, не гарантируется тот же перевод. Напротив, EBMT использует битовый текст в качестве основного источника данных, в котором предварительная обработка данных необязательна, и если входные данные находятся в наборе примеров, должен произойти тот же перевод.
Ссылки
[ редактировать ]- Нано Гоф и Энди Уэй. 2004. «Управляемый перевод на основе примеров». В материалах девятого семинара EAMT, Валлетта, Мальта, стр. 73–81.
- Жан, Сенелларт (2006). «Усиление системы машинного перевода, основанной на лингвистических правилах, с помощью корпусных подходов».
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - А, Ламперт (2004). «Интерлингва в машинном переводе». Технический отчет .
- Решеф, Шилон (2011). «Машинный перевод на основе перевода между морфологически богатыми и бедными ресурсами языками: пример иврита и арабского языка».
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - Сомерс, Х. (1999). «Обзорная статья: Машинный перевод на основе примеров». Машинный перевод . 14 (2): 113–157. дои : 10.1023/а:1008109312730 . S2CID 17733262 .
- Трухильо, А. (1999). Системы перевода: методы машинного перевода . Лондон: Спрингер. ISBN 9781447105879 .
- Энди, Уэй; Нано Гоф (2005). «Сравнение машинного перевода на основе примеров и статистического машинного перевода». Инженерия естественного языка .