Оценка машинного перевода
различные методы оценки машинного перевода Использовались . В этой статье основное внимание уделяется оценке результатов машинного перевода , а не оценке производительности или удобства использования.
Перевод туда и обратно
[ редактировать ]Типичным способом для непрофессионалов оценить качество машинного перевода является перевод с исходного языка на целевой язык и обратно на исходный язык с помощью того же механизма. Хотя интуитивно это может показаться хорошим методом оценки, было показано, что двусторонний перевод является «плохим показателем качества». [1] Причина, по которой он так плохо предсказывает качество, вполне понятна. При переводе туда и обратно тестируется не одна система, а две системы: языковая пара движка для перевода на целевой язык и языковая пара, осуществляющая обратный перевод с целевого языка.
Рассмотрим следующие примеры обратного перевода с английского на итальянский и португальский из Somers (2005):
Исходный текст Выберите эту ссылку, чтобы просмотреть нашу домашнюю страницу. Переведено Выберите эту ссылку, чтобы просмотреть нашу домашнюю страницу. Переведено обратно Выбор этого соединения для просмотра нашей домашней страницы.
Исходный текст Око за око Переведено Око за око Переведено обратно Око за око
В первом примере, когда текст переводится на итальянский, а затем обратно на английский , английский текст существенно искажен, но итальянский перевод вполне годится. Во втором примере текст, переведенный обратно на английский, идеален, но перевод на португальский бессмыслен; программа думала, что «tit» — это ссылка на « tit» (птица) , которая предназначалась для слова «tat», слова, которого она не понимала.
Хотя двусторонний перевод может быть полезен для создания «избытка удовольствия», [2] методология недостаточна для серьезного изучения качества машинного перевода.
Человеческая оценка
[ редактировать ]В этом разделе рассматриваются два крупномасштабных оценочных исследования, которые оказали значительное влияние на данную область: исследование ALPAC 1966 года и исследование ARPA. [3]
Консультативный комитет по автоматической языковой обработке (ALPAC)
[ редактировать ]Одной из составных частей отчета ALPAC было исследование, сравнивающее различные уровни человеческого перевода с результатами машинного перевода, используя людей в качестве судей. Человеческие судьи были специально обучены для этой цели. В оценочном исследовании сравнивались система машинного перевода с русского на английский и переводчики-люди по двум переменным.
Изучаемыми переменными были «разборчивость» и «верность». Разборчивость была мерой того, насколько «понятным» было предложение, и измерялась по шкале от 1 до 9. Верность была мерой того, сколько информации сохранило переведенное предложение по сравнению с оригиналом, и измерялась по шкале от 0 до 9. Каждому пункту шкалы было присвоено текстовое описание. Например, 3 по шкале разборчивости описывалось как «В целом неразборчиво; обычно это читается как чепуха, но при значительном размышлении и изучении можно, по крайней мере, выдвинуть гипотезу о том, какую идею заключает в себе предложение». [4]
Разборчивость измерялась без привязки к оригиналу, а точность измерялась косвенно. Было представлено переведенное предложение, а после его прочтения и усвоения содержания было представлено исходное предложение. Судей попросили оценить первоначальный приговор по информативности. Таким образом, чем информативнее исходное предложение, тем ниже качество перевода.
Исследование показало, что переменные сильно коррелировали, когда человеческое суждение усреднялось по каждому человеку.предложение. Различия среди оценщиков были небольшими, но исследователи рекомендовали использовать как минимум трех или четырех оценщиков. Методика оценки позволила с легкостью отделить переводы, выполненные людьми, от переводов, выполненных машинами.
Исследование пришло к выводу, что «можно провести весьма надежную оценку качества человеческого и машинного перевода». [4]
Агентство перспективных исследовательских проектов (ARPA)
[ редактировать ]В рамках программы «Технологии человеческого языка» Агентство перспективных исследовательских проектов (ARPA) создало методологию оценки систем машинного перевода и продолжает проводить оценки на основе этой методологии. Программа оценки была начата в 1991 году и продолжается по сей день. Подробности программы можно найти у White et al. (1994) и Уайт (1995).
Программа оценки включала тестирование нескольких систем, основанных на различных теоретических подходах; статистический,основанные на правилах и с помощью человека. В 1992 году был опробован ряд методов оценки результатов работы этих систем, и самые последние подходящие методы были выбраны для включения в программы на последующие годы. Методы были; оценка понимания, оценка панели качества и оценка, основанная на адекватности и беглости речи.
Оценка понимания была направлена на прямое сравнение систем на основе результатов тестов на понимание с множественным выбором, как в Church et al. (1993). В качестве текстов были выбраны статьи на английском языке на тему финансовых новостей. Эти статьи были переведены профессиональными переводчиками на ряд языковых пар, а затем переведены обратно на английский язык с помощью систем машинного перевода. Было решено, что этого недостаточно для отдельного метода сравнения систем, и поэтому от него отказались из-за проблем с изменением значения в процессе перевода с английского.
Идея групповой оценки качества заключалась в том, чтобы представить переводы группе экспертов, носителей английского языка, которые были профессиональными переводчиками, и заставить их оценить их. Оценки проводились на основе показателя, смоделированного на основе стандартного показателя правительства США, используемого для оценки переводов, выполняемых человеком. Это было хорошо с той точки зрения, что метрика была «внешне мотивированной», [3] поскольку он не был специально разработан для машинного перевода. Однако групповую оценку качества было очень сложно организовать с материально-технической точки зрения, поскольку для этого требовалось собрать несколько экспертов в одном месте на неделю или более, а также для достижения ими консенсуса. От этого метода также отказались.
Наряду с модифицированной формой оценки понимания (переименованной в оценку информативности), наиболееПопулярным методом было получение оценок от судей, владеющих одним языком, по сегментам документа. Судьям был представлен сегмент и предложено оценить его по двум переменным: адекватность и беглость речи. Адекватность — это оценка того, сколько информации передается между оригиналом и переводом, а беглость — это оценка того, насколько хорош английский язык. Было обнаружено, что этот метод охватывает соответствующие части оценки качества комиссией, но в то же время его легче применять, поскольку он не требует экспертной оценки.
Системы измерения, основанные на адекватности и беглости, а также информативности, в настоящее время являются стандартной методологией дляПрограмма оценки ARPA. [5]
Автоматическая оценка
[ редактировать ]В контексте этой статьи метрика — это измерение. Метрика, которая оценивает результат машинного перевода, представляет качество результата. Качество перевода по своей сути субъективно, не существует объективного или поддающегося количественному измерению «хорошего». Следовательно, любой метрике необходимо присваивать показатели качества, чтобы они коррелировали с человеческим суждением о качестве. То есть метрика должна высоко оценивать переводы, которые люди оценивают высоко, и давать низкие оценки тем людям, которые дают низкие оценки. Человеческое суждение является эталоном для оценки автоматических показателей, поскольку конечными пользователями любого результата перевода являются люди.
Мерой оценки показателей является корреляция с человеческим суждением. Обычно это делается на двух уровнях, на уровне предложений, где оценки рассчитываются по метрике для набора переведенных предложений, а затем сопоставляются с человеческим суждением для тех же предложений. И на уровне корпуса, где баллы по предложениям суммируются как для человеческих суждений, так и для метрических суждений, а затем эти совокупные баллы коррелируют. Цифры корреляции на уровне предложений приводятся редко, хотя Banerjee et al. (2005) приводят цифры корреляции, которые показывают, что, по крайней мере для их показателей, корреляция на уровне предложений существенно хуже, чем корреляция на уровне корпуса.
Хотя это и не широко освещалось, было отмечено, что жанр или область текста влияет на корреляцию, получаемую при использовании метрик. Кофлин (2003) сообщает, что сравнение текста-кандидата с единственным эталонным переводом не оказывает негативного влияния на корреляцию показателей при работе с текстом ограниченной предметной области.
Даже если показатель хорошо коррелирует с человеческим суждением в одном исследовании одного корпуса, эта успешная корреляция может не распространиться на другой корпус. Хорошая производительность метрики для разных типов текста или доменов важна для возможности повторного использования метрики. Метрика, которая работает только для текста в определенном домене, полезна, но менее полезна, чем та, которая работает во многих доменах, поскольку создание новой метрики для каждой новой оценки или домена нежелательно.
Еще одним важным фактором полезности метрики оценки является наличие хорошей корреляции даже при работе с небольшими объемами данных, то есть предложениями-кандидатами и справочными переводами. Туриан и др. (2003) отмечают, что «любая мера оценки MT менее надежна при более коротких переводах», и показывают, что увеличение объема данных повышает надежность показателя. Однако они добавляют, что «... надежность более коротких текстов, состоящих из одного предложения или даже одной фразы, крайне желательна, поскольку надежная мера оценки MT может значительно ускорить исследовательский анализ данных». [6]
Банерджи и др. (2005) выделили пять атрибутов, которыми должна обладать хорошая автоматическая метрика; корреляция, чувствительность, последовательность, надежность и общность. Любая хорошая метрика должна тесно коррелировать с человеческим суждением, она должна быть последовательной и давать аналогичные результаты для одной и той же системы машинного перевода в аналогичном тексте. Он должен быть чувствительным к различиям между системами MT и надежным в том смысле, что системы MT, имеющие одинаковые оценки, должны работать одинаково. Наконец, метрика должна быть общей, то есть работать с разными текстовыми доменами , в широком спектре сценариев и задач МП.
Цель этого подраздела — дать обзор современного состояния автоматических показателей для оценки машинного перевода. [7]
СИНИЙ
[ редактировать ]BLEU был одним из первых показателей, сообщивших о высокой корреляции с человеческими суждениями о качестве.метрика в настоящее время является одной из самых популярных в этой области. Основная идея этого показателя заключается в том, что «чем ближемашинный перевод чем профессиональный человеческий перевод, тем он лучше». [8] Метрика вычисляет баллы для отдельных сегментов, обычно предложений, а затем усредняет эти баллы по всему корпусу для получения окончательного результата. Было показано, что оно сильно коррелирует с человеческими суждениями о качестве на уровне корпуса. [9]
BLEU использует модифицированную форму точности для сравнения возможного перевода с несколькими эталонными переводами. Этот показатель изменяет простую точность, поскольку известно, что системы машинного перевода генерируют больше слов, чем содержится в справочном тексте. Ни один другой показатель машинного перевода еще не смог существенно превзойти BLEU в отношении корреляции с человеческим суждением в языковых парах. [10]
НИСТ
[ редактировать ]Метрика NIST основана на метрике BLEU , но с некоторыми изменениями. Там, где BLEU просто вычисляет точность n-грамм, добавляя к каждому из них одинаковый вес, NIST также вычисляет, насколько информативна конкретная n-грамма . То есть, когда правильная n-грамма , чем реже эта n-грамма, тем больший вес ей присваивается. найдена [11] Например, если биграмма «на» правильно совпадает, она получает меньший вес, чем правильное совпадение биграммы «интересные вычисления», поскольку вероятность такого совпадения меньше. NIST также отличается от BLEU в расчете штрафа за краткость, поскольку небольшие изменения в длине перевода не так сильно влияют на общий балл.
Частота ошибок в словах
[ редактировать ]Коэффициент ошибок в словах (WER) — это показатель, основанный на расстоянии Левенштейна , где расстояние Левенштейна работает на уровне символов, WER — на уровне слов. Первоначально он использовался для измерения производительности систем распознавания речи , но также используется для оценки машинного перевода. Метрика основана на подсчете количества слов, которые различаются между фрагментом машинно переведенного текста и эталонным переводом.
Связанной метрикой является независимая от позиции частота ошибок в словах (PER), которая позволяет переупорядочивать слова и последовательности слов между переведенным текстом и эталонным переводом.
МЕТЕОР
[ редактировать ]Метрика METEOR предназначена для устранения некоторых недостатков, присущих метрике BLEU. Метрика основана на взвешенном гармоническом среднем значении точности униграмм и полноты униграмм. Этот показатель был разработан после исследования Лави (2004) значимости отзыва в показателях оценки. Их исследование показало, что показатели, основанные на запоминаемости, последовательно достигают более высокой корреляции, чем показатели, основанные только на точности, ср. BLEU и NIST. [12]
METEOR также включает в себя некоторые другие функции, отсутствующие в других метриках, такие как сопоставление синонимов, при котором вместо сопоставления только по точной словоформе метрика также сопоставляется по синонимам. Например, слово «хорошо» в ссылке, переведенное как «хорошо» в переводе, считается совпадением. Метрика также включает в себя стеммер, который лемматизирует слова и находит совпадения с лемматизированными формами. Реализация метрики является модульной, поскольку алгоритмы сопоставления слов реализованы в виде модулей, и можно легко добавлять новые модули, реализующие различные стратегии сопоставления.
ЗАЯЦ
[ редактировать ]Новая метрика оценки MT LEPOR была предложена как комбинация многих факторов оценки, включая существующие (точность, полнота) и модифицированные (штраф за длину предложения и штраф за порядок слов на основе n-грамм). Эксперименты были протестированы на восьми языковых парах из ACL-WMT2011, включая английский язык (испанский, французский, немецкий и чешский) и обратный, и показали, что LEPOR обеспечивает более высокую корреляцию на системном уровне с человеческими суждениями, чем некоторые существующие показатели, такие как как BLEU, Метеор-1.3, TER, AMBER и MP4IBM1. [13] В статье представлена расширенная версия метрики LEPOR, hLEPOR. [14] hLEPOR использует среднее гармоническое значение для объединения подфакторов разработанной метрики. Кроме того, они разрабатывают набор параметров для настройки весов подфакторов в соответствии с различными языковыми парами. Общая задача метрик ACL-WMT13 [15] Результаты показывают, что hLEPOR дает самый высокий показатель корреляции Пирсона с человеческим суждением в языковой паре английский-русский, а также самый высокий средний балл по пяти языковым парам (английский-немецкий, французский, испанский, чешский, русский). . Подробные результаты задачи метрик WMT13 представлены в статье. [16]
Обзоры методологий человеческой и автоматической оценки
[ редактировать ]Есть некоторые исследовательские работы по оценке машинного перевода, [17] [18] [19] где люди представили более подробную информацию о том, какие методы человеческой оценки они использовали и как они работают, например, разборчивость, точность, беглость, адекватность, понимание, информативность и т. д. Для автоматических оценок они также провели несколько четких классификаций, таких как методы лексического сходства, применение лингвистических признаков и подполя этих двух аспектов. Например, для лексического сходства он включает расстояние редактирования, точность, отзыв и порядок слов; Что касается языкового признака, то он делится на синтаксический признак и семантический признак соответственно. Некоторый современный обзор ручной и автоматической оценки перевода [20] представила недавно разработанные методологии оценки качества перевода (TQA), такие как краудсорсинговый интеллект , использование Amazon Mechanical Turk , тестирование статистической значимости, пересмотр традиционных критериев с помощью новых разработанных стратегий, а также оценка качества MT (QE), общие задачи от ежегодный семинар по МТ (WMT) [21] и соответствующие модели, которые не полагаются на справочные переводы, предлагаемые человеком.
См. также
[ редактировать ]- Сравнение приложений машинного перевода
- Удобство использования программного обеспечения для машинного перевода
Примечания
[ редактировать ]- ^ Сомерс (2005)
- ^ Гаспари (2006)
- ^ Jump up to: а б Уайт и др. (1994)
- ^ Jump up to: а б АЛЬПАК (1966)
- ^ Белый (1995)
- ^ Туриан и др. (2003)
- ^ Хотя эти показатели описаны как предназначенные для оценки машинного перевода, на практике они также могут использоваться для измерения качества человеческого перевода. Те же показатели использовались даже для обнаружения плагиата, подробнее см. Somers et al. (2006).
- ^ Папинени и др. (2002)
- ^ Папинени и др. (2002), Кофлин (2003)
- ^ Грэм и Болдуин (2014)
- ^ Доддингтон (2002)
- ^ Лави (2004)
- ^ Он (2012)
- ^ Хан и др. (2013а)
- ^ ACL-WMT (2013)
- ^ Хан и др. (2013б)
- ^ ЕвроМатрица. (2007).
- ^ Дорр и др. ()
- ^ Он (2016)
- ^ Хан и др. (2021)
- ^ «Конференция WMT — Главная» .
Ссылки
[ редактировать ]- Банерджи С. и Лави А. (2005) «МЕТЕОР: Автоматическая метрика для оценки МП с улучшенной корреляцией с человеческими суждениями» в материалах семинара по внутренним и внешним мерам оценки МП и/или обобщения на 43-м ежегодном собрании Ассоциация компьютерной лингвистики (ACL-2005), Анн-Арбор, Мичиган, июнь 2005 г.
- Черч К. и Хови Э. (1993) «Хорошие приложения для плохого машинного перевода». Машинный перевод , 8 стр. 239–258.
- Кофлин, Д. (2003) «Соотношение автоматизированных и человеческих оценок качества машинного перевода» в MT Summit IX, Новый Орлеан, США, стр. 23–27.
- Доддингтон, Г. (2002) «Автоматическая оценка качества машинного перевода с использованием статистики совпадения n-грамм». Материалы конференции по технологиям человеческого языка (HLT), Сан-Диего, Калифорния, стр. 128–132.
- Гаспари, Ф. (2006) «Посмотрите, кто переводит. Олицетворение, китайский шепот и развлечения с машинным переводом в Интернете» в материалах 11-й ежегодной конференции Европейской ассоциации машинного перевода
- Грэм, Ю. и Т. Болдуин. (2014) «Тестирование значимости повышенной корреляции с человеческими суждениями». Материалы EMNLP 2014, Доха, Катар
- Лави А., Сагае К. и Джаяраман С. (2004) «Значение отзыва в автоматических метриках для оценки MT» в материалах AMTA 2004, Вашингтон, округ Колумбия. сентябрь 2004 г.
- Папинени К., Рукос С., Уорд Т. и Чжу У.Дж. (2002). «BLEU: метод автоматической оценки машинного перевода» в ACL-2002: 40-е ежегодное собрание Ассоциации компьютерной лингвистики, стр. 311–318.
- Сомерс, Х. (2005) « Перевод туда и обратно: для чего он нужен? »
- Сомерс Х., Гаспари Ф. и Ана Ниньо (2006) «Обнаружение неправомерного использования бесплатного онлайн-машинного перевода студентами-лингвистами - особый случай обнаружения плагиата». Материалы 11-й ежегодной конференции Европейской ассоциации машинного перевода, Университет Осло (Норвегия), стр. 41–48.
- ALPAC (1966) «Языки и машины: компьютеры в переводе и лингвистике». Отчет Консультативного комитета по автоматической обработке языка, Отдел поведенческих наук, Национальная академия наук, Национальный исследовательский совет. Вашингтон, округ Колумбия: Национальная академия наук, Национальный исследовательский совет, 1966 г. (Публикация 1416).
- Туриан Дж., Шен Л. и Меламед И.Д. (2003) «Оценка машинного перевода и его оценка». Материалы IX саммита MT, Новый Орлеан, США, 2003 г., стр. 386–393.
- Уайт Дж., О'Коннелл Т. и О'Мара Ф. (1994) «Методологии оценки MT ARPA: эволюция, уроки и будущие подходы». Материалы 1-й конференции Ассоциации машинного перевода Америки. Колумбия, Мэриленд, стр. 193–205.
- Уайт, Дж. (1995) «Подходы к оценке MT черного ящика». Материалы MT Summit V
- Хан, Альф, Вонг, Д.Ф. и Чао, Л.С. (2012) «LEPOR: надежная метрика оценки машинного перевода с дополненными факторами» в материалах 24-й Международной конференции по компьютерной лингвистике (COLING 2012): Плакаты, Мумбаи, Индия. Инструмент с открытым исходным кодом, стр. 441–450.
- Хан, Альф, Вонг, Д.Ф., Чао, Л.С., Хэ, Л., Лу, Ю., Син, Дж. и Цзэн, X. (2013a) «Языково-независимая модель для оценки машинного перевода с усиленными факторами» в материалах XIV Саммита по машинному переводу, Ницца, Франция. Международная ассоциация машинного перевода. Инструмент с открытым исходным кодом
- ACL-WMT. (2013) « ЗАДАЧА МЕТРИКИ ACL-WMT13 »
- Хан, Альф, Вонг, Д.Ф., Чао, Л.С., Лу, Ю., Хе, Л., Ван, Ю. и Чжоу, Дж. (2013b) «Описание настраиваемых систем оценки машинного перевода в задаче метрик WMT13» в Материалы восьмого семинара по статистическому машинному переводу, ACL-WMT13, София, Болгария. Ассоциация компьютерной лингвистики. Интернет-статья, стр. 414–421.
- Хан, Лифенг (2016) «Ресурсы и методы оценки машинного перевода: опрос» в arXiv:1605.04515 [cs.CL] , [1], стр. 1–14, май 2016 г.
- ЕвроМатрикс. 2007. 1.3: Исследование оценки машинного перевода. Публичное распространение. Проект финансируется Европейским сообществом в рамках Шестой рамочной программы исследований и технологического развития.
- Бонни Дорр , Мэтт Сновер, Нитин Маднани. Часть 5. Оценка машинного перевода. Монтажер: Бонни Дорр. Глава книги.
- Хан, Лифенг, Джонс, Гарет и Смитон, Алан (2021) Оценка качества перевода: краткий обзор ручных и автоматических методов. [2] В: MoTra21: Семинар по моделированию перевода: переводология в эпоху цифровых технологий, @NoDaLiDa 2021. 19 страниц. Издатель: Ассоциация компьютерной лингвистики.
Дальнейшее чтение
[ редактировать ]- Архив машинного перевода: Тематический указатель: Публикации после 2000 г. Архивировано 6 февраля 2010 г. в Wayback Machine (см. «Оценка» ). подзаголовок
- Архив машинного перевода: Тематический указатель: Публикации до 2000 г. Архивировано 21 июня 2009 г. в Wayback Machine (см. «Оценка» ). подзаголовок
- Оценка машинного перевода: опрос: публикации до 2015 г.