Jump to content

СИНИЙ

Это хорошая статья. Нажмите здесь для получения дополнительной информации.
(Перенаправлено с дублера двуязычной оценки )

BLEU ( дублёр двуязычной оценки ) — это алгоритм оценки качества текста, который был машинно переведен с одного естественного языка на другой. Качество считается соответствием между результатами работы машины и человека: «чем ближе машинный перевод к профессиональному человеческому переводу, тем он лучше» – это основная идея BLEU. [1] Изобретенный в IBM в 2001 году, BLEU стал одним из первых показателей , заявивших о высокой корреляции с человеческими суждениями о качестве. [2] [3] и остается одним из самых популярных автоматизированных и недорогих показателей.

Баллы рассчитываются для отдельных переведенных сегментов (обычно предложений) путем сравнения их с набором эталонных переводов хорошего качества. Затем эти оценки усредняются по всему корпусу, чтобы получить оценку общего качества перевода. Разборчивость или грамматическая правильность не учитываются. [4]

Выходные данные BLEU всегда представляют собой число от 0 до 1. Это значение указывает, насколько текст-кандидат похож на ссылочные тексты, причем значения ближе к 1 представляют более похожие тексты. Лишь немногие переводы, выполненные человеком, получат оценку 1, поскольку это будет означать, что кандидат идентичен одному из эталонных переводов. По этой причине нет необходимости набирать 1 балл. Поскольку существует больше возможностей для сопоставления, добавление дополнительных справочных переводов увеличит оценку BLEU. [5]


Математическое определение

[ редактировать ]

Базовая настройка

[ редактировать ]

Базовая первая попытка определить оценку BLEU потребует двух аргументов: строки-кандидата и список ссылочных строк . Идея в том, что должно быть близко к 1, когда похоже на , и близко к 0, если нет.

По аналогии, оценка BLEU похожа на то, как учитель языка пытается оценить качество перевода ученика. проверив, насколько точно он соответствует справочным ответам .

Поскольку при обработке естественного языка необходимо оценить большой набор строк-кандидатов, необходимо обобщить оценку BLEU на случай, когда имеется список из M строк-кандидатов (называемый « корпусом »). и для каждой строки-кандидата , список строк-кандидатов на ссылку .

Учитывая любую строку и любое целое число , мы определяем набор его n-грамм как Обратите внимание, что это набор уникальных элементов, а не мультимножество, допускающее избыточные элементы, так что, например, .

Учитывая любые две строки , определите количество подстрок быть количеством появлений как подстрока . Например, .

Теперь исправьте корпус кандидатов и справочный корпус кандидатов , где каждый .

Модифицированная точность n-грамм

[ редактировать ]

Определите модифицированную функцию точности n-грамм, которая будет Модифицированная n-грамма, которая выглядит сложной, представляет собой просто прямое обобщение прототипного случая: одно предложение-кандидат и одно опорное предложение. В данном случае это Чтобы получить это выражение, мы начнем с наиболее очевидного суммирования количества n-грамм: Эта величина измеряет, сколько n-грамм в эталонном предложении воспроизводится предложением-кандидатом. Обратите внимание, что мы считаем n-подстрок , а не n-грамм . Например, когда , все 2-подстроки в (ab и ba) появляются в По 3 раза, поэтому счет 6, а не 2.


Однако в приведенной выше ситуации строка-кандидат слишком коротка. Вместо 3 выступлений он содержит только один, поэтому мы добавляем минимальную функцию, чтобы исправить это: Это суммирование счетчиков нельзя использовать для сравнения предложений, поскольку оно не нормализовано. Если и ссылка, и предложения-кандидаты длинные, количество может быть большим, даже если кандидат очень низкого качества. Итак, мы нормализуем это Нормализация такова, что это всегда число в , что позволяет проводить значимые сравнения между корпусами. Оно равно нулю, если ни одна из n-подстрок в кандидате не является ссылкой. Оно равно 1, если каждый n-грамм в кандидате появляется в ссылке по крайней мере столько же раз, сколько и в кандидате. В частности, если кандидат является подстрокой ссылки, то он равен единице.

Штраф за краткость

[ редактировать ]

Измененная точность n-грамм неоправданно дает высокий балл для строк-кандидатов, которые являются « телеграфными », то есть содержащими все n-граммы ссылочных строк, но в минимально возможном количестве раз.

Чтобы наказывать слишком короткие строки-кандидаты, определите штраф за краткость , который будет где это положительная часть .

  • Когда , штраф за краткость Это означает, что мы не наказываем длинных кандидатов, а наказываем только коротких кандидатов.
  • Когда , штраф за краткость

длина корпуса кандидатов, т.е. где длина .

эффективная длина эталонного корпуса , т.е. где , то есть предложение из длина которого максимально близка к насколько это возможно.

Окончательное определение BLEU

[ редактировать ]

Не существует единого определения BLEU, а целое их семейство, параметризованное весовым вектором. . Это распределение вероятностей по , то есть, , и .

С выбором , оценка BLEU равна Проще говоря, это средневзвешенное геометрическое всех модифицированных точности n-грамм, умноженное на штраф за краткость. Мы используем взвешенное среднее геометрическое, а не среднее арифметическое, чтобы отдать предпочтение корпусам-кандидатам, которые одновременно хороши в соответствии с несколькими значениями точности n-грамм.

Наиболее типичным выбором, рекомендованным в оригинальной статье, является . [1]

Алгоритм

[ редактировать ]

Это иллюстрируется следующим примером из Papineni et al. (2002):

Пример плохого результата машинного перевода с высокой точностью
Кандидат тот тот тот тот тот тот тот
Ссылка 1 тот кот является на тот вместе с
Ссылка 2 там является а кот на тот вместе с

Из семи слов в возможном переводе все они встречаются в справочных переводах. Таким образом, тексту-кандидату присваивается униграммная точность:

где количество слов кандидата, которые встречаются в ссылке, и общее количество слов в кандидате. Это высший балл, несмотря на то, что приведенный выше вариант перевода сохраняет мало содержания любой из ссылок.

Модификация, которую делает BLEU, довольно проста. Для каждого слова в переводе-кандидате алгоритм берет максимальное общее количество, , в любом из справочных переводов. В приведенном выше примере слово «the» встречается дважды в ссылке 1 и один раз в ссылке 2. Таким образом, .

Для перевода-кандидата количество каждого слова обрезается до максимума за это слово. В данном случае «the» имеет и , таким образом обрезается до 2. Эти обрезанные значения затем суммируются по всем отдельным словам кандидата.Затем эта сумма делится на общее количество униграмм в переводе-кандидате. В приведенном выше примере модифицированная оценка точности униграмм будет следующей:

Однако на практике использование отдельных слов в качестве единицы сравнения не является оптимальным. Вместо этого BLEU вычисляет ту же модифицированную метрику точности, используя n-граммы . Длина, которая имеет «наибольшую корреляцию с одноязычными человеческими суждениями». [6] оказалось четыре. Установлено, что баллы униграмм учитывают адекватность перевода и объем сохраняемой информации. Более длинные баллы n -грамм определяют беглость перевода или то, насколько он читается как «хороший английский».

Сравнение показателей кандидата «кот»
Модель Набор граммов Счет
Униграмма «тот», «кот», «кошка»
Сгруппированная униграмма «кот»*2, «кот»*1
Биграм «кот», «кот»

Примером возможного перевода тех же ссылок, что и выше, может быть:

кот

В этом примере модифицированная точность униграмм будет равна:

поскольку слово «the» и слово «cat» встречаются в кандидате по одному разу, а общее количество слов равно двум. Модифицированная точность биграмм будет равна как биграмма, «кот» появляется в кандидате один раз. Было отмечено, что точность обычно сочетается с отзывом . для решения этой проблемы [7] , так как вызов униграммы в этом примере будет или . Проблема в том, что, поскольку существует несколько переводов ссылок, плохой перевод может легко иметь завышенную запоминаемость, например, перевод, который состоит из всех слов в каждой из ссылок. [8]

Чтобы получить оценку для всего корпуса, модифицированные оценки точности для сегментов объединяются с использованием среднего геометрического , умноженного на штраф за краткость, чтобы предотвратить получение слишком высоких баллов кандидатами очень низкого роста. Пусть r — общая длина справочного корпуса, а c — общая длина корпуса переводов. Если , применяется штраф за краткость, определяемый как . (В случае нескольких эталонных предложений r принимается как сумма длин предложений, длина которых наиболее близка к длинам предложений-кандидатов. Однако в версии метрики, используемой в оценках NIST до 2009 г., вместо этого было использовано самое короткое справочное предложение.)

iBLEU — это интерактивная версия BLEU, которая позволяет пользователю визуально проверять баллы BLEU, полученные в результате возможных переводов. Это также позволяет сравнивать две разные системы в визуальной и интерактивной форме, что полезно при разработке системы. [9]

Производительность

[ редактировать ]

Часто сообщается, что BLEU хорошо коррелирует с человеческими суждениями. [10] [11] [12] и остается эталоном для оценки любого нового показателя оценки. Однако был высказан ряд критических замечаний. Было отмечено, что, хотя в принципе BLEU способен оценивать переводы любого языка, он не может в своей нынешней форме работать с языками, в которых отсутствуют границы слов. [13] Предназначен для перевода нескольких ссылок, на практике используется только один. [2] BLEU печально известен тем, что зависит от техники токенизации , и результаты, полученные с помощью разных технологий, несопоставимы (что часто упускается из виду); Для улучшения воспроизводимости и сопоставимости был разработан вариант SacreBLEU. [2]

Утверждалось, что, хотя BLEU имеет значительные преимущества, нет никакой гарантии, что увеличение показателя BLEU является показателем улучшения качества перевода. [14]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Папинени, К. и др. (2002)
  2. ^ Папинени, К. и др. (2002)
  3. ^ Кофлин, Д. (2003)
  4. ^ Папинени, К. и др. (2002)
  5. ^ Папинени, К. и др. (2002)
  6. ^ Папинени, К. и др. (2002)
  7. ^ Кофлин, Д. (2003)
  8. ^ Доддингтон, Г. (2002)
  9. ^ Денуаль, Э. и Лепаж, Ю. (2005)
  10. ^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
  11. ^ Ли, А. и Пшибоцкий, М. (2005)
  12. ^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
  13. ^ Лин, К. и Оч, Ф. (2004)
  14. ^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
  15. ^ Маднани, Н. (2011)
  1. ^ Папинени, Кишор; Рукос, Салим; Уорд, Тодд; Чжу, Вэй-Цзин (2001). «БЛЕУ» . Материалы 40-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '02 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 311. doi : 10.3115/1073083.1073135 . S2CID   11080756 .
  2. ^ Jump up to: а б «BLEU: неправильно понятый показатель из другой эпохи» . 5 ноября 2022 г.

Библиография

[ редактировать ]
[ редактировать ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ffc63c975c242ff75012e23e7fa1991d__1722802620
URL1:https://arc.ask3.ru/arc/aa/ff/1d/ffc63c975c242ff75012e23e7fa1991d.html
Заголовок, (Title) документа по адресу, URL1:
BLEU - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)