СИНИЙ
BLEU ( дублёр двуязычной оценки ) — это алгоритм оценки качества текста, который был машинно переведен с одного естественного языка на другой. Качество считается соответствием между результатами работы машины и человека: «чем ближе машинный перевод к профессиональному человеческому переводу, тем он лучше» – это основная идея BLEU. [1] Изобретенный в IBM в 2001 году, BLEU стал одним из первых показателей , заявивших о высокой корреляции с человеческими суждениями о качестве. [2] [3] и остается одним из самых популярных автоматизированных и недорогих показателей.
Баллы рассчитываются для отдельных переведенных сегментов (обычно предложений) путем сравнения их с набором эталонных переводов хорошего качества. Затем эти оценки усредняются по всему корпусу, чтобы получить оценку общего качества перевода. Разборчивость или грамматическая правильность не учитываются. [4]
Выходные данные BLEU всегда представляют собой число от 0 до 1. Это значение указывает, насколько текст-кандидат похож на ссылочные тексты, причем значения ближе к 1 представляют более похожие тексты. Лишь немногие переводы, выполненные человеком, получат оценку 1, поскольку это будет означать, что кандидат идентичен одному из эталонных переводов. По этой причине нет необходимости набирать 1 балл. Поскольку существует больше возможностей для сопоставления, добавление дополнительных справочных переводов увеличит оценку BLEU. [5]
Математическое определение
[ редактировать ]Базовая настройка
[ редактировать ]Базовая первая попытка определить оценку BLEU потребует двух аргументов: строки-кандидата и список ссылочных строк . Идея в том, что должно быть близко к 1, когда похоже на , и близко к 0, если нет.
По аналогии, оценка BLEU похожа на то, как учитель языка пытается оценить качество перевода ученика. проверив, насколько точно он соответствует справочным ответам .
Поскольку при обработке естественного языка необходимо оценить большой набор строк-кандидатов, необходимо обобщить оценку BLEU на случай, когда имеется список из M строк-кандидатов (называемый « корпусом »). и для каждой строки-кандидата , список строк-кандидатов на ссылку .
Учитывая любую строку и любое целое число , мы определяем набор его n-грамм как Обратите внимание, что это набор уникальных элементов, а не мультимножество, допускающее избыточные элементы, так что, например, .
Учитывая любые две строки , определите количество подстрок быть количеством появлений как подстрока . Например, .
Теперь исправьте корпус кандидатов и справочный корпус кандидатов , где каждый .
Модифицированная точность n-грамм
[ редактировать ]Определите модифицированную функцию точности n-грамм, которая будет Модифицированная n-грамма, которая выглядит сложной, представляет собой просто прямое обобщение прототипного случая: одно предложение-кандидат и одно опорное предложение. В данном случае это Чтобы получить это выражение, мы начнем с наиболее очевидного суммирования количества n-грамм: Эта величина измеряет, сколько n-грамм в эталонном предложении воспроизводится предложением-кандидатом. Обратите внимание, что мы считаем n-подстрок , а не n-грамм . Например, когда , все 2-подстроки в (ab и ba) появляются в По 3 раза, поэтому счет 6, а не 2.
Однако в приведенной выше ситуации строка-кандидат слишком коротка. Вместо 3 выступлений он содержит только один, поэтому мы добавляем минимальную функцию, чтобы исправить это: Это суммирование счетчиков нельзя использовать для сравнения предложений, поскольку оно не нормализовано. Если и ссылка, и предложения-кандидаты длинные, количество может быть большим, даже если кандидат очень низкого качества. Итак, мы нормализуем это Нормализация такова, что это всегда число в , что позволяет проводить значимые сравнения между корпусами. Оно равно нулю, если ни одна из n-подстрок в кандидате не является ссылкой. Оно равно 1, если каждый n-грамм в кандидате появляется в ссылке по крайней мере столько же раз, сколько и в кандидате. В частности, если кандидат является подстрокой ссылки, то он равен единице.
Штраф за краткость
[ редактировать ]Измененная точность n-грамм неоправданно дает высокий балл для строк-кандидатов, которые являются « телеграфными », то есть содержащими все n-граммы ссылочных строк, но в минимально возможном количестве раз.
Чтобы наказывать слишком короткие строки-кандидаты, определите штраф за краткость , который будет где это положительная часть .
- Когда , штраф за краткость Это означает, что мы не наказываем длинных кандидатов, а наказываем только коротких кандидатов.
- Когда , штраф за краткость
длина корпуса кандидатов, т.е. где длина .
– эффективная длина эталонного корпуса , т.е. где , то есть предложение из длина которого максимально близка к насколько это возможно.
Окончательное определение BLEU
[ редактировать ]Не существует единого определения BLEU, а целое их семейство, параметризованное весовым вектором. . Это распределение вероятностей по , то есть, , и .
С выбором , оценка BLEU равна Проще говоря, это средневзвешенное геометрическое всех модифицированных точности n-грамм, умноженное на штраф за краткость. Мы используем взвешенное среднее геометрическое, а не среднее арифметическое, чтобы отдать предпочтение корпусам-кандидатам, которые одновременно хороши в соответствии с несколькими значениями точности n-грамм.
Наиболее типичным выбором, рекомендованным в оригинальной статье, является . [1]
Алгоритм
[ редактировать ]Это иллюстрируется следующим примером из Papineni et al. (2002):
Кандидат | тот | тот | тот | тот | тот | тот | тот |
---|---|---|---|---|---|---|---|
Ссылка 1 | тот | кот | является | на | тот | вместе с | |
Ссылка 2 | там | является | а | кот | на | тот | вместе с |
Из семи слов в возможном переводе все они встречаются в справочных переводах. Таким образом, тексту-кандидату присваивается униграммная точность:
где количество слов кандидата, которые встречаются в ссылке, и общее количество слов в кандидате. Это высший балл, несмотря на то, что приведенный выше вариант перевода сохраняет мало содержания любой из ссылок.
Модификация, которую делает BLEU, довольно проста. Для каждого слова в переводе-кандидате алгоритм берет максимальное общее количество, , в любом из справочных переводов. В приведенном выше примере слово «the» встречается дважды в ссылке 1 и один раз в ссылке 2. Таким образом, .
Для перевода-кандидата количество каждого слова обрезается до максимума за это слово. В данном случае «the» имеет и , таким образом обрезается до 2. Эти обрезанные значения затем суммируются по всем отдельным словам кандидата.Затем эта сумма делится на общее количество униграмм в переводе-кандидате. В приведенном выше примере модифицированная оценка точности униграмм будет следующей:
Однако на практике использование отдельных слов в качестве единицы сравнения не является оптимальным. Вместо этого BLEU вычисляет ту же модифицированную метрику точности, используя n-граммы . Длина, которая имеет «наибольшую корреляцию с одноязычными человеческими суждениями». [6] оказалось четыре. Установлено, что баллы униграмм учитывают адекватность перевода и объем сохраняемой информации. Более длинные баллы n -грамм определяют беглость перевода или то, насколько он читается как «хороший английский».
Модель | Набор граммов | Счет |
---|---|---|
Униграмма | «тот», «кот», «кошка» | |
Сгруппированная униграмма | «кот»*2, «кот»*1 | |
Биграм | «кот», «кот» |
Примером возможного перевода тех же ссылок, что и выше, может быть:
- кот
В этом примере модифицированная точность униграмм будет равна:
поскольку слово «the» и слово «cat» встречаются в кандидате по одному разу, а общее количество слов равно двум. Модифицированная точность биграмм будет равна как биграмма, «кот» появляется в кандидате один раз. Было отмечено, что точность обычно сочетается с отзывом . для решения этой проблемы [7] , так как вызов униграммы в этом примере будет или . Проблема в том, что, поскольку существует несколько переводов ссылок, плохой перевод может легко иметь завышенную запоминаемость, например, перевод, который состоит из всех слов в каждой из ссылок. [8]
Чтобы получить оценку для всего корпуса, модифицированные оценки точности для сегментов объединяются с использованием среднего геометрического , умноженного на штраф за краткость, чтобы предотвратить получение слишком высоких баллов кандидатами очень низкого роста. Пусть r — общая длина справочного корпуса, а c — общая длина корпуса переводов. Если , применяется штраф за краткость, определяемый как . (В случае нескольких эталонных предложений r принимается как сумма длин предложений, длина которых наиболее близка к длинам предложений-кандидатов. Однако в версии метрики, используемой в оценках NIST до 2009 г., вместо этого было использовано самое короткое справочное предложение.)
iBLEU — это интерактивная версия BLEU, которая позволяет пользователю визуально проверять баллы BLEU, полученные в результате возможных переводов. Это также позволяет сравнивать две разные системы в визуальной и интерактивной форме, что полезно при разработке системы. [9]
Производительность
[ редактировать ]Часто сообщается, что BLEU хорошо коррелирует с человеческими суждениями. [10] [11] [12] и остается эталоном для оценки любого нового показателя оценки. Однако был высказан ряд критических замечаний. Было отмечено, что, хотя в принципе BLEU способен оценивать переводы любого языка, он не может в своей нынешней форме работать с языками, в которых отсутствуют границы слов. [13] Предназначен для перевода нескольких ссылок, на практике используется только один. [2] BLEU печально известен тем, что зависит от техники токенизации , и результаты, полученные с помощью разных технологий, несопоставимы (что часто упускается из виду); Для улучшения воспроизводимости и сопоставимости был разработан вариант SacreBLEU. [2]
Утверждалось, что, хотя BLEU имеет значительные преимущества, нет никакой гарантии, что увеличение показателя BLEU является показателем улучшения качества перевода. [14]
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Папинени, К. и др. (2002)
- ^ Папинени, К. и др. (2002)
- ^ Кофлин, Д. (2003)
- ^ Папинени, К. и др. (2002)
- ^ Папинени, К. и др. (2002)
- ^ Папинени, К. и др. (2002)
- ^ Кофлин, Д. (2003)
- ^ Доддингтон, Г. (2002)
- ^ Денуаль, Э. и Лепаж, Ю. (2005)
- ^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
- ^ Ли, А. и Пшибоцкий, М. (2005)
- ^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
- ^ Лин, К. и Оч, Ф. (2004)
- ^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
- ^ Маднани, Н. (2011)
Ссылки
[ редактировать ]- ^ Папинени, Кишор; Рукос, Салим; Уорд, Тодд; Чжу, Вэй-Цзин (2001). «БЛЕУ» . Материалы 40-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '02 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 311. doi : 10.3115/1073083.1073135 . S2CID 11080756 .
- ^ Jump up to: а б «BLEU: неправильно понятый показатель из другой эпохи» . 5 ноября 2022 г.
Библиография
[ редактировать ]- Папинени, К.; Рукос, С.; Уорд, Т.; Чжу, WJ (2002). BLEU: метод автоматической оценки машинного перевода (PDF) . ACL-2002: 40-е ежегодное собрание Ассоциации компьютерной лингвистики. стр. 311–318. CiteSeerX 10.1.1.19.9416 .
- Папинени К., Рукос С., Уорд Т., Хендерсон Дж. и Ридер Ф. (2002). « Комплексная и диагностическая оценка MT на основе корпуса: первоначальные результаты на арабском, китайском, французском и испанском языках, архивированные 4 марта 2016 г. в Wayback Machine » в Proceedings of Human Language Technology, 2002, Сан-Диего, стр. 132–137.
- Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006) « Переоценка роли BLEU в исследованиях машинного перевода. Архивировано 4 декабря 2008 г. на Wayback Machine » на 11-й конференции Европейского отделения Ассоциация компьютерной лингвистики: EACL 2006, стр. 249–256.
- Доддингтон, Г. (2002) « Автоматическая оценка качества машинного перевода с использованием статистики совпадения n-грамм » в материалах конференции Human Language Technology Conference (HLT), Сан-Диего, Калифорния, стр. 128–132.
- Кофлин, Д. (2003) « Сопоставление автоматизированных и человеческих оценок качества машинного перевода. Архивировано 6 сентября 2008 г. в Wayback Machine » в MT Summit IX, Новый Орлеан, США, стр. 23–27.
- Денуаль Э. и Лепаж Ю. (2005) « BLEU в символах: к автоматической оценке MT в языках без разделителей слов. Архивировано 18 июля 2011 г. в Wayback Machine » в сопутствующем томе к материалам Второй международной совместной конференции по Обработка естественного языка, стр. 81–86.
- Ли А. и Пшибоцки М. (2005) Официальные результаты оценки машинного перевода NIST 2005 г.
- Лин, К. и Оч, Ф. (2004) « Автоматическая оценка качества машинного перевода с использованием самой длинной общей подпоследовательности и статистики пропуска биграмм, архивированных 5 июля 2008 г. в Wayback Machine » в материалах 42-го ежегодного собрания Ассоциации Компьютерная лингвистика .
- Маднани, Н. (2011). « iBLEU: интерактивная оценка и отладка систем статистического машинного перевода » в «Материалах пятой международной конференции IEEE по семантическим вычислениям (демо), Пало-Альто, Калифорния», стр. 213–214.