СИНИЙ

BLEU ( дублёр двуязычной оценки ) — это алгоритм оценки качества текста, который был машинно переведен с одного естественного языка на другой. Качество считается соответствием между результатами работы машины и человека: «чем ближе машинный перевод к профессиональному человеческому переводу, тем он лучше» – это основная идея BLEU. ^[1] Изобретенный в IBM в 2001 году, BLEU стал одним из первых показателей , заявивших о высокой корреляции с человеческими суждениями о качестве. ^[2]^[3] и остается одним из самых популярных автоматизированных и недорогих показателей.

Баллы рассчитываются для отдельных переведенных сегментов (обычно предложений) путем сравнения их с набором эталонных переводов хорошего качества. Затем эти оценки усредняются по всему корпусу, чтобы получить оценку общего качества перевода. Разборчивость и грамматическая правильность не учитываются. ^[4]

Выходные данные BLEU всегда представляют собой число от 0 до 1. Это значение указывает, насколько текст-кандидат похож на ссылочные тексты, причем значения ближе к 1 представляют более похожие тексты. Лишь немногие переводы, выполненные человеком, получат оценку 1, поскольку это будет означать, что кандидат идентичен одному из эталонных переводов. По этой причине нет необходимости набирать 1 балл. Поскольку существует больше возможностей для сопоставления, добавление дополнительных справочных переводов увеличит оценку BLEU. ^[5]

Математическое определение

Базовая настройка

Базовая первая попытка определить оценку BLEU потребует двух аргументов: строки-кандидата ${\hat {y}}$ и список ссылочных строк $(y^{(1)},...,y^{(N)})$ . Идея в том, что $BLEU({\hat {y}};y^{(1)},...,y^{(N)})$ должно быть близко к 1, когда ${\hat {y}}$ похоже на $y^{(1)},...,y^{(N)}$ , и близко к 0, если нет.

По аналогии, оценка BLEU похожа на то, как учитель языка пытается оценить качество перевода ученика. ${\hat {y}}$ проверив, насколько точно он соответствует справочным ответам $y^{(1)},...,y^{(N)}$ .

Поскольку при обработке естественного языка необходимо оценить большой набор строк-кандидатов, необходимо обобщить оценку BLEU на случай, когда имеется список из M строк-кандидатов (называемый « корпусом »). $({\hat {y}}^{(1)},\cdots ,{\hat {y}}^{(M)})$ и для каждой строки-кандидата ${\hat {y}}^{(i)}$ , список строк-кандидатов на ссылку $S_{i}:=(y^{(i,1)},...,y^{(i,N_{i})})$ .

Учитывая любую строку $y=y_{1}y_{2}\cdots y_{K}$ и любое целое число $n\geq 1$ , мы определяем набор его n-грамм как $G_{n}(y)=\{y_{1}\cdots y_{n},y_{2}\cdots y_{n+1},\cdots ,y_{K-n+1}\cdots y_{K}\}$ Обратите внимание, что это набор уникальных элементов, а не мультимножество, допускающее избыточные элементы, так что, например, $G_{2}(abab)=\{ab,ba\}$ .

Учитывая любые две строки $s,y$ , определите количество подстрок $C(s,y)$ быть количеством появлений $s$ как подстрока $y$ . Например, $C(ab,abcbab)=2$ .

Теперь исправьте корпус кандидатов ${\hat {S}}:=({\hat {y}}^{(1)},\cdots ,{\hat {y}}^{(M)})$ и справочный корпус кандидатов $S=(S_{1},\cdots ,S_{M})$ , где каждый $S_{i}:=(y^{(i,1)},...,y^{(i,N_{i})})$ .

Модифицированная точность n-грамм

Определите модифицированную функцию точности n-грамм, которая будет $p_{n}({\hat {S}};S):={\frac {\sum _{i=1}^{M}\sum _{s\in G_{n}({\hat {y}}^{(i)})}\min(C(s,{\hat {y}}^{(i)}),\max _{y\in S_{i}}C(s,y))}{\sum _{i=1}^{M}\sum _{s\in G_{n}({\hat {y}}^{(i)})}C(s,{\hat {y}}^{(i)})}}$ Модифицированная n-грамма, которая выглядит сложной, представляет собой просто прямое обобщение прототипного случая: одно предложение-кандидат и одно опорное предложение. В данном случае это $p_{n}(\{{\hat {y}}\};\{y\})={\frac {\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\sum _{s\in G_{n}({\hat {y}})}C(s,{\hat {y}})}}$ Чтобы получить это выражение, мы начнем с наиболее очевидного суммирования количества n-грамм: $\sum _{s\in G_{n}({\hat {y}})}C(s,y)={\text{number of n-substrings in }}{\hat {y}}{\text{ that appear in }}y$ Эта величина измеряет, сколько n-грамм в эталонном предложении воспроизводится предложением-кандидатом. Обратите внимание, что мы считаем n-подстрок , а не n-грамм . Например, когда ${\hat {y}}=aba,y=abababa,n=2$ , все 2-подстроки в ${\hat {y}}$ (ab и ba) появляются в $y$ По 3 раза, поэтому счет 6, а не 2.

Однако в приведенной выше ситуации строка-кандидат слишком коротка. Вместо 3-х выступлений $ab$ он содержит только один, поэтому мы добавляем минимальную функцию, чтобы исправить это: ${\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}$ Это суммирование счетчиков нельзя использовать для сравнения предложений, поскольку оно не нормализовано. Если и ссылка, и предложения-кандидаты длинные, количество может быть большим, даже если кандидат очень низкого качества. Итак, мы нормализуем это ${\frac {\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\sum _{s\in G_{n}({\hat {y}})}C(s,{\hat {y}})}}$ Нормализация такова, что это всегда число в $[0,1]$ , что позволяет проводить значимые сравнения между корпусами. Оно равно нулю, если ни одна из n-подстрок в кандидате не является ссылкой. Оно равно 1, если каждый n-грамм в кандидате появляется в ссылке по крайней мере столько же раз, сколько и в кандидате. В частности, если кандидат является подстрокой ссылки, то он равен единице.

Штраф за краткость

Измененная точность n-грамм неоправданно дает высокий балл для строк-кандидатов, которые являются « телеграфными », то есть содержащими все n-граммы ссылочных строк, но в минимально возможном количестве раз.

Чтобы наказывать слишком короткие строки-кандидаты, определите штраф за краткость , который будет $BP({\hat {S}};S):=e^{-(r/c-1)^{+}}$ где $(r/c-1)^{+}=\max(0,r/c-1)$ это положительная часть $r/c-1$ .

Когда $r\leq c$ , штраф за краткость $BP=1$ Это означает, что мы не наказываем длинных кандидатов, а наказываем только коротких кандидатов.
Когда $r>c$ , штраф за краткость $BP=e^{1-r/c}$

$c$ длина корпуса кандидатов, т.е. $c:=\sum _{i=1}^{M}|{\hat {y}}^{(i)}|$ где $|y|$ длина $y$ .

$r$ – эффективная длина эталонного корпуса , т.е. $r:=\sum _{i=1}^{M}|y^{(i,j)}|$ где $y^{(i,j)}=\arg \min _{y\in S_{i}}||y|-|{\hat {y}}^{(i)}||$ , то есть предложение из $S_{i}$ длина которого максимально близка к $|{\hat {y}}^{(i)}|$ насколько это возможно.

Окончательное определение BLEU

Не существует единого определения BLEU, а целое их семейство, параметризованное весовым вектором. $w:=(w_{1},w_{2},\cdots )$ . Это распределение вероятностей по $\{1,2,3,\cdots \}$ , то есть, $\sum _{i=1}^{\infty }w_{i}=1$ , и $\forall i\in \{1,2,3,\cdots \},w_{i}\in [0,1]$ .

С выбором $w$ , оценка BLEU равна $BLEU_{w}({\hat {S}};S):=BP({\hat {S}};S)\cdot \exp \left(\sum _{n=1}^{\infty }w_{n}\ln p_{n}({\hat {S}};S)\right)$ Проще говоря, это средневзвешенное геометрическое всех модифицированных точности n-грамм, умноженное на штраф за краткость. Мы используем взвешенное среднее геометрическое, а не среднее арифметическое, чтобы отдать предпочтение корпусам-кандидатам, которые одновременно хороши в соответствии с несколькими значениями точности n-грамм.

Наиболее типичным выбором, рекомендованным в оригинальной статье, является $w_{1}=\cdots =w_{4}={\frac {1}{4}}$ . ^[1]

Алгоритм

Это иллюстрируется следующим примером из Papineni et al. (2002):

Пример плохого результата машинного перевода с высокой точностью
Кандидат	тот	тот	тот	тот	тот	тот	тот
Ссылка 1	тот	кот	является	на	тот	вместе с
Ссылка 2	там	является	а	кот	на	тот	вместе с

Из семи слов в возможном переводе все они встречаются в справочных переводах. Таким образом, тексту-кандидату присваивается униграммная точность:

P={\frac {m}{w_{t}}}={\frac {7}{7}}=1

где $~m$ количество слов кандидата, которые встречаются в ссылке, и $~w_{t}$ общее количество слов в кандидате. Это высший балл, несмотря на то, что приведенный выше вариант перевода сохраняет мало содержания любой из ссылок.

Модификация, которую делает BLEU, довольно проста. Для каждого слова в переводе-кандидате алгоритм берет максимальное общее количество, $~m_{max}$ , в любом из справочных переводов. В приведенном выше примере слово «the» встречается дважды в ссылке 1 и один раз в ссылке 2. Таким образом, $~m_{max}=2$ .

Для перевода-кандидата количество $m_{w}$ каждого слова обрезается до максимума $m_{max}$ за это слово. В данном случае «the» имеет $~m_{w}=7$ и $~m_{max}=2$ , таким образом $~m_{w}$ обрезается до 2. Эти обрезанные значения $~m_{w}$ затем суммируются по всем отдельным словам кандидата.Затем эта сумма делится на общее количество униграмм в переводе-кандидате. В приведенном выше примере модифицированная оценка точности униграмм будет следующей:

P={\frac {2}{7}}

Однако на практике использование отдельных слов в качестве единицы сравнения не является оптимальным. Вместо этого BLEU вычисляет ту же модифицированную метрику точности, используя n-граммы . Длина, которая имеет «наибольшую корреляцию с одноязычными человеческими суждениями». ^[6] оказалось четыре. Установлено, что баллы униграмм учитывают адекватность перевода и объем сохраняемой информации. Более длинные $баллы n$ -грамм определяют беглость перевода или то, насколько он читается как «хороший английский».

Сравнение показателей кандидата «кот»
Модель	Набор граммов	Счет
Униграмма	«тот», «кот», «кошка»	${\frac {1+1+1}{3}}=1$
Сгруппированная униграмма	«кот»2, «кот»1	${\frac {1+1}{2+1}}={\frac {2}{3}}$
Биграм	«кот», «кот»	${\frac {0+1}{2}}={\frac {1}{2}}$

Примером возможного перевода тех же ссылок, что и выше, может быть:

кот

В этом примере модифицированная точность униграмм будет равна:

P={\frac {1}{2}}+{\frac {1}{2}}={\frac {2}{2}}

поскольку слово «the» и слово «cat» встречаются в кандидате по одному разу, а общее количество слов равно двум. Модифицированная точность биграмм будет равна $1/1$ как биграмма, «кот» появляется в кандидате один раз. Было отмечено, что точность обычно сочетается с отзывом . для решения этой проблемы ^[7], так как вызов униграммы в этом примере будет $3/6$ или $2/7$ . Проблема в том, что, поскольку существует несколько переводов ссылок, плохой перевод может легко иметь завышенную запоминаемость, например, перевод, который состоит из всех слов в каждой из ссылок. ^[8]

Чтобы получить оценку для всего корпуса, модифицированные оценки точности для сегментов объединяются с использованием среднего геометрического , умноженного на штраф за краткость, чтобы предотвратить получение слишком высоких баллов кандидатами очень низкого роста. Пусть $r$ — общая длина корпуса ссылок, а $c —$ общая длина корпуса переводов. Если $c\leq r$ , применяется штраф за краткость, определяемый как $e^{(1-r/c)}$ . (В случае нескольких эталонных предложений $r$ принимается как сумма длин предложений, длина которых наиболее близка к длинам предложений-кандидатов. Однако в версии метрики, используемой в оценках NIST до 2009 г., вместо этого было использовано самое короткое справочное предложение.)

iBLEU — это интерактивная версия BLEU, которая позволяет пользователю визуально проверять баллы BLEU, полученные в результате возможных переводов. Это также позволяет сравнивать две разные системы в визуальной и интерактивной форме, что полезно при разработке системы. ^[9]

Производительность

Часто сообщается, что BLEU хорошо коррелирует с человеческими суждениями. ^[10]^[11]^[12] и остается эталоном для оценки любого нового показателя оценки. Однако был высказан ряд критических замечаний. Было отмечено, что, хотя в принципе BLEU способен оценивать переводы любого языка, он не может в своей нынешней форме работать с языками, в которых отсутствуют границы слов. ^[13] Предназначен для перевода нескольких ссылок, на практике используется только один. ^[2] BLEU печально известен тем, что зависит от техники токенизации , и результаты, полученные с помощью разных технологий, несопоставимы (что часто упускается из виду); Для улучшения воспроизводимости и сопоставимости был разработан вариант SacreBLEU. ^[2]

Утверждалось, что, хотя BLEU имеет значительные преимущества, нет никакой гарантии, что увеличение показателя BLEU является показателем улучшения качества перевода. ^[14]

См. также

Примечания

^ Папинени, К. и др. (2002)
^ Папинени, К. и др. (2002)
^ Кофлин, Д. (2003)
^ Папинени, К. и др. (2002)
^ Папинени, К. и др. (2002)
^ Папинени, К. и др. (2002)
^ Кофлин, Д. (2003)
^ Доддингтон, Г. (2002)
^ Денуаль, Э. и Лепаж, Ю. (2005)
^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
^ Ли, А. и Пшибоцкий, М. (2005)
^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
^ Лин, К. и Оч, Ф. (2004)
^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
^ Маднани, Н. (2011)

Ссылки

^ Папинени, Кишор; Рукос, Салим; Уорд, Тодд; Чжу, Вэй-Цзин (2001). «БЛЕУ» . Материалы 40-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '02 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 311. doi : 10.3115/1073083.1073135 . S2CID 11080756 .
^ Jump up to: ^а ^б «BLEU: неправильно понятый показатель из другой эпохи» . 5 ноября 2022 г.

Библиография

Папинени, К.; Рукос, С.; Уорд, Т.; Чжу, WJ (2002). BLEU: метод автоматической оценки машинного перевода (PDF) . ACL-2002: 40-е ежегодное собрание Ассоциации компьютерной лингвистики. стр. 311–318. CiteSeerX 10.1.1.19.9416 .
Папинени К., Рукос С., Уорд Т., Хендерсон Дж. и Ридер Ф. (2002). « Комплексная и диагностическая оценка MT на основе корпуса: первоначальные результаты на арабском, китайском, французском и испанском языках, заархивированные 4 марта 2016 г. в Wayback Machine » в Proceedings of Human Language Technology, 2002, Сан-Диего, стр. 132–137.
Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006) « Переоценка роли BLEU в исследованиях машинного перевода. Архивировано 4 декабря 2008 г. на Wayback Machine » на 11-й конференции Европейского отделения Ассоциация компьютерной лингвистики: EACL 2006, стр. 249–256.
Доддингтон, Г. (2002) « Автоматическая оценка качества машинного перевода с использованием статистики совпадения n-грамм » в материалах конференции Human Language Technology Conference (HLT), Сан-Диего, Калифорния, стр. 128–132.
Кофлин, Д. (2003) « Сопоставление автоматизированных и человеческих оценок качества машинного перевода. Архивировано 6 сентября 2008 г. в Wayback Machine » в MT Summit IX, Новый Орлеан, США, стр. 23–27.
Денуаль, Э. и Лепаж, Ю. (2005) « BLEU в символах: к автоматической оценке MT в языках без разделителей слов. Архивировано 18 июля 2011 г. в Wayback Machine » в сопутствующем томе к материалам Второй международной совместной конференции по Обработка естественного языка, стр. 81–86.
Ли А. и Пшибоцкий М. (2005) Официальные результаты оценки машинного перевода NIST 2005 г.
Лин, К. и Оч, Ф. (2004) « Автоматическая оценка качества машинного перевода с использованием самой длинной общей подпоследовательности и статистики пропуска биграмм, архивированных 5 июля 2008 г. в Wayback Machine » в материалах 42-го ежегодного собрания Ассоциации Компьютерная лингвистика .
Маднани, Н. (2011). « iBLEU: интерактивная оценка и отладка систем статистического машинного перевода » в «Материалах пятой международной конференции IEEE по семантическим вычислениям (демо), Пало-Альто, Калифорния», стр. 213–214.

Внешние ссылки

BLEU — Лекция дублера двуязычной оценки по курсу машинного перевода Технологического института Карлсруэ , Coursera

[1] Папинени, Кишор; Рукос, Салим; Уорд, Тодд; Чжу, Вэй-Цзин (2001). «БЛЕУ» . Материалы 40-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '02 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 311. doi : 10.3115/1073083.1073135 . S2CID 11080756 .

[Marie-2] Jump up to: ^а ^б «BLEU: неправильно понятый показатель из другой эпохи» . 5 ноября 2022 г.

[1]

[2]

v т и машинного обучения Метрики оценки
Регрессия	МШЭ ЕСТЬ СМАПЕ КАРТА МАССЫ MSPE среднеквадратичное значение RMSE/RMSD Р ² МДА БЕЗУМНЫЙ
Классификация	F-оценка П4 Точность Точность Отзывать Каппа МСС АУК РПЦ Чувствительность и специфичность Логарифмическая потеря
Кластеризация	Силуэт Индекс Калинского-Харабаша Дэвис-Булден Индекс Данна Статистика Хопкинса Индекс Жаккара Индекс Рэнда Мера сходства СМК СимХэш
Рейтинг	МРР НДЦГ АП
Компьютерное зрение	ПСНР ДА долг
НЛП	Растерянность СИНИЙ
Метрики, связанные с глубоким обучением	Начальный счет ДОВЕРЯТЬ
Рекомендательная система	Покрытие Внутрисписочное сходство
Сходство	Косинусное подобие Евклидово расстояние Коэффициент корреляции Пирсона
Матрица путаницы