ЗАЯЦ

LEPOR ( штраф за длину, точность в n-граммах , штраф за разницу и отзыв ) — это автоматический метрик оценки машинного перевода, не зависящий от языка, с настраиваемыми параметрами и усиленными коэффициентами.

Фон

Поскольку IBM предложила и реализовала систему BLEU ^[1] в качестве автоматической метрики для оценки машинного перевода (MT), ^[2] для его пересмотра или улучшения было предложено множество других методов, таких как TER, METEOR , ^[3] и т. д. Однако существуют некоторые проблемы в традиционных показателях автоматической оценки . Некоторые метрики хорошо работают на некоторых языках, но плохо на других языках, что обычно называют проблемой языковой предвзятости. Некоторые показатели основаны на множестве языковых особенностей или лингвистической информации, что затрудняет повторение экспериментов другими исследователями. LEPOR — это автоматический показатель оценки, который пытается решить некоторые существующие проблемы. ^[4] LEPOR разработан с использованием дополнительных коэффициентов и соответствующих настраиваемых параметров для решения проблемы языковой предвзятости. Более того, в улучшенной версии LEPOR, т.е. hLEPOR, ^[5] он пытается использовать оптимизированные лингвистические особенности, извлеченные из деревьев . Еще одна расширенная версия LEPOR — метрика nLEPOR. ^[6] который добавляет функции n-граммы к предыдущим факторам. На данный момент метрика LEPOR преобразована в серию LEPOR. ^[7]^[8]

Метрики LEPOR изучались и анализировались многими исследователями из разных областей, таких как машинный перевод, ^[9] поколение естественного языка , ^[10] и поиск, ^[11] и за его пределами. Метрики LEPOR привлекают все больше внимания научных исследователей в области обработки естественного языка .

Дизайн

ЗАЯЦ ^[4] разработан с учетом таких факторов, как повышенный штраф за длину, точность , штраф за порядок слов в n-граммах и отзыв . Повышенный штраф за длину гарантирует, что перевод гипотезы, который обычно переводится системами машинного перевода, будет наказываться, если он длиннее или короче эталонного перевода. Оценка точности отражает точность перевода гипотезы. Оценка отзыва отражает лояльность перевода гипотезы к эталонному переводу или исходному языку. Штрафной коэффициент порядка слов на основе n-грамм предназначен для различного порядка позиций между переводом гипотезы и переводом ссылки. Полезность штрафного коэффициента порядка слов была доказана многими исследователями, такими как работа Вонга и Кита (2008). ^[12]

В свете того, что метрики соответствия строк на поверхности слова подвергались критике из-за отсутствия синтаксиса и семантической осведомленности, дополнительно разработанная метрика LEPOR (hLEPOR) исследует интеграцию лингвистических функций, таких как часть речи (POS). ^[5]^[8] POS представлен как определенная функциональность как с синтаксической, так и с семантической точки зрения, например, если токен выходного предложения является глаголом, хотя ожидается, что он будет существительным, тогда должно быть наложено наказание; Кроме того, если POS тот же, но точное слово не то же самое, например, «хорошо» или «хорошо», тогда этот кандидат получит определенную оценку. Затем общий балл hLEPOR рассчитывается как комбинация баллов уровня слов и баллов уровня POS с набором весов. Знание n-грамм, вдохновленное языковым моделированием, также широко исследуется в nLEPOR. ^[6]^[8] В дополнение к знаниям n-грамм для расчета штрафа за разницу в положении n-грамм, n-грамма также применяется для точности n-грамм и отзыва n-грамм в nLEPOR, а параметр n является регулируемым коэффициентом. В дополнение к знаниям POS в hLEPOR, в новый вариант HPPR включена структура фраз, полученная из синтаксического анализа. ^[13] При моделировании оценки HPPR набор структур фразы, такой как именная фраза, глагольная фраза, предложная фраза, наречная фраза, учитывается во время сопоставления текста-кандидата с ссылочным текстом.

Программная реализация

Метрики LEPOR изначально были реализованы на языке программирования Perl. ^[14] и недавно версия Python ^[15] доступен другим исследователям и инженерам, ^[16] с сообщением для прессы ^[17] от компании Logrus Global Language Service.

Производительность

Серия LEPOR показала свои хорошие результаты на ежегодном международном семинаре ACL по статистическому машинному переводу ( ACL-WMT ). ACL-WMT проводится специальной группой по машинному переводу (SIGMT) Международной ассоциации компьютерной лингвистики (ACL). В ACL-WMT 2013 г. ^[18] существует два варианта перевода и оценки: с английского на другой и с другого на английский. «Другие» языки включают испанский , французский , немецкий , чешский и русский . В направлении «англо-другой» метрика nLEPOR достигает наивысшего показателя корреляции на системном уровне с человеческими суждениями с использованием коэффициента корреляции Пирсона, а также второго по величине показателя корреляции на системном уровне с человеческими суждениями с использованием коэффициента ранговой корреляции Спирмена . В направлении от другого к английскому nLEPOR показывает умеренные результаты, а METEOR дает самый высокий показатель корреляции с человеческими суждениями, что связано с тем, что nLEPOR использует только краткую языковую характеристику, информацию о части речи, за исключением официально предлагаемой данные обучения; однако METEOR использовал множество других внешних ресурсов, таких как словари синонимов , парафраз , стемминг и т. д.

Одна расширенная работа и введение о действиях LEPOR в различных условиях, включая чистую словесную форму, функции POS , функции фразовых тегов, описаны в диссертации Университета Макао . ^[8]

Существует глубокий статистический анализ производительности hLEPOR и nLEPOR в WMT13, который показывает, что он работает как один из лучших показателей «как при оценке индивидуальной языковой пары для испанско-английского, так и в агрегированном наборе из 9 языковых пар», см. документ (Точная оценка показателей машинного перевода на уровне сегментов) " https://www.aclweb.org/anthology/N15-1124 " Graham et al. NAACL, 2015 г. ( https://github.com/ygraham/segment-mteval )

Приложения

Автоматические ряды показателей LEPOR применялись и использовались многими исследователями из разных областей обработки естественного языка . Например, в стандартном MT и Neural MT. ^[19] Также за пределами сообщества MT, например, ^[11] применил LEPOR при оценке поиска; ^[20] упомянул применение LEPOR для оценки генерации кода (языка программирования); ^[10] исследовал автоматическую оценку генерации естественного языка ^[21] с метриками, включая LEPOR, и утверждал, что автоматические метрики могут помочь в оценках на уровне системы; также LEPOR применяется при оценке подписей к изображениям. ^[22]

См. также

Примечания

^ Папинени и др. (2002)
^ Он (2016)
^ Банерджи и Лави (2005)
^ Jump up to: ^а ^б Хан и др. (2012)
^ Jump up to: ^а ^б Хан и др. (2013а)
^ Jump up to: ^а ^б Хан и др. (2013б)
^ Хан и др. (2014)
^ Jump up to: ^а ^б ^с ^д Он (2014)
^ Грэм и др. (2015)
^ Jump up to: ^а ^б Novikova et al. (2017)
^ Jump up to: ^а ^б Лю и др. (2021)
^ Вонг и Кит (2008)
^ Он и др. (2013в)
^ «GitHub — aaronlifenghan/Aaron-project-lepor: LEPOR: надежная метрика оценки машинного перевода с дополнительными факторами» . Гитхаб . 8 января 2022 г.
^ «HLepor: это порт оригинального алгоритма Аарона Ли-Фэн Хана на Python» .
^ «GitHub — lHan87/LEPOR» . Гитхаб . 5 мая 2021 г.
^ Глобал, Логрус (30 апреля 2021 г.). «Logrus Global добавляет реализацию Python метрики оценки качества перевода hLEPOR на PyPi.org» . Слатор (Пресс-релиз) . Проверено 2 ноября 2022 г.
^ ACL-WMT (2013)
^ Марзук и Хансен-Ширра (2019)
^ Лигуори и др. (2021)
^ Челикилмаз и др. (2020)
^ Цю и др. (2020)

Ссылки

Папинени К., Рукос С., Уорд Т. и Чжу У.Дж. (2002). «BLEU: метод автоматической оценки машинного перевода» в ACL-2002: 40-е ежегодное собрание Ассоциации компьютерной лингвистики, стр. 311–318.
Хан, Альф, Вонг, Д.Ф. и Чао, Л.С. (2012) «LEPOR: надежная метрика оценки машинного перевода с дополненными факторами» в материалах 24-й Международной конференции по компьютерной лингвистике (COLING 2012): Плакаты, стр. 441– 450. Мумбаи, Индия. Интернет-документ Инструмент с открытым исходным кодом
Хан, Альф, Вонг, Д.Ф., Чао, Л.С., Хэ, Л., Лу, Ю., Син, Дж. и Цзэн, X. (2013a) «Языково-независимая модель для оценки машинного перевода с усиленными факторами» в материалах XIV Саммита по машинному переводу (MT SUMMIT 2013), стр. 215–222. Ницца, Франция. Издатель: Международная ассоциация машинного перевода. Интернет-документ. Архивировано 16 января 2019 г. на Wayback Machine. Инструмент с открытым исходным кодом.
Хан, Альф, Вонг, Д.Ф., Чао, Л.С., Лу, Ю., Хе, Л., Ван, Ю. и Чжоу, Дж. (2013b) «Описание настраиваемых систем оценки машинного перевода в задаче метрик WMT13» в Материалы восьмого семинара по статистическому машинному переводу, ACL-WMT13, София, Болгария. Ассоциация компьютерной лингвистики. Интернет-статья, стр. 414–421.
Хан, Аарон Л.-Ф.; Вонг, Дерек Ф.; Чао, Лидия С.; Он, Лянъе; Лу, Йи (2014). «Модель неконтролируемой оценки качества перевода с английского на немецкий язык и ее применение в расширенной контролируемой оценке» . Научный мировой журнал . 2014 : 1–12. дои : 10.1155/2014/760301 . ПМК 4032676 . ПМИД 24892086 .
ACL-WMT. (2013) « ЗАДАЧА МЕТРИКИ ACL-WMT13 »
Вонг, Б. ТМ, и Кит, К. (2008). «Выбор слова и положение слова для автоматической оценки машинного перевода» на семинаре: MetricsMATR Ассоциации машинного перевода Америки (AMTA) , краткая статья, Вайкики, США.
Банерджи С. и Лави А. (2005) «МЕТЕОР: Автоматическая метрика для оценки МП с улучшенной корреляцией с человеческими суждениями» в материалах семинара по внутренним и внешним мерам оценки МП и/или обобщения на 43-м ежегодном собрании Ассоциация компьютерной лингвистики (ACL-2005), Анн-Арбор, Мичиган, июнь 2005 г.
Хан, Лифенг. (2014) «LEPOR: расширенная метрика оценки машинного перевода». Диссертация на степень магистра наук в области разработки программного обеспечения. Университет Макао, Макао. [1] ППТ
Иветт Грэм, Тимоти Болдуин и Нитика Матур. (2015) Точная оценка показателей машинного перевода на уровне сегмента. В NAACL HLT 2015, Конференция Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка 2015 г., Денвер, Колорадо, США, 31 мая – 5 июня 2015 г., страницы 1183–1191.
Хан, Лифенг (2016). «Ресурсы и методы оценки машинного перевода: опрос». arXiv : 1605.04515 [ cs.CL ].
Екатерина Новикова, Ондрей Душек, Аманда Серкас Карри и Верена Ризер. (2017) Зачем нам нужны новые метрики оценки для NLG. В материалах конференции 2017 года по эмпирическим методам обработки естественного языка, страницы 2241–2252, Копенгаген, Дания. Ассоциация компьютерной лингвистики.
Лю, Цзэян; Чжоу, Кэ; Уилсон, Макс Л. (2021). «Метаоценка показателей оценки разговорного поиска». Транзакции ACM в информационных системах . 39 (4): 1–42. arXiv : 2104.13453 . дои : 10.1145/3445029 . S2CID 233423567 .
Лигуори, Пьетро; Аль-Хоссами, Эрфан; Котронео, Доменико; Нателла, Роберто; Чукич, Боян; Шейх, Самира (2021). «Shellcode_IA32: набор данных для автоматической генерации шеллкода». Материалы 1-го семинара по обработке естественного языка для программирования (NLP4Prog 2021) . стр. 58–64. arXiv : 2104.13100 . дои : 10.18653/v1/2021.nlp4prog-1.7 . S2CID 233407761 .
Челикилмаз, Аслы; Кларк, Элизабет; Гао, Цзяньфэн (2020). «Оценка генерации текста: опрос». arXiv : 2006.14799 [ cs.CL ].
Д. Цю, Б. Ротрок, Т. Ислам, А.К. Дидье, В.З. Сан… (2020) SCOTI: Научные субтитры к изображениям местности для определения приоритетности данных и локального поиска изображений. Планетарность и космос. Эльзевир
Марзук, Шаймаа; Хансен-Ширра, Сильвия (2019). «Оценка влияния управляемого языка на нейронный машинный перевод по сравнению с другими архитектурами MT». Машинный перевод . 33 (1–2): 179–203. doi : 10.1007/s10590-019-09233-w . S2CID 171094946 .
Хан, Аарон Ли-Фэн; Вонг, Дерек Ф.; Чао, Лидия С.; Он, Лянъе; Ли, Шуо; Чжу, Лин (2013). «Сопоставление набора тегов фраз для французских и английских деревьев и его применение при оценке машинного перевода». Языковая обработка и знания в Интернете . Конспекты лекций по информатике. Том. 8105. стр. 119–131. дои : 10.1007/978-3-642-40722-2_13 . ISBN 978-3-642-40721-5 .

Внешние ссылки

[1] Папинени и др. (2002)

[2] Он (2016)

[3] Банерджи и Лави (2005)

[auto1-4] Jump up to: ^а ^б Хан и др. (2012)

[auto2-5] Jump up to: ^а ^б Хан и др. (2013а)

[auto3-6] Jump up to: ^а ^б Хан и др. (2013б)

[7] Хан и др. (2014)

[auto4-8] Jump up to: ^а ^б ^с ^д Он (2014)

[9] Грэм и др. (2015)

[auto5-10] Jump up to: ^а ^б Novikova et al. (2017)

[auto-11] Jump up to: ^а ^б Лю и др. (2021)

[12] Вонг и Кит (2008)

[13] Он и др. (2013в)

[14] «GitHub — aaronlifenghan/Aaron-project-lepor: LEPOR: надежная метрика оценки машинного перевода с дополнительными факторами» . Гитхаб . 8 января 2022 г.

[15] «HLepor: это порт оригинального алгоритма Аарона Ли-Фэн Хана на Python» .

[16] «GitHub — lHan87/LEPOR» . Гитхаб . 5 мая 2021 г.

[17] Глобал, Логрус (30 апреля 2021 г.). «Logrus Global добавляет реализацию Python метрики оценки качества перевода hLEPOR на PyPi.org» . Слатор (Пресс-релиз) . Проверено 2 ноября 2022 г.

[18] ACL-WMT (2013)

[19] Марзук и Хансен-Ширра (2019)

[20] Лигуори и др. (2021)

[21] Челикилмаз и др. (2020)

[22] Цю и др. (2020)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]