Корпус Европарла
Корпус Европарламента — это корпус (набор документов), который состоит из протоколов Европейского парламента с 1996 по 2012 год. В своем первом выпуске в 2001 году он охватывал одиннадцать официальных языков Европейского Союза (датский, голландский, английский, финский, французский, немецкий, греческий, итальянский, португальский, испанский и шведский). [1] С политическим расширением ЕС к корпусу данных были добавлены официальные языки десяти новых государств-членов. [1] Последний выпуск (2012 г.) [2] составляло до 60 миллионов слов на каждый язык, причем вновь добавленные языки были немного недопредставлены, поскольку данные по ним доступны только с 2007 года. Эта последняя версия включает 21 европейский язык: романский (французский, итальянский, испанский, португальский, румынский), германский (английский, голландский, немецкий, датский, шведский), славянский (болгарский, чешский, польский, словацкий, словенский), финно-угорский. (финский, венгерский, эстонский), балтийский (латышский, литовский) и греческий. [1]
Данные, составляющие корпус, были извлечены с сайта Европейского парламента, а затем подготовлены для лингвистического исследования. [1] После разделения предложений и токенизации предложения были выровнены по языкам с помощью алгоритма, разработанного Гейлом и Черчем (1993). [1]
Корпус был составлен и расширен группой исследователей под руководством Филиппа Кена из Эдинбургского университета. Изначально он был разработан для исследовательских целей в области статистического машинного перевода (SMT). Однако с момента своего первого выпуска он использовался для множества других исследовательских целей, включая, например, устранение неоднозначности смысла слов . EUROPARL также доступен для поиска через систему управления корпусом Sketch Engine . [3]
Europarl Corpus и статистический машинный перевод
[ редактировать ]В своей статье «Europarl: параллельный корпус статистического машинного перевода» [1] Кён подводит итог, насколько полезен корпус Europarl для исследований в области SMT . Он использует корпус для разработки систем SMT, переводя каждый язык на каждый из десяти других языков корпуса, что составляет 110 систем. Это позволяет Koehn создавать системы SMT для необычных языковых пар, которые не были заранее учтены разработчиками SMT, таких как, например, финский-итальянский.
Оценка качества
[ редактировать ]Корпус Europarl можно использовать не только для разработки систем SMT, но и для их оценки. Сопоставляя результаты работы систем с исходными данными корпуса для целевого языка, можно оценить адекватность перевода. Кён использует метрику BLEU Папинени и др. (2002) для этого, который подсчитывает совпадения двух сравниваемых версий — выходных данных SMT и корпусных данных — и на этой основе рассчитывает оценку. [4] Чем больше похожи две версии, тем выше оценка и, следовательно, качество перевода. [1] Результаты показывают, что некоторые системы SMT работают лучше, чем другие, например, испанско-французская (40,2) по сравнению с голландско-финской (10,3). [1] Кён утверждает, что причина этого в том, что родственные языки легче переводить друг на друга, чем те, которые не являются таковыми. [1]
Обратный перевод
[ редактировать ]Кроме того, Кён использует системы SMT и данные корпуса Europarl, чтобы выяснить, является ли обратный перевод адекватным методом оценки систем машинного перевода . Для каждого языка, кроме английского, он сравнивает баллы BLEU за перевод этого языка с английского языка и на него (например, английский > испанский, испанский > английский) с оценками, которые могут быть достигнуты путем сопоставления исходных английских данных с результатами, полученными при переводе с английского на каждый язык. язык и обратный перевод на английский (например, английский > испанский > английский). [1] Результаты показывают, что оценки за обратный перевод намного выше, чем за однонаправленный перевод, и, что более важно, они вообще не коррелируют с оценками за однонаправленный перевод. Например, однонаправленные баллы по английскому<>греческому (27,2 и 23,2) ниже, чем по английскому<>португальскому (30,1 и 27,2). Тем не менее, оценка обратного перевода 56,5 для греческого языка выше, чем для португальского языка, который получает 53,6. [1] Кён объясняет это тем, что ошибки, допущенные в процессе перевода, могут быть просто устранены обратным переводом, что приводит к большому количеству совпадений входных и выходных данных. [1] Это, однако, не позволяет делать какие-либо выводы о качестве текста на реальном целевом языке . [1] Поэтому Кён не считает обратный перевод адекватным методом оценки систем машинного перевода.
Примечания и ссылки
[ редактировать ]- ^ Перейти обратно: а б с д и ж г час я дж к л м Коэн, Филипп (2005): «Europarl: параллельный корпус статистического машинного перевода» , в: MT Summit , стр. 79–86.
- ^ Параллельный корпус заседаний Европейского парламента, 1996-2011 гг.
- ^ Килгаррифф, А., Байса, В., Бушта, Дж., Якубичек, М., Коварж, В., Мишельфейт, Дж., ... и Сухомель, В. (2014). Sketch Engine: десять лет спустя. Лексикография , 1(1), 7-36.
- ^ Папинени, Кишоре и др. (2002): «BLEU. Метод автоматической оценки машинного перевода» , в: Proceedings of the 40th Annual Meeting of Association of Computational Linguistics (ACL), стр. 311–318.
Внешние ссылки
[ редактировать ]- Домашняя страница Европарламента
- Europarl (v3 + v7) можно загрузить с сайта Opus corpora в формате TMX/Moses.
- Корпус Europarl в Sketch Engine – часть речи версии 7, помеченная с помощью инструмента TreeTagger