Jump to content

Корпус Европарла

Корпус Европарламента — это корпус (набор документов), который состоит из протоколов Европейского парламента с 1996 по 2012 год. В своем первом выпуске в 2001 году он охватывал одиннадцать официальных языков Европейского Союза (датский, голландский, английский, финский, французский, немецкий, греческий, итальянский, португальский, испанский и шведский). [1] С политическим расширением ЕС к корпусу данных были добавлены официальные языки десяти новых государств-членов. [1] Последний выпуск (2012 г.) [2] составляло до 60 миллионов слов на каждый язык, причем вновь добавленные языки были немного недопредставлены, поскольку данные по ним доступны только с 2007 года. Эта последняя версия включает 21 европейский язык: романский (французский, итальянский, испанский, португальский, румынский), германский (английский, голландский, немецкий, датский, шведский), славянский (болгарский, чешский, польский, словацкий, словенский), финно-угорский. (финский, венгерский, эстонский), балтийский (латышский, литовский) и греческий. [1]

Данные, составляющие корпус, были извлечены с сайта Европейского парламента, а затем подготовлены для лингвистического исследования. [1] После разделения предложений и токенизации предложения были выровнены по языкам с помощью алгоритма, разработанного Гейлом и Черчем (1993). [1]

Корпус был составлен и расширен группой исследователей под руководством Филиппа Кена из Эдинбургского университета. Изначально он был разработан для исследовательских целей в области статистического машинного перевода (SMT). Однако с момента своего первого выпуска он использовался для множества других исследовательских целей, включая, например, устранение неоднозначности смысла слов . EUROPARL также доступен для поиска через систему управления корпусом Sketch Engine . [3]

Europarl Corpus и статистический машинный перевод

[ редактировать ]

В своей статье «Europarl: параллельный корпус статистического машинного перевода» [1] Кён подводит итог, насколько полезен корпус Europarl для исследований в области SMT . Он использует корпус для разработки систем SMT, переводя каждый язык на каждый из десяти других языков корпуса, что составляет 110 систем. Это позволяет Koehn создавать системы SMT для необычных языковых пар, которые не были заранее учтены разработчиками SMT, таких как, например, финский-итальянский.

Оценка качества

[ редактировать ]

Корпус Europarl можно использовать не только для разработки систем SMT, но и для их оценки. Сопоставляя результаты работы систем с исходными данными корпуса для целевого языка, можно оценить адекватность перевода. Кён использует метрику BLEU Папинени и др. (2002) для этого, который подсчитывает совпадения двух сравниваемых версий — выходных данных SMT и корпусных данных — и на этой основе рассчитывает оценку. [4] Чем больше похожи две версии, тем выше оценка и, следовательно, качество перевода. [1] Результаты показывают, что некоторые системы SMT работают лучше, чем другие, например, испанско-французская (40,2) по сравнению с голландско-финской (10,3). [1] Кён утверждает, что причина этого в том, что родственные языки легче переводить друг на друга, чем те, которые не являются таковыми. [1]

Обратный перевод

[ редактировать ]

Кроме того, Кён использует системы SMT и данные корпуса Europarl, чтобы выяснить, является ли обратный перевод адекватным методом оценки систем машинного перевода . Для каждого языка, кроме английского, он сравнивает баллы BLEU за перевод этого языка с английского языка и на него (например, английский > испанский, испанский > английский) с оценками, которые могут быть достигнуты путем сопоставления исходных английских данных с результатами, полученными при переводе с английского на каждый язык. язык и обратный перевод на английский (например, английский > испанский > английский). [1] Результаты показывают, что оценки за обратный перевод намного выше, чем за однонаправленный перевод, и, что более важно, они вообще не коррелируют с оценками за однонаправленный перевод. Например, однонаправленные баллы по английскому<>греческому (27,2 и 23,2) ниже, чем по английскому<>португальскому (30,1 и 27,2). Тем не менее, оценка обратного перевода 56,5 для греческого языка выше, чем для португальского языка, который получает 53,6. [1] Кён объясняет это тем, что ошибки, допущенные в процессе перевода, могут быть просто устранены обратным переводом, что приводит к большому количеству совпадений входных и выходных данных. [1] Это, однако, не позволяет делать какие-либо выводы о качестве текста на реальном целевом языке . [1] Поэтому Кён не считает обратный перевод адекватным методом оценки систем машинного перевода.

Примечания и ссылки

[ редактировать ]
  1. ^ Перейти обратно: а б с д и ж г час я дж к л м Коэн, Филипп (2005): «Europarl: параллельный корпус статистического машинного перевода» , в: MT Summit , стр. 79–86.
  2. ^ Параллельный корпус заседаний Европейского парламента, 1996-2011 гг.
  3. ^ Килгаррифф, А., Байса, В., Бушта, Дж., Якубичек, М., Коварж, В., Мишельфейт, Дж., ... и Сухомель, В. (2014). Sketch Engine: десять лет спустя. Лексикография , 1(1), 7-36.
  4. ^ Папинени, Кишоре и др. (2002): «BLEU. Метод автоматической оценки машинного перевода» , в: Proceedings of the 40th Annual Meeting of Association of Computational Linguistics (ACL), стр. 311–318.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 37cf1a9b2c3721392a46cd7164a229e7__1663228920
URL1:https://arc.ask3.ru/arc/aa/37/e7/37cf1a9b2c3721392a46cd7164a229e7.html
Заголовок, (Title) документа по адресу, URL1:
Europarl Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)