Jump to content

МатеКэт

MateCat — это веб- инструмент для компьютерного перевода (CAT), выпущенный как программное обеспечение с открытым исходным кодом под лицензией Lesser General Public License (LGPL).

MateCat («Улучшенный машинный перевод с помощью компьютера») — это трехлетний исследовательский проект (ноябрь 2011 г. – октябрь 2014 г.), финансируемый Седьмой рамочной программой Европейского Союза по исследованиям, технологическим разработкам и демонстрации в рамках грантового соглашения № 287688. [ 1 ] Он получил более 2 500 000 евро европейских фондов. [ 2 ]

Консорциум проекта возглавил FBK ( Fondazione Bruno Kessler ), международный исследовательский центр, расположенный в Тренто, Италия , и включал в себя Translated , поставщика языковых решений на основе искусственного интеллекта, основанного Марко Тромбетти и Изабель Андрие, Университетом дю Мэн и Университетом Эдинбург .

CAT-инструменты

[ редактировать ]

Инструменты CAT обеспечивают доступ к памяти переводов (TM), терминологическим базам данных, инструментам согласования и, в последнее время, к механизмам машинного перевода (MT). Интеграция предложений движка MT в качестве дополнения к сопоставлениям TM мотивирована недавними исследованиями, [ 3 ] [ 4 ] [ 5 ] которые показали, что предложения MT после редактирования повышают уровень точности переводов.

MateCat упрощает редактирование результатов машинного перевода и управляет рабочим процессом локализации. Он использует знание специфического языка (например, юридической терминологии) для улучшения предложений по переводу, а также использует машинное обучение для автоматического улучшения предложений с течением времени. [ 6 ] Он предназначен для работы как в качестве инструмента для перевода, так и в качестве исследовательской платформы для интеграции новых функций машинного перевода, проведения экспериментов после редактирования и измерения производительности пользователей.

Технология

[ редактировать ]

Статистический МТ

[ редактировать ]

MateCat работает как веб-сервер, который соединяется с другими сервисами через открытые API: сервис TM MyMemory, [ 7 ] коммерческий сервис Google Translate (GT), ModernMT и список основанных на Моисее [ 8 ] службы, указанные в файле конфигурации. Хотя MyMemory и GT всегда доступны, серверы Моисея необходимо установить и настроить. Моисей позволяет MateCat расширить GT API для поддержки самонастраивающихся, адаптируемых к пользователю и информативных функций MT. Версия MateCat с открытым исходным кодом изначально поддерживает XLIFF. [ 9 ] формат файла, но конвертеры можно настроить для поддержки других форматов. Инструмент поддерживает кодировку Unicode (UTF-8), включая нелатинские алфавиты и языки с письмом справа налево, а также обрабатывает тексты, в которых встроены теги разметки. Он поддерживает согласования, терминологические базы данных и настраиваемые компоненты оценки качества, а также предоставляет API для набора инструментов Моисея, который можно настроить для языков и предметных областей.

поддержка МТ

[ редактировать ]

Инструмент поддерживает серверы на базе Моисея, способные обеспечить расширенную связь CAT-MT. В частности, API GT дополняется информацией обратной связи, предоставляемой механизму MT каждый раз, когда сегмент подвергается постредактированию, а также расширенными выходными данными MT, включая оценки достоверности, решетки слов и т. д. Разработанный сервер MT поддерживает многопоточность для обслуживания. несколько переводчиков, обрабатывает сегменты текста, включая теги, и адаптируется на основе постредактирования, выполняемого каждым пользователем. [ 10 ]

Контекстно-зависимый перевод

[ редактировать ]

MateCat также предоставляет предложения MT, которые соответствуют не только уже отредактированным сегментам, но и теоретически всему документу. Эта контекстная информация будет встроена в статистические модели и должна позволить лучше устранять неоднозначность, например, между лексическими альтернативами. Контекстные модели будут объединять информацию о повторяющихся терминах и выражениях, извлеченную в ходе анализа документа, с соответствующими выбранными и подтвержденными переводами, как только они станут доступны. В частности, ограничения перевода, связанные с анафорическими выражениями между предложениями и внутри предложений, синтаксическими соответствиями и лексической связностью, будут учитываться с помощью конкретных статистических моделей.

Обработка в реальном времени

[ редактировать ]

Основные компоненты традиционных систем МП, то есть перевод и языковые модели, как правило, статичны: они никогда не меняются после начального этапа обучения. Это означает, что они не подходят для динамической среды, подобной той, которую MateCat разрабатывает для переводчиков. Чтобы смоделировать динамические изменения, изображенные в двух предыдущих задачах, MateCat разработал инновационные структуры данных, которые можно быстро и эффективно обновлять, как только пользователь предоставляет новый перевод, а также инновационные и эффективные алгоритмы для выполнения этой адаптации в таких условиях. таким образом, чтобы весь процесс происходил в реальном времени и был прозрачен для переводчика. Более того, эффективность будет повышена за счет использования преимуществ многопоточности одного процессора, а также распределенных вычислительных средств, работающих в частных кластерах или компьютерных облаках.

Редактировать журнал

[ редактировать ]

Во время постредактирования инструмент собирает информацию о времени для каждого сегмента, которая обновляется каждый раз, когда сегмент открывается и закрывается. При этом для каждого сегмента собирается информация о сгенерированных предложениях и о том, которое реально было постредактировано. Эта информация доступна в любое время по ссылке на странице редактирования под названием «Журнал редактирования». На странице журнала редактирования (рис. 1) отображается сводная информация об общем редактировании, выполненном на данный момент в проекте, например, средняя скорость перевода и усилия после редактирования, а также процент лучших предложений, поступающих от MT или TM. При этом для каждого сегмента, отсортированного по скорости перевода от самого медленного к самому быстрому, сообщается подробная статистика о выполненных операциях редактирования. Эту информацию с еще более подробной информацией можно также загрузить в виде файла CSV для проведения более детального анализа после редактирования. Хотя информация, отображаемая на странице журнала редактирования, очень полезна для отслеживания хода проекта перевода в режиме реального времени, файл CSV является основным источником информации для детального анализа производительности после завершения проекта.

Приложения

[ редактировать ]

MateCat использовался проектом MateCat для исследования новых функций MT. [ 11 ] и оценить их в реальной профессиональной среде, где переводчики имеют в своем распоряжении все источники информации, с которыми они привыкли работать. Более того, благодаря своей гибкости и простоте использования, этот инструмент недавно использовался для сбора данных и в образовательных целях (курс по CAT-технологии для студентов, изучающих переводческое дело). Первоначальная версия инструмента также использовалась в проекте CasmaCat. [ 12 ] создать верстак, [ 13 ] особенно подходит для исследования расширенных методов взаимодействия, таких как интерактивный MT, отслеживание взгляда и рукописный ввод. В настоящее время этот инструмент используется бюро переводов Translated для своих внутренних переводческих проектов и тестируется несколькими международными компаниями, как поставщиками лингвистических услуг, так и ИТ-компаниями. Это позволило постоянно собирать отзывы от сотен переводчиков, что, помимо того, что помогает нам повысить надежность инструмента, также влияет на то, как будут интегрированы новые функции MT, чтобы обеспечить максимальную помощь конечному пользователю.


  1. ^ Хосе М. и Мачадо Б. (2014). Бесплатное программное обеспечение с открытым исходным кодом — хороший друг переводчика. 3. Получено с http://ec.europa.eu/translation/portuguese/magazine.
  2. ^ ЕВРОПЕЙСКАЯ КОМИССИЯ. (2017). РАБОЧИЙ ДОКУМЕНТ ПЕРСОНАЛА ЕВРОПЕЙСКОЙ КОМИССИИ ПРОМЕЖУТОЧНАЯ ОЦЕНКА ГОРИЗОНТА 2020 ГОДА ПРИЛОЖЕНИЕ 2 . Брюссель. Получено с http://ec.europa.eu/transparency/regdoc/rep/10102/2017/EN/SWD-2017-221-F1-EN-MAIN-PART-12.PDF.
  3. ^ Марчелло Федерико; Алессандро Каттелан; Марко Тромбетти (2012). «Измерение производительности пользователей при машинном переводе, улучшенном компьютерным переводом. В материалах десятой конференции Ассоциации машинного перевода Америки (AMTA) » (PDF) . Amta2012.amtaweb.org. Архивировано из оригинала (PDF) 30 октября 2014 года . Проверено 30 октября 2014 г.
  4. ^ Спенс Грин; Джеффри Хир; Кристофер Д. Мэннинг (2013). Эффективность человеческого постредактирования языкового перевода. В материалах конференции SIGCHI по человеческому фактору в вычислительных системах . Чи '13. Dl.acm.org. стр. 439–448. дои : 10.1145/2470654.2470718 . ISBN  9781450318990 . S2CID   119828 . Проверено 30 октября 2014 г.
  5. ^ Самуэль Ляубли; Марк Фишел; Гэри Мэсси; Морин Эренсбергер-Доу; Мартин Волк (2013). «Оценка эффективности постредактирования в реалистичной среде перевода. Мишель Симард Шэрон О'Брайен и Люсия Специя (ред.), редакторы, Труды XIV семинара MT Summit XIV по технологиям и практике постредактирования » (PDF) . Ницца, Франция: Mt-archive.info. стр. 83–91 . Проверено 30 октября 2014 г.
  6. ^ «МейтКэт» .
  7. ^ «MyMemory — это крупнейшая в мире память переводов (TM), созданная совместно с помощью машинного перевода и человеческого вклада» . Mymemory.translated.net . Проверено 30 октября 2014 г.
  8. ^ «Moses — самый популярный статистический инструментарий машинного перевода с открытым исходным кодом» . Statmt.org . Проверено 30 октября 2014 г.
  9. ^ «Docs.oasis-open.org» . Docs.oasis-open.org . Проверено 30 октября 2014 г.
  10. ^ Никола Бертольди, Мауро Четтоло и Марчелло Федерико. 2013. Онлайн-адаптация на основе кэша для улучшенного машинного перевода. В материалах саммита MT XIV , стр. 35–42, Ницца, Франция, сентябрь.
  11. ^ Бертольди и др., 2013; Четтоло и др., 2013; Турчи и др., 2013; Турчи и др., 2014 г.
  12. ^ «Casmacat.eu» . Casmacat.eu . Проверено 30 октября 2014 г.
  13. ^ Висент Алабау, Рагнар Бонк, Кристиан Бак, Майкл Карл, Франсиско Касакуберта, Мерседес Гарка-Мартинес, Хесус Гонсалес, Филипп Кён, Луис Лейва, Бартоломе Меса-Лао, Даниэль Орис, Эрве Сен-Аман, Герман Санчис и Чара Цюкала. 2013. Усовершенствованный компьютерный перевод с помощью веб-инструмента. В материалах семинара по технологиям и практике постредактирования , страницы 55–62.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ea47971d4fdfdbf2e49317a31bad5406__1714101780
URL1:https://arc.ask3.ru/arc/aa/ea/06/ea47971d4fdfdbf2e49317a31bad5406.html
Заголовок, (Title) документа по адресу, URL1:
MateCat - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)