Интерактивный машинный перевод
Интерактивный машинный перевод ( IMT ) — это особая подобласть компьютерного перевода . В соответствии с этой перевода парадигмой компьютерное программное обеспечение , помогающее переводчику-человеку, пытается предсказать текст, который пользователь собирается ввести, принимая во внимание всю имеющуюся у него информацию. Всякий раз, когда такой прогноз неверен и пользователь предоставляет обратную связь системе, выполняется новый прогноз с учетом новой доступной информации. Такой процесс повторяется до тех пор, пока предоставленный перевод не будет соответствовать ожиданиям пользователя.
Интерактивный машинный перевод особенно интересен при переводе текстов в доменах, где недопустимо выводить перевод, содержащий ошибки, и, следовательно, требует от пользователя-человека вносить поправки в переводы, предоставляемые системой. Доказано, что в таких случаях интерактивный машинный перевод приносит пользу потенциальным пользователям. [1] [2] [3] Тем не менее, существует немного коммерческого программного обеспечения , реализующего интерактивный машинный перевод, и работы, проводимые в этой области, в основном ограничиваются академическими исследованиями .
История
[ редактировать ]Исторически интерактивный машинный перевод зародился как эволюция парадигмы компьютерного перевода , в которой переводчик-человек и система машинного перевода должны были работать в тандеме . [4] Эта первая работа была продолжена в рамках исследовательского проекта TransType, финансируемого правительством Канады. В этом проекте человеческое взаимодействие было впервые направлено на создание целевого текста путем внедрения методов машинного перевода, управляемых данными , в среду интерактивного перевода с целью достижения наилучшего результата от обоих участников: эффективности автоматической системы и производительности. надежность переводчиков-людей.
Позже был реализован более масштабный исследовательский проект TransType2. [1] [3] финансируемый Европейской комиссией, расширил эту работу, проанализировав включение в процесс полной системы машинного перевода , с целью создания полной гипотезы перевода, которую пользователь-человек может изменить или принять. Если пользователь решает изменить гипотезу, система пытается наилучшим образом использовать такую обратную связь , чтобы создать новую гипотезу перевода, учитывающую изменения, внесенные пользователем.
Совсем недавно CASMACAT, [5] также финансируемый Европейской комиссией , направленный на разработку новых видов помощи переводчикам-людям и интеграцию их в новую рабочую среду, состоящую из редактора, сервера и инструментов анализа и визуализации. Инструментарий спроектирован по модульному принципу и может комбинироваться с существующими инструментами компьютерного перевода. Кроме того, рабочая среда CASMACAT может учиться на основе взаимодействия с человеком-переводчиком, мгновенно обновляя и адаптируя свои модели в зависимости от вариантов перевода, выбранных пользователем. [6] [7]
Недавняя работа по проведению обширной оценки с участием пользователей-людей. [8] выявил тот факт, что интерактивный машинный перевод может использоваться даже пользователями, не говорящими на исходном языке, для достижения качества перевода, близкого к профессиональному. Более того, это также прояснило тот факт, что интерактивный сценарий более полезен, чем классический сценарий после издания.
Ранее описанные подходы основаны на тесно связанной базовой системе машинного перевода на основе корпусов (обычно статистической системе машинного перевода ), которая используется в качестве « стеклянного ящика» , таким образом, наследуя недостатки систем перевода и ограничивая использование интерактивного машинного перевода для некоторые сценарии. По этой причине был разработан подход, который использует любой вид двуязычного ресурса (не ограничиваясь машинным переводом) в качестве « черного ящика» для обеспечения интерактивного машинного перевода. [9] Этот подход не способен извлечь столько информации из используемых двуязычных ресурсов из-за характера взаимодействия «черный ящик», но может использовать любой ресурс, доступный пользователю. Forecat — это реализация интерактивного машинного перевода «черного ящика», доступная как в виде веб-приложения (включающего веб-страницу и интерфейс веб-служб), так и в виде плагина для OmegaT (Forecat-OmegaT).
Процесс
[ редактировать ]Процесс интерактивного машинного перевода начинается с того, что система предлагаетгипотеза перевода пользователю. Затем пользователь может принять полнуюпредложение как правильное или может изменить его, если считает, что в нем есть какая-то ошибка.Обычно при изменении данного слова предполагается, что префикс доэто слово правильное, что приводит к схеме взаимодействия слева направо. Как толькопользователь изменил слово, которое считается неправильным, тогда система предлагает новоесуффикс, т.е. оставшаяся часть предложения. Такой процесс продолжается до тех пор, покапредоставленный перевод удовлетворяет пользователя.
Хотя предыдущий процесс объясняется на уровне слов, предыдущий процесс также может быть реализован на уровне символов, и, следовательно, система предоставляет суффикс всякий раз, когда человек-переводчик вводит один символ. Кроме того, постоянно предпринимаются усилия по изменению типичной схемы взаимодействия слева направо, чтобы упростить взаимодействие человека и машины . [10] [11]
Похожий подход используется в инструменте перевода Caitra .
Оценка
[ редактировать ]Оценка — сложная проблема в интерактивном машинном переводе. В идеале,оценка должна проводиться в экспериментах с участием людей. Однако,учитывая высокие денежные затраты, которые это повлечет за собой, такое случается редко.Более того, даже если рассматривать возможность использования переводчиков-людей для выполнения настоящегооценка методов интерактивного машинного перевода, неясно, чтоследует измерять в таких экспериментах, поскольку существует много различныхпеременные, которые следует принимать во внимание и которые нельзя контролировать, как например, время, которое требуется пользователю, чтобы привыкнуть к процессу.В рамках проекта CASMACAT были проведены полевые испытания для изучения некоторых из этих переменных. [12] [13] [14]
Для быстрой оценки в лабораторных условиях интерактивный машинный перевод измеряется с помощью коэффициента нажатия клавиш или коэффициента нажатия слов . Такие критерии пытаются измерить, сколько нажатий клавиш или слов нужно было ввести пользователю, прежде чем создать окончательный переведенный документ. [3]
Отличия от классического автоматизированного перевода
[ редактировать ]Хотя интерактивный машинный перевод является подобластью компьютерного перевода , главной привлекательностью первого по сравнению со вторым является интерактивность. В классическом автоматизированном переводе система перевода в лучшем случае может предложить одну гипотезу перевода, а затем пользователю необходимо отредактировать такую гипотезу. Напротив, при интерактивном машинном переводе система выдает новую гипотезу перевода каждый раз, когда пользователь взаимодействует с системой, т. е. после введения каждого слова (или буквы).
См. также
[ редактировать ]- Машинный перевод
- Статистический машинный перевод
- Компьютерный перевод
- Компьютерная лингвистика
- Постредактирование
- Перевод
Ссылки
[ редактировать ]- ^ Jump up to: а б Касакуберта, Франциско; Чивера, Хорхе; Кубель, Эльза; Лагарда, Антонио Л.; Лапальме, Гай; Маклович, Эллиотт; Видаль, Энрике (2009). «Человеческое взаимодействие для высококачественного машинного перевода» (PDF) . Коммуникации АКМ . 52 (10): 135–138. дои : 10.1145/1562764.1562798 . Архивировано из оригинала (PDF) 6 июля 2011 г.
- ^ Хербиг, Нико; Пал, Сантану; ван Генабит, Йозеф; Крюгер, Антонио (2019). «Интеграция искусственного и человеческого интеллекта для эффективного перевода». arXiv : 1903.02978 [ cs.HC ].
- ^ Jump up to: а б с Баррачина, Серджио; Бендер, Оливер; Касакуберта, Франциско; Чивера, Хорхе; Кубель, Эльза Хадиви, Шахрам; Лагарда, Антонио Л.; Ней, Герман; Фома, Иисус; Видаль, Энрике (2009). «Статистические подходы к компьютерному переводу» (PDF) . Компьютерная лингвистика . 25 (1): 3–28. дои : 10.1162/coli.2008.07-055-r2-06-29 .
- ^ Фостер, Джордж; Изабель, Пьер; Пламондон, Пьер (1997). «Интерактивный машинный перевод с использованием целевого текста». Машинный перевод . 12 (1): 175–194. дои : 10.1023/а:1007999327580 .
- ^ Алабау, Висент; Бак, Кристиан; Карл, Майкл; Касакуберта, Франциско; Гарсия-Мартинес, «Мерседес»; Германн, Ульрих; Гонсалес-Рубио, Хесус; Хилл, Робин; Коэн, Филипп; Лейва, Луис; Меса-Лао, Барто; Ортис, Дэниел; Сен-Аман, Эрве; Санчис, немец; Цукала, Чара (апрель 2014 г.). «CASMACAT: компьютерная среда перевода» (PDF) . Материалы 14-й конференции Европейского отделения Ассоциации компьютерной лингвистики . Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. стр. 25–28.
- ^ Ортис-Мартинес, Даниэль; Гарсиа-Вареа, Исмаэль; Касакуберта, Франциско (июнь 2010 г.). «Онлайн-обучение интерактивному статистическому машинному переводу» (PDF) . Технологии человеческого языка: Ежегодная конференция Североамериканского отделения ACL 2010 года . Ассоциация компьютерной лингвистики. стр. 546–554.
- ^ Мартинес-Гомес, Паскуаль; Санчис-Триллес, немец; Касакуберта, Франциско (сентябрь 2012 г.). «Стратегии онлайн-адаптации статистического машинного перевода в сценариях постредактирования». Распознавание образов . 45 (9). Эльзевир: 3193–3203. дои : 10.1016/j.patcog.2012.01.011 . hdl : 10251/37324 .
- ^ Коэн, Филипп (июнь 2010 г.). «Включение одноязычных переводчиков: постредактирование и варианты» (PDF) . Технологии человеческого языка: Ежегодная конференция Североамериканского отделения Ассоциации компьютерной лингвистики (HLT/NAACL) 2010 г. Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. стр. 537–545.
- ^ Хуан Антонио, Перес-Ортис; Торрегроса, Дэниел; Форкада, Микель (2014). «Интеграция разнородных двуязычных ресурсов методом черного ящика в интерактивную систему перевода» . Материалы семинара EACL 2014 по человеческому и компьютерному переводу . Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. стр. 57–65.
- ^ Санчис-Трильес, Герман; Ортис-Мартинес, Даниэль; Чивера, Хорхе; Касакуберта, Франциско; Видаль, Энрике; Хоанг, Хиеу (октябрь 2008 г.). «Улучшение интерактивного машинного перевода с помощью действий мыши» (PDF) . Материалы конференции 2008 года по эмпирическим методам обработки естественного языка (EMNLP) . Гонолулу, Гавайи: Ассоциация компьютерной лингвистики. стр. 485–494.
- ^ Гонсалес-Рубио, Хесус; Ортис-Мартинес, Даниэль; Касакуберта, Франциско (июль 2010 г.). «Балансирование усилий пользователя и ошибок перевода при интерактивном машинном переводе с помощью мер доверия» (PDF) . Материалы конференции ACL 2010, краткие доклады (ACL) . Уппсала, Швеция: Ассоциация компьютерной лингвистики. стр. 173–177.
- ^ Андервуд, Нэнси; Меса-Лао, Бартоломе; Гарсиа-Мартинес, Мерседес; Карл, Майкл; Алабау, Висент; Гонсалес-Рубио, Хесус; Лейва, Луис; Санчис-Триллес, немец; Ортис-Мартинес, Даниэль; Касакуберта, Франциско (май 2014 г.). «Оценка эффектов интерактивности в среде постредактирования» (PDF) . Материалы 29-й конференции по языковым ресурсам и оценке (LREC) . Рейкьявик, Исландия. стр. 553–559.
- ^ Ортис-Мартинес, Даниэль; Гонсалес-Рубио, Хесус; Алабау, Висент; Санчис-Триллес, немец; Касакуберта, Франциско (август 2015 г.). «Интеграция онлайн-обучения и активного обучения в автоматизированной среде перевода». Новые направления в эмпирических исследованиях процесса перевода: изучение базы данных CRITT TPR-DB . Спрингер. стр. 54–73.
- ^ Алабау, Висент; Карл, Майкл; Касакуберта, Франциско; Гарсиа-Мартинес, Мерседес; Меса-Лао, Варфоломей; Ортис-Мартинес, Даниэль; Гонсалес-Рубио, Хесус; Санчис-Трильес, Герман; Шеффер, Мориц (август 2015 г.). «Изучение продвинутого постредактирования». Новые направления в эмпирических исследованиях процесса перевода: изучение базы данных CRITT TPR-DB . Спрингер. стр. 95–111.