Удобство использования программного обеспечения для машинного перевода
В разделах ниже представлены объективные критерии оценки удобства использования результатов программного обеспечения для машинного перевода .
Стационарность или каноническая форма
[ редактировать ]Сходятся ли повторные переводы в одном и том же выражении на обоих языках? Т.е. демонстрирует ли метод перевода стационарность или создает каноническую форму ? Становится ли перевод стационарным, не теряя при этом исходного смысла? Этот показатель подвергся критике за то, что он плохо коррелирует с оценками BLEU (дублёр двуязычной оценки). [1]
Адаптивность к разговорной речи, арго или сленгу
[ редактировать ]Адаптивна ли система к разговорной речи , жаргонизму или сленгу ? Во французском языке существует множество правил создания слов в устной и письменной речи представителей массовой культуры . Двумя такими правилами являются: (а) Обратное написание таких слов, как femme, на meuf . (Это называется верлан .) (б) Присоединение суффикса -ard к существительному или глаголу для образования имени собственного. Например, существительное faluche означает «шляпа студента». Слово фалучард, образованное от фалуче, в просторечии может означать, в зависимости от контекста, «группу студентов», «собрание студентов» и «типичное поведение студента». Переводчик Google по состоянию на 28 декабря 2006 г. не выводит построенные слова, как, например, из правила (b), как показано здесь:
В среду выступит хор Фалучардов, приходите много, Фалучарды поют непристойные песни! ==> В среду проходит хоровое общество фалучард, приходит много, фалучарды поют распутных женщин!
Французский жаргон имеет три уровня использования: [2]
- семейный или дружелюбный, приемлемый среди друзей, семьи и сверстников, но не на работе
- более грубые или ругательные слова приемлемы среди друзей и сверстников, но не на работе или в семье.
- верлан или жаргон гетто, приемлемый среди низших классов, но не среди средних или высших классов.
США Национальный институт стандартов и технологий проводит ежегодные оценки [1] систем машинного перевода на основе критерия BLEU -4 [2] . Комбинированный метод под названием IQmt, который включает в себя BLEU и дополнительные метрики NIST, GTM, ROUGE и METEOR, был реализован Хименесом и Амиго [3] .
Хорошо сформированный вывод
[ редактировать ]Является ли вывод грамматическим или правильно оформленным на целевом языке? Использование интерлингва должно быть полезным в этом отношении, потому что с фиксированным интерлингвом можно написать грамматическое отображение целевого языка из интерлингва. Рассмотрим следующий ввод на арабском языке и результат перевода на английский язык , выполненный переводчиком Google по состоянию на 27 декабря 2006 г. [4] . Этот вывод переводчика Google не анализирует разумную английскую грамматику :
Что касается случаев раздавливания во время ритуала бросания камней, в результате которого часто падает множество жертв, принц Наиф отметил, что «на мосту Джамарат было сделано много улучшений, которые, если даст Бог, предотвратят любое скопление людей». ==> А инциденты при толчке карбункулов - ритуал метания карбункулов, в которых часто попадают многие жертвы - принц Найеф указал на введение "многих усовершенствований в мост карбункулов, которые Бог мог бы остановить появление любых конкурентов".
Сохранение семантики
[ редактировать ]Сохраняют ли повторные переводы семантику исходного предложения? Например, рассмотрим следующий ввод на английском языке, который несколько раз передавался на французский язык и обратно с помощью переводчика Google по состоянию на 27 декабря 2006 г.:
Лучше на день раньше, чем на день позже. ==>
Улучшайтесь на день раньше, чем на день позже. ==>
Улучшение на день раньше, чем на день позже. ==>
Чтобы улучшиться на день раньше, чем на день позже. ==>
Улучшение на день раньше, чем на день позже.
Как отмечалось выше и в, [1] такой двусторонний перевод — очень ненадежный метод оценки.
Надежность и безопасность
[ редактировать ]Интересной особенностью Google Translate по состоянию на 24 января 2008 г. (исправлено по состоянию на 25 января 2008 г.) является следующий результат при переводе с английского на испанский, который показывает встроенную шутку в англо-испанский словарь, которая имеет некоторую дополнительную остроту, учитывая недавние события:
Хит Леджер мертв ==>
Том Круз мертв
Это поднимает вопрос надежности при использовании системы машинного перевода, встроенной в жизненно важную систему , в которой система перевода вносит вклад в процесс принятия решений, критически важных для безопасности . ли программное обеспечение системы машинного перевода при конкретном использовании Одновременно возникает вопрос о том, защищено от хакеров .
Неизвестно, стала ли эта функция Google Translate результатом шутки/взлома или, возможно, непреднамеренным последствием использования такого метода, как статистический машинный перевод . репортеры CNET Networks 24 января 2008 г. обратились к Google за разъяснениями; В Google сказали только, что это «внутренняя проблема Google Translate». [3] Неправильный перевод стал предметом множества шуток и спекуляций в Интернете. [4] [5]
Если это непреднамеренное последствие использования такого метода, как статистический машинный перевод , а не шутка/хакерство, то это событие является демонстрацией потенциального источника критической ненадежности метода статистического машинного перевода.
В человеческих переводах, в частности со стороны устных переводчиков , часто отмечается избирательность со стороны переводчика при выполнении перевода, когда одна из двух сторон, обслуживаемых переводчиком, знает оба языка.
Это приводит к вопросу о том, можно ли считать конкретный перевод проверяемым . В этом случае сходящийся двусторонний перевод будет своего рода проверкой.
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Jump up to: а б Сомерс, Гарольд (2005). «Перевод туда и обратно: для чего он нужен?» . Материалы австралийского семинара по языковым технологиям ALTW 2005 . Сидней: 127–133.
- ^ «Агония Арго», Chitlins & Camembert, 28 октября 2005 г.
- ^ «Ошибка Google Translate путает Хита Леджера и Тома Круза», Кэролайн Маккарти , CNET Networks , 24 января 2008 г.
- ^ «Том Круз» по-испански означает «Хит Леджер», gawker.com, 24 января 2008 г. Архивировано 28 января 2008 г., на Wayback Machine.
- ^ «Том Круз está muerto», Проект блога Рэя Леона, 24 января 2008 г. Архивировано 29 октября 2008 г., в Wayback Machine.
Ссылки
[ редактировать ]- Хименес, Хесус и Энрике Амиго. (2005) IQmt: Система оценки машинного перевода .
- НИСТ. Ежегодная оценка системы машинного перевода и план оценки .
- Папинени, Кишоре, Салим Рукос, Тодд Уорд и Вэй-Цзин Чжу. (2002) BLEU: Метод автоматической оценки машинного перевода. Учеб. 40-е ежегодное собрание ACL, июль 2002 г., стр. 311–318.