История машинного перевода
![]() | Эту статью необходимо обновить . Причина: необходимо обновление для 2010-х годов. ( январь 2021 г. ) |
Машинный перевод — это раздел компьютерной лингвистики , который исследует использование программного обеспечения для перевода текста или речи с одного естественного языка на другой.
В 1950-х годах машинный перевод стал реальностью в исследованиях, хотя упоминания об этом предмете можно найти еще в 17 веке. Джорджтаунский эксперимент , в ходе которого в 1954 году был осуществлен успешный полностью автоматический перевод более шестидесяти русских предложений на английский язык, был одним из самых ранних зарегистрированных проектов. [1] [2] Исследователи Джорджтаунского эксперимента заявили, что уверены, что проблема машинного перевода будет решена в течение нескольких лет. [3] Вскоре аналогичные эксперименты были проведены в Советском Союзе. [4] Следовательно, успех эксперимента положил начало эпохе значительного финансирования исследований в области машинного перевода в Соединенных Штатах. Достигнутый прогресс оказался намного медленнее, чем ожидалось; В 1966 году отчет ALPAC показал, что десять лет исследований не оправдали ожиданий Джорджтаунского эксперимента и привели к резкому сокращению финансирования. [ нужна ссылка ] .
Интерес вырос к статистическим моделям машинного перевода , которые стали более распространенными и менее дорогими в 1980-х годах по мере увеличения доступной вычислительной мощности.
Хотя автономной системы «полностью автоматического высококачественного перевода неограниченного текста» не существует, [5] [6] [7] Сейчас доступно множество программ, способных выдавать полезный результат в рамках строгих ограничений. Некоторые из этих программ доступны в Интернете, например, Google Translate и система SYSTRAN от AltaVista , лежащая в основе BabelFish (которая была заменена переводчиком Microsoft Bing в мае 2012 года).
Начало
[ редактировать ]Истоки машинного перевода можно проследить до работы Аль-Кинди , арабского криптографа 9-го века , который разработал методы системного языкового перевода, включая криптоанализ , частотный анализ , а также вероятность и статистику , которые используются в современном машинном переводе. [8] Идея машинного перевода появилась позже, в 17 веке. В 1629 году Рене Декарт предложил универсальный язык, в котором эквивалентные идеи на разных языках имеют один и тот же символ. [9]
В середине 1930-х годов Жорж Артруни подал заявку на первые патенты на «машины-переводчики» на автоматический двуязычный словарь, использующий бумажную ленту . Россиянин Петр Троянский представил более детальное предложение [10] [11] это включало как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на грамматической системе эсперанто . Эта система была разделена на три этапа: первый этап состоял из редактора-носителя исходного языка для организации слов в их логические формы и выполнения синтаксических функций; второй этап требовал, чтобы машина «перевела» эти формы на целевой язык; а на третьем этапе требовался редактор-носитель языка на целевом языке для нормализации этого вывода. Предложение Троянского оставалось неизвестным до конца 1950-х годов, когда компьютеры уже были широко известны и использовались.
Первые годы
[ редактировать ]Первый набор предложений по компьютерному машинному переводу был представлен в 1949 году Уорреном Уивером , исследователем Фонда Рокфеллера , в « Меморандуме о переводе ». [12] Эти предложения были основаны на теории информации , успехах в взломе кодов во время Второй мировой войны и теориях об универсальных принципах, лежащих в основе естественного языка .
Через несколько лет после того, как Уивер представил свои предложения, во многих университетах США начались серьезные исследования. 7 января 1954 года эксперимент Джорджтаун-IBM в Нью-Йорке, в головном офисе IBM, был проведен . Это была первая публичная демонстрация системы машинного перевода. Демонстрация широко освещалась в газетах и вызвала общественный интерес. Однако сама система представляла собой не более чем «игрушку». В нем было всего 250 слов и переведено 49 тщательно отобранных русских предложений на английский язык – в основном в области химии . Тем не менее, это поддержало идею о неизбежности машинного перевода и стимулировало финансирование исследований не только в США, но и во всем мире. [3]
Ранние системы использовали большие двуязычные словари и правила, закодированные вручную для фиксации порядка слов в конечном результате, что в конечном итоге считалось слишком ограничительным для лингвистических разработок того времени. Например, генеративная лингвистика и трансформационная грамматика использовались для улучшения качества переводов. За этот период были установлены операционные системы. ВВС США использовали систему, разработанную IBM и Вашингтонским университетом в Сент-Луисе , а Комиссия по атомной энергии и Евратом в Италии использовали систему, разработанную в Джорджтаунском университете . Хотя качество продукции было низким, она удовлетворяла многим потребностям клиентов, особенно с точки зрения скорости. [ нужна ссылка ]
В конце 1950-х годов правительство США попросило Иеошуа Бар-Хиллеля заняться машинным переводом, чтобы оценить возможность полностью автоматического высококачественного перевода с помощью машин. Бар-Гилель описал проблему семантической двусмысленности или двойного значения, как показано в следующем предложении:
Маленький Джон искал свою коробку с игрушками. Наконец он нашел его. Коробка была в загоне.
Слово «перо» может иметь два значения: первое значение — то, чем пишут чернилами; второе значение - какой-то контейнер. Для человека смысл очевиден, но Бар-Гилель утверждал, что без «универсальной энциклопедии» машина никогда не сможет справиться с этой проблемой. В то время этот тип семантической неоднозначности можно было решить только путем написания исходных текстов для машинного перевода на контролируемом языке , использующем словарь , в котором каждое слово имеет ровно одно значение. [ нужна ссылка ]
1960-е годы, отчет ALPAC и семидесятые годы
[ редактировать ]Исследования 1960-х годов как в Советском Союзе, так и в США были сосредоточены в основном на русско-английской языковой паре. Объектами перевода были в основном научно-технические документы, например статьи из научных журналов . Сделанных черновых переводов было достаточно, чтобы получить общее представление о статьях. Если в статье обсуждалась тема, считавшаяся конфиденциальной, ее отправляли переводчику для полного перевода; в противном случае оно было отброшено.
Большой удар по исследованиям машинного перевода был нанесен в 1966 году с публикацией отчета ALPAC . Отчет был подготовлен правительством США и представлен ALPAC , Консультативным комитетом по автоматической языковой обработке, группой из семи ученых, созванной правительством США в 1964 году. Правительство США было обеспокоено отсутствием прогресса, несмотря на значительные расходы. . В отчете сделан вывод, что машинный перевод дороже, менее точен и медленнее, чем человеческий перевод, и что, несмотря на затраты, машинный перевод вряд ли достигнет качества человеческого переводчика в ближайшем будущем.
Однако в отчете рекомендовалось разработать инструменты для помощи переводчикам – например, автоматические словари – и продолжать поддерживать некоторые исследования в области компьютерной лингвистики.
Публикация отчета оказала глубокое влияние на исследования машинного перевода в США и, в меньшей степени, в Советском Союзе и Великобритании. Исследования, по крайней мере в США, были почти полностью прекращены более чем на десять лет. Однако в Канаде, Франции и Германии исследования продолжались. В США главным исключением стали основатели SYSTRAN ( Питер Тома ) и Logos (Бернард Скотт), которые основали свои компании в 1968 и 1970 годах соответственно и служили Министерству обороны США. В 1970 году система SYSTRAN была установлена для ВВС США , а затем и Комиссией Европейских Сообществ в 1976 году. Система METEO , разработанная в Университете Монреаля , была установлена в Канаде в 1977 году для перевода прогнозов погоды с английского языка. на французский язык и переводил около 80 000 слов в день или 30 миллионов слов в год, пока 30 сентября 2001 года его не заменила система конкурента. [13]
В то время как исследования в 1960-х годах были сосредоточены на ограниченных языковых парах и вводе данных, в 1970-х годах спрос был на недорогие системы, которые могли бы переводить ряд технических и коммерческих документов. Этот спрос был вызван ростом глобализации и спросом на переводы в Канаде, Европе и Японии. [ нужна ссылка ]
1980-е и начало 1990-х годов
[ редактировать ]К 1980-м годам увеличилось как разнообразие, так и количество установленных систем машинного перевода. ряд систем, основанных на технологии мэйнфреймов Использовался , таких как SYSTRAN , Logos , Ariane-G5 и Metal . [ нужна ссылка ]
В результате повышения доступности микрокомпьютеров появился рынок более дешевых систем машинного перевода. Этим воспользовались многие компании в Европе, Японии и США. Системы также были выведены на рынок Китая, Восточной Европы, Кореи и Советского Союза . [ нужна ссылка ]
В 1980-е годы в Японии особенно активно развивалась деятельность в сфере МТ. Создав компьютер пятого поколения , Япония намеревалась превзойти своих конкурентов в области компьютерного оборудования и программного обеспечения, и одним из проектов, в котором оказались задействованы многие крупные японские компании по производству электроники, было создание программного обеспечения для перевода на английский язык и с него (Fujitsu, Toshiba, NTT, Brother , Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki). [ нужна ссылка ]
Исследования 1980-х годов обычно основывались на переводе посредством различных промежуточных лингвистических представлений, включающих морфологический, синтаксический и семантический анализ. [ нужна ссылка ]
В конце 1980-х годов произошел резкий скачок числа новых методов машинного перевода. Одна система была разработана в IBM и основывалась на статистических методах . Макото Нагао и его группа использовали методы, основанные на большом количестве примеров перевода, технику, которая сейчас называется машинным переводом на основе примеров . [14] [15] Определяющей чертой обоих этих подходов было игнорирование синтаксических и семантических правил и использование вместо этого манипулирования большими текстовыми корпусами .
В 1990-х годах, воодушевленные успехами в области распознавания и синтеза речи , начались исследования перевода речи с разработкой немецкого проекта Verbmobil .
Система Forward Area Language Converter (FALCon), технология машинного перевода, разработанная Армейской исследовательской лабораторией , была использована в 1997 году для перевода документов для солдат в Боснии. [16]
Значительный рост использования машинного перевода произошел в результате появления недорогих и более мощных компьютеров. В начале 1990-х годов машинный перевод начал переходить от больших мэйнфреймов к персональным компьютерам и рабочим станциям . Двумя компаниями, которые какое-то время лидировали на рынке ПК, были Globalink и MicroTac, после чего было обнаружено, что слияние двух компаний (в декабре 1994 года) отвечает корпоративным интересам обеих. Примерно в это же время Intergraph и Systran также начали предлагать версии для ПК. В Интернете также стали доступны такие сайты, как AltaVista компании Babel Fish (с использованием технологии Systran) и Google Language Tools (также первоначально использовавшие исключительно технологию Systran).
2000-е
[ редактировать ]В 2000-х годах в сфере машинного перевода произошли серьезные изменения. Был проведен большой объем исследований в области статистического машинного перевода и машинного перевода на основе примеров . В области перевода речи исследования были сосредоточены на переходе от систем, ограниченных предметной областью, к системам перевода без ограничений по предметной области. В различных исследовательских проектах в Европе (например, TC-STAR) [17] а в США (STR-DUST и Глобальная программа автономного использования языка DARPA ) были разработаны решения для автоматического перевода парламентских речей и трансляций новостей. В этих сценариях область содержания больше не ограничивалась какой-либо конкретной областью, а переводимые речи охватывали различные темы.Франко-немецкий проект Quaero исследовал возможность использования машинного перевода для многоязычного Интернета. Целью проекта было переводить не только веб-страницы, но также видео и аудиофайлы в Интернете.
2010-е годы
[ редактировать ]За последнее десятилетие методы нейронного машинного перевода (NMT) заменили статистический машинный перевод . Термин «нейронный машинный перевод» был придуман Багданау и др. [18] и Суцкевер и др. [19] который также опубликовал первое исследование по этой теме в 2014 году. Нейронным сетям требовалась лишь часть памяти, необходимой статистическим моделям, и целые предложения можно было моделировать интегрированным образом. Первый крупномасштабный NMT был запущен компанией Baidu в 2015 году, за ним последовал нейронный машинный перевод Google (GNMT) в 2016 году. За этим последовали другие службы перевода, такие как DeepL Translator , и внедрение технологии NMT в более старые службы перевода, такие как переводчик Microsoft .
Нейронные сети используют единую сквозную архитектуру нейронной сети, известную как последовательность-последовательность ( seq2seq ), которая использует две рекуррентные нейронные сети (RNN). Кодер RNN и декодер RNN. Кодер RNN использует векторы кодирования исходного предложения, а декодер RNN генерирует целевое предложение на основе предыдущего вектора кодирования. [ нужна ссылка ] Дальнейшие достижения в уровне внимания, методах преобразования и обратного распространения информации сделали NMT гибкими и применяются в большинстве машинного перевода, обобщения и чат-ботов . технологий [20]
![]() | Этот раздел необходимо обновить . ( апрель 2023 г. ) |
См. также
[ редактировать ]- История обработки естественного языка
- Отчет АЛПАК
- Компьютерный перевод
- Отчет Лайтхилла
- Машинный перевод
Примечания
[ редактировать ]- ^ Най, Мэри Джо (2016). «Говорить на языках: многовековая охота науки за общим языком» . Дистилляции . 2 (1): 40–43 . Проверено 22 марта 2018 г.
- ^ Гордин, Майкл Д. (2015). Научный Вавилон: как развивалась наука до и после глобального английского языка . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 978-0-226-00029-9 . [ нужна страница ]
- ^ Перейти обратно: а б Пламб, Роберт К. (8 января 1954 г.). «Русский язык превращается в английский с помощью быстрого электронного переводчика» . Нью-Йорк Таймс .
- ^ Мэдсен, Матиас Винтер (23 декабря 2009 г.). Ограничения машинного перевода (Диссертация). Университет Копенгагена. п. 11.
- ^ Мелби, Алан К. (1995). Возможность языка . Амстердам: Дж. Бенджаминс. стр. 27–41. ISBN 978-90-272-1614-4 .
- ^ Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода» . Транспортно-информационный бизнес . Архивировано из оригинала 16 июля 2012 года.
- ^ «Приложение III к «Современному состоянию автоматического перевода языков» » (PDF) . Достижения в области компьютеров . 1960. стр. 158–163. Перепечатано в Ю.Бар-Гилель (1964). Язык и информация . Массачусетс: Аддисон-Уэсли. стр. 174–179.
- ^ Дюпон, Куинн (январь 2018 г.). «Криптологические истоки машинного перевода: от аль-Кинди до Уивера» . Амодерн (8).
- ^ Хамагути, Минору (30 апреля 1993 г.) французский универсальный языковой проект , стр. 70–71. Англо - 978-4-87502-214-5 начались с письма Декарта Мерсенну в ноябре 1629 года .
универсального алфавита Общеизвестно, что самые ранние попытки создания Однако если проанализировать множество факторов, которые первоначально вызвали интерес к этой проблеме, окажется, что идея некоего общего письма уже некоторое время является относительно знакомой. , опубликованной в 1605 году ...Фрэнсис Бэкон в своей книге «О прогрессе науки» , сказал, что такая аутентичная система письма была бы полезна
.
Ноулсон, Джеймс (1975). УНИВЕРСАЛЬНЫЕ ЯЗЫКОВЫЕ СХЕМЫ В АНГЛИИ И ФРАНЦИИ 1600-1800 гг . ISBN 978-0-8020-5296-4 . - ^ Бессё, Терухико; Танахаси, Ёситеру (15 октября 1960 г.). В Тамаки, Хидехико; Автоматический перевод Де Ю Паноффа (1-е изд.). Shobo Co., Ltd., стр. 10–11. Возможно,
первая попытка в некоторой степени механизировать перевод была предпринята в 1933 году Пе Троянским. Он предложил создать «машину для отбора и печати слов для перевода с одного языка на другой или на множество языков одновременно». Пе Троянский запатентовал это изобретение, но в то время реализовать его на практике было сложно. (перевод (при помощи Google Translate ): Возможно, это почти первый случай машинного перевода, который Петр Петрович Троянский попробовал в 1933 году. Он представил, что «создать машину, которая выбирает слова и печатает их при переводе с одного языка на другой язык или для на нескольких языках одновременно». Он получил патент на это изобретение, но в то время его не удалось реализовать.)
- ^ Бессё, Терухико; Савабе, Хироши (25 февраля 1964 г.). Машина перевода (Bunko Kuseju Focus of Modern Knowledge) (1-е изд.), Токио: Hakusuisha Co., Ltd., стр. 39.
А. запатентованное изобретение россиянина Смирнова-Троянского, казалось, позволяло одновременно переводить несколько языков и отправлять их на большие расстояния. (перевод (при помощи Google Translate ): Изобретение, запатентованное Петром Петровичем Троянским в 1933 году, казалось, позволяло переводить несколько языков одновременно и отправлять их в отдаленные места.
)
Делавени, Эмиль. ПЕРЕВОДЧЕСКАЯ МАШИНА (Сборник QUE SAIS-JE? No.834) (на французском языке). Прессы Universitaires de France. - ^ «Меморандум Ткача» . Март 1949 года. Архивировано из оригинала 5 октября 2006 года.
- ^ «ПРОЦЕСС ЗАКУПОК» . Канадский международный торговый трибунал . 30 июля 2002 года. Архивировано из оригинала 6 июля 2011 года . Проверено 10 февраля 2007 г.
- ^ Нагао, Макото (октябрь 1984 г.). «Основы механического перевода между японским и английским языками по принципу аналогии» . Учеб. Международного симпозиума НАТО по искусственному и человеческому интеллекту . Северная Голландия. стр. 173–180. ISBN 978-0-444-86545-8 .
- ^ «Ассоциация компьютерной лингвистики – Премия ACL за заслуги перед жанром, 2003 год» . Ассоциация компьютерной лингвистики. Архивировано из оригинала 12 июня 2010 года . Проверено 10 марта 2010 г.
- ^ Вайсгербер, Джон; Ян, Джин; Фишер, Пит (2000). «Портативный переводчик Тихоокеанского региона» . Машинный перевод в информационном будущем . Конспекты лекций по информатике. Том. 1934. стр. 196–201. дои : 10.1007/3-540-39965-8_21 . ISBN 978-3-540-41117-8 . S2CID 36571004 .
- ^ «ТК-Стар» . Проверено 25 октября 2010 г.
- ^ Чо, Кёнхён; ван Мерриенбур, Барт; Гульчере, Чаглар; Богданов Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). «Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода» . Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1724–1734. arXiv : 1406.1078 . дои : 10.3115/v1/d14-1179 . S2CID 5590763 .
- ^ Татиока, Юки; Ватанабэ, Синдзи; Ле Ру, Джонатан; Херши, Джон Р. (декабрь 2014 г.). «Последовательное дискриминационное обучение для глубоких нейронных сетей низкого ранга» . Глобальная конференция IEEE по обработке сигналов и информации (GlobalSIP) 2014 г. IEEE. стр. 572–576. дои : 10.1109/globalsip.2014.7032182 . ISBN 978-1-4799-7088-9 . S2CID 767028 .
- ^ «Что такое нейронный машинный перевод и как он работает?» . ПеревестиFX . Проверено 9 декабря 2022 г.
Ссылки
[ редактировать ]- Хатчинс, Дж. (2005). «Вехи в машинном переводе - № 6: Бар-Гилель и неосуществимость FAHQT]» (PDF) .
- Ван Слайп, Жорж (1983). Лучший перевод для лучшего общения . Париж: Пергамон Пресс. ISBN 978-0-08-030534-9 .
Дальнейшее чтение
[ редактировать ]- Хатчинс, В. Джон (1986). Машинный перевод: прошлое, настоящее, будущее . Серия Эллиса Хорвуда о компьютерах и их приложениях. Чичестер: Эллис Хорвуд. ISBN 978-0-470-20313-2 .