Jump to content

История машинного перевода

Машинный перевод — это раздел компьютерной лингвистики , который исследует использование программного обеспечения для перевода текста или речи с одного естественного языка на другой.

В 1950-х годах машинный перевод стал реальностью в исследованиях, хотя упоминания об этом предмете можно найти еще в 17 веке. Джорджтаунский эксперимент , в ходе которого в 1954 году был осуществлен успешный полностью автоматический перевод более шестидесяти русских предложений на английский язык, был одним из самых ранних зарегистрированных проектов. [1] [2] Исследователи Джорджтаунского эксперимента заявили, что уверены, что проблема машинного перевода будет решена в течение нескольких лет. [3] Вскоре аналогичные эксперименты были проведены в Советском Союзе. [4] Следовательно, успех эксперимента положил начало эпохе значительного финансирования исследований в области машинного перевода в Соединенных Штатах. Достигнутый прогресс оказался намного медленнее, чем ожидалось; В 1966 году отчет ALPAC показал, что десять лет исследований не оправдали ожиданий Джорджтаунского эксперимента и привели к резкому сокращению финансирования. [ нужна ссылка ] .

Интерес вырос к статистическим моделям машинного перевода , которые стали более распространенными и менее дорогими в 1980-х годах по мере увеличения доступной вычислительной мощности.

Хотя автономной системы «полностью автоматического высококачественного перевода неограниченного текста» не существует, [5] [6] [7] Сейчас доступно множество программ, способных выдавать полезный результат в рамках строгих ограничений. Некоторые из этих программ доступны в Интернете, например, Google Translate и система SYSTRAN от AltaVista , лежащая в основе BabelFish (которая была заменена переводчиком Microsoft Bing в мае 2012 года).

Истоки машинного перевода можно проследить до работы Аль-Кинди , арабского криптографа 9-го века , который разработал методы системного языкового перевода, включая криптоанализ , частотный анализ , а также вероятность и статистику , которые используются в современном машинном переводе. [8] Идея машинного перевода появилась позже, в 17 веке. В 1629 году Рене Декарт предложил универсальный язык, в котором эквивалентные идеи на разных языках имеют один и тот же символ. [9]

В середине 1930-х годов Жорж Артруни подал заявку на первые патенты на «машины-переводчики» на автоматический двуязычный словарь, использующий бумажную ленту . Россиянин Петр Троянский представил более детальное предложение [10] [11] это включало как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на грамматической системе эсперанто . Эта система была разделена на три этапа: первый этап состоял из редактора-носителя исходного языка для организации слов в их логические формы и выполнения синтаксических функций; второй этап требовал, чтобы машина «перевела» эти формы на целевой язык; а на третьем этапе требовался редактор-носитель языка на целевом языке для нормализации этого вывода. Предложение Троянского оставалось неизвестным до конца 1950-х годов, когда компьютеры уже были широко известны и использовались.

Первые годы

[ редактировать ]

Первый набор предложений по компьютерному машинному переводу был представлен в 1949 году Уорреном Уивером , исследователем Фонда Рокфеллера , в « Меморандуме о переводе ». [12] Эти предложения были основаны на теории информации , успехах в взломе кодов во время Второй мировой войны и теориях об универсальных принципах, лежащих в основе естественного языка .

Через несколько лет после того, как Уивер представил свои предложения, во многих университетах США начались серьезные исследования. 7 января 1954 года эксперимент Джорджтаун-IBM в Нью-Йорке, в головном офисе IBM, был проведен . Это была первая публичная демонстрация системы машинного перевода. Демонстрация широко освещалась в газетах и ​​вызвала общественный интерес. Однако сама система представляла собой не более чем «игрушку». В нем было всего 250 слов и переведено 49 тщательно отобранных русских предложений на английский язык – в основном в области химии . Тем не менее, это поддержало идею о неизбежности машинного перевода и стимулировало финансирование исследований не только в США, но и во всем мире. [3]

Ранние системы использовали большие двуязычные словари и правила, закодированные вручную для фиксации порядка слов в конечном результате, что в конечном итоге считалось слишком ограничительным для лингвистических разработок того времени. Например, генеративная лингвистика и трансформационная грамматика использовались для улучшения качества переводов. За этот период были установлены операционные системы. ВВС США использовали систему, разработанную IBM и Вашингтонским университетом в Сент-Луисе , а Комиссия по атомной энергии и Евратом в Италии использовали систему, разработанную в Джорджтаунском университете . Хотя качество продукции было низким, она удовлетворяла многим потребностям клиентов, особенно с точки зрения скорости. [ нужна ссылка ]

В конце 1950-х годов правительство США попросило Иеошуа Бар-Хиллеля заняться машинным переводом, чтобы оценить возможность полностью автоматического высококачественного перевода с помощью машин. Бар-Гилель описал проблему семантической двусмысленности или двойного значения, как показано в следующем предложении:

Маленький Джон искал свою коробку с игрушками. Наконец он нашел его. Коробка была в загоне.

Слово «перо» может иметь два значения: первое значение — то, чем пишут чернилами; второе значение - какой-то контейнер. Для человека смысл очевиден, но Бар-Гилель утверждал, что без «универсальной энциклопедии» машина никогда не сможет справиться с этой проблемой. В то время этот тип семантической неоднозначности можно было решить только путем написания исходных текстов для машинного перевода на контролируемом языке , использующем словарь , в котором каждое слово имеет ровно одно значение. [ нужна ссылка ]

1960-е годы, отчет ALPAC и семидесятые годы

[ редактировать ]

Исследования 1960-х годов как в Советском Союзе, так и в США были сосредоточены в основном на русско-английской языковой паре. Объектами перевода были в основном научно-технические документы, например статьи из научных журналов . Сделанных черновых переводов было достаточно, чтобы получить общее представление о статьях. Если в статье обсуждалась тема, считавшаяся конфиденциальной, ее отправляли переводчику для полного перевода; в противном случае оно было отброшено.

Большой удар по исследованиям машинного перевода был нанесен в 1966 году с публикацией отчета ALPAC . Отчет был подготовлен правительством США и представлен ALPAC , Консультативным комитетом по автоматической языковой обработке, группой из семи ученых, созванной правительством США в 1964 году. Правительство США было обеспокоено отсутствием прогресса, несмотря на значительные расходы. . В отчете сделан вывод, что машинный перевод дороже, менее точен и медленнее, чем человеческий перевод, и что, несмотря на затраты, машинный перевод вряд ли достигнет качества человеческого переводчика в ближайшем будущем.

Однако в отчете рекомендовалось разработать инструменты для помощи переводчикам – например, автоматические словари – и продолжать поддерживать некоторые исследования в области компьютерной лингвистики.

Публикация отчета оказала глубокое влияние на исследования машинного перевода в США и, в меньшей степени, в Советском Союзе и Великобритании. Исследования, по крайней мере в США, были почти полностью прекращены более чем на десять лет. Однако в Канаде, Франции и Германии исследования продолжались. В США главным исключением стали основатели SYSTRAN ( Питер Тома ) и Logos (Бернард Скотт), которые основали свои компании в 1968 и 1970 годах соответственно и служили Министерству обороны США. В 1970 году система SYSTRAN была установлена ​​для ВВС США , а затем и Комиссией Европейских Сообществ в 1976 году. Система METEO , разработанная в Университете Монреаля , была установлена ​​в Канаде в 1977 году для перевода прогнозов погоды с английского языка. на французский язык и переводил около 80 000 слов в день или 30 миллионов слов в год, пока 30 сентября 2001 года его не заменила система конкурента. [13]

В то время как исследования в 1960-х годах были сосредоточены на ограниченных языковых парах и вводе данных, в 1970-х годах спрос был на недорогие системы, которые могли бы переводить ряд технических и коммерческих документов. Этот спрос был вызван ростом глобализации и спросом на переводы в Канаде, Европе и Японии. [ нужна ссылка ]

1980-е и начало 1990-х годов

[ редактировать ]

К 1980-м годам увеличилось как разнообразие, так и количество установленных систем машинного перевода. ряд систем, основанных на технологии мэйнфреймов Использовался , таких как SYSTRAN , Logos , Ariane-G5 и Metal . [ нужна ссылка ]

В результате повышения доступности микрокомпьютеров появился рынок более дешевых систем машинного перевода. Этим воспользовались многие компании в Европе, Японии и США. Системы также были выведены на рынок Китая, Восточной Европы, Кореи и Советского Союза . [ нужна ссылка ]

В 1980-е годы в Японии особенно активно развивалась деятельность в сфере МТ. Создав компьютер пятого поколения , Япония намеревалась превзойти своих конкурентов в области компьютерного оборудования и программного обеспечения, и одним из проектов, в котором оказались задействованы многие крупные японские компании по производству электроники, было создание программного обеспечения для перевода на английский язык и с него (Fujitsu, Toshiba, NTT, Brother , Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki). [ нужна ссылка ]

Исследования 1980-х годов обычно основывались на переводе посредством различных промежуточных лингвистических представлений, включающих морфологический, синтаксический и семантический анализ. [ нужна ссылка ]

В конце 1980-х годов произошел резкий скачок числа новых методов машинного перевода. Одна система была разработана в IBM и основывалась на статистических методах . Макото Нагао и его группа использовали методы, основанные на большом количестве примеров перевода, технику, которая сейчас называется машинным переводом на основе примеров . [14] [15] Определяющей чертой обоих этих подходов было игнорирование синтаксических и семантических правил и использование вместо этого манипулирования большими текстовыми корпусами .

В 1990-х годах, воодушевленные успехами в области распознавания и синтеза речи , начались исследования перевода речи с разработкой немецкого проекта Verbmobil .

Система Forward Area Language Converter (FALCon), технология машинного перевода, разработанная Армейской исследовательской лабораторией , была использована в 1997 году для перевода документов для солдат в Боснии. [16]

Значительный рост использования машинного перевода произошел в результате появления недорогих и более мощных компьютеров. В начале 1990-х годов машинный перевод начал переходить от больших мэйнфреймов к персональным компьютерам и рабочим станциям . Двумя компаниями, которые какое-то время лидировали на рынке ПК, были Globalink и MicroTac, после чего было обнаружено, что слияние двух компаний (в декабре 1994 года) отвечает корпоративным интересам обеих. Примерно в это же время Intergraph и Systran также начали предлагать версии для ПК. В Интернете также стали доступны такие сайты, как AltaVista компании Babel Fish (с использованием технологии Systran) и Google Language Tools (также первоначально использовавшие исключительно технологию Systran).

В 2000-х годах в сфере машинного перевода произошли серьезные изменения. Был проведен большой объем исследований в области статистического машинного перевода и машинного перевода на основе примеров . В области перевода речи исследования были сосредоточены на переходе от систем, ограниченных предметной областью, к системам перевода без ограничений по предметной области. В различных исследовательских проектах в Европе (например, TC-STAR) [17] а в США (STR-DUST и Глобальная программа автономного использования языка DARPA ) были разработаны решения для автоматического перевода парламентских речей и трансляций новостей. В этих сценариях область содержания больше не ограничивалась какой-либо конкретной областью, а переводимые речи охватывали различные темы.Франко-немецкий проект Quaero исследовал возможность использования машинного перевода для многоязычного Интернета. Целью проекта было переводить не только веб-страницы, но также видео и аудиофайлы в Интернете.

2010-е годы

[ редактировать ]

За последнее десятилетие методы нейронного машинного перевода (NMT) заменили статистический машинный перевод . Термин «нейронный машинный перевод» был придуман Багданау и др. [18] и Суцкевер и др. [19] который также опубликовал первое исследование по этой теме в 2014 году. Нейронным сетям требовалась лишь часть памяти, необходимой статистическим моделям, и целые предложения можно было моделировать интегрированным образом. Первый крупномасштабный NMT был запущен компанией Baidu в 2015 году, за ним последовал нейронный машинный перевод Google (GNMT) в 2016 году. За этим последовали другие службы перевода, такие как DeepL Translator , и внедрение технологии NMT в более старые службы перевода, такие как переводчик Microsoft .

Нейронные сети используют единую сквозную архитектуру нейронной сети, известную как последовательность-последовательность ( seq2seq ), которая использует две рекуррентные нейронные сети (RNN). Кодер RNN и декодер RNN. Кодер RNN использует векторы кодирования исходного предложения, а декодер RNN генерирует целевое предложение на основе предыдущего вектора кодирования. [ нужна ссылка ] Дальнейшие достижения в уровне внимания, методах преобразования и обратного распространения информации сделали NMT гибкими и применяются в большинстве машинного перевода, обобщения и чат-ботов . технологий [20]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Най, Мэри Джо (2016). «Говорить на языках: многовековая охота науки за общим языком» . Дистилляции . 2 (1): 40–43 . Проверено 22 марта 2018 г.
  2. ^ Гордин, Майкл Д. (2015). Научный Вавилон: как развивалась наука до и после глобального английского языка . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN  978-0-226-00029-9 . [ нужна страница ]
  3. ^ Перейти обратно: а б Пламб, Роберт К. (8 января 1954 г.). «Русский язык превращается в английский с помощью быстрого электронного переводчика» . Нью-Йорк Таймс .
  4. ^ Мэдсен, Матиас Винтер (23 декабря 2009 г.). Ограничения машинного перевода (Диссертация). Университет Копенгагена. п. 11.
  5. ^ Мелби, Алан К. (1995). Возможность языка . Амстердам: Дж. Бенджаминс. стр. 27–41. ISBN  978-90-272-1614-4 .
  6. ^ Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода» . Транспортно-информационный бизнес . Архивировано из оригинала 16 июля 2012 года.
  7. ^ «Приложение III к «Современному состоянию автоматического перевода языков» » (PDF) . Достижения в области компьютеров . 1960. стр. 158–163. Перепечатано в Ю.Бар-Гилель (1964). Язык и информация . Массачусетс: Аддисон-Уэсли. стр. 174–179.
  8. ^ Дюпон, Куинн (январь 2018 г.). «Криптологические истоки машинного перевода: от аль-Кинди до Уивера» . Амодерн (8).
  9. ^ Хамагути, Минору (30 апреля 1993 г.) французский универсальный языковой проект , стр. 70–71. Англо -  978-4-87502-214-5 начались с письма Декарта Мерсенну в ноябре 1629 года . универсального алфавита Общеизвестно, что самые ранние попытки создания Однако если проанализировать множество факторов, которые первоначально вызвали интерес к этой проблеме, окажется, что идея некоего общего письма уже некоторое время является относительно знакомой. , опубликованной в 1605 году ...Фрэнсис Бэкон в своей книге «О прогрессе науки» , сказал, что такая аутентичная система письма была бы полезна .
    Ноулсон, Джеймс (1975). УНИВЕРСАЛЬНЫЕ ЯЗЫКОВЫЕ СХЕМЫ В АНГЛИИ И ФРАНЦИИ 1600-1800 гг . ISBN  978-0-8020-5296-4 .
  10. ^ Бессё, Терухико; Танахаси, Ёситеру (15 октября 1960 г.). В Тамаки, Хидехико; Автоматический перевод Де Ю Паноффа (1-е изд.). Shobo Co., Ltd., стр. 10–11. Возможно, первая попытка в некоторой степени механизировать перевод была предпринята в 1933 году Пе Троянским. Он предложил создать «машину для отбора и печати слов для перевода с одного языка на другой или на множество языков одновременно». Пе Троянский запатентовал это изобретение, но в то время реализовать его на практике было сложно. (перевод (при помощи Google Translate ): Возможно, это почти первый случай машинного перевода, который Петр Петрович Троянский попробовал в 1933 году. Он представил, что «создать машину, которая выбирает слова и печатает их при переводе с одного языка на другой язык или для на нескольких языках одновременно». Он получил патент на это изобретение, но в то время его не удалось реализовать.)
  11. ^ Бессё, Терухико; Савабе, Хироши (25 февраля 1964 г.). Машина перевода (Bunko Kuseju Focus of Modern Knowledge) (1-е изд.), Токио: Hakusuisha Co., Ltd., стр. 39. А. запатентованное изобретение россиянина Смирнова-Троянского, казалось, позволяло одновременно переводить несколько языков и отправлять их на большие расстояния. (перевод (при помощи Google Translate ): Изобретение, запатентованное Петром Петровичем Троянским в 1933 году, казалось, позволяло переводить несколько языков одновременно и отправлять их в отдаленные места. )
    Делавени, Эмиль. ПЕРЕВОДЧЕСКАЯ МАШИНА (Сборник QUE SAIS-JE? No.834) (на французском языке). Прессы Universitaires de France.
  12. ^ «Меморандум Ткача» . Март 1949 года. Архивировано из оригинала 5 октября 2006 года.
  13. ^ «ПРОЦЕСС ЗАКУПОК» . Канадский международный торговый трибунал . 30 июля 2002 года. Архивировано из оригинала 6 июля 2011 года . Проверено 10 февраля 2007 г.
  14. ^ Нагао, Макото (октябрь 1984 г.). «Основы механического перевода между японским и английским языками по принципу аналогии» . Учеб. Международного симпозиума НАТО по искусственному и человеческому интеллекту . Северная Голландия. стр. 173–180. ISBN  978-0-444-86545-8 .
  15. ^ «Ассоциация компьютерной лингвистики – Премия ACL за заслуги перед жанром, 2003 год» . Ассоциация компьютерной лингвистики. Архивировано из оригинала 12 июня 2010 года . Проверено 10 марта 2010 г.
  16. ^ Вайсгербер, Джон; Ян, Джин; Фишер, Пит (2000). «Портативный переводчик Тихоокеанского региона» . Машинный перевод в информационном будущем . Конспекты лекций по информатике. Том. 1934. стр. 196–201. дои : 10.1007/3-540-39965-8_21 . ISBN  978-3-540-41117-8 . S2CID   36571004 .
  17. ^ «ТК-Стар» . Проверено 25 октября 2010 г.
  18. ^ Чо, Кёнхён; ван Мерриенбур, Барт; Гульчере, Чаглар; Богданов Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). «Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода» . Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1724–1734. arXiv : 1406.1078 . дои : 10.3115/v1/d14-1179 . S2CID   5590763 .
  19. ^ Татиока, Юки; Ватанабэ, Синдзи; Ле Ру, Джонатан; Херши, Джон Р. (декабрь 2014 г.). «Последовательное дискриминационное обучение для глубоких нейронных сетей низкого ранга» . Глобальная конференция IEEE по обработке сигналов и информации (GlobalSIP) 2014 г. IEEE. стр. 572–576. дои : 10.1109/globalsip.2014.7032182 . ISBN  978-1-4799-7088-9 . S2CID   767028 .
  20. ^ «Что такое нейронный машинный перевод и как он работает?» . ПеревестиFX . Проверено 9 декабря 2022 г.

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3d578349f5064743b7dc4090bd2ab408__1720323600
URL1:https://arc.ask3.ru/arc/aa/3d/08/3d578349f5064743b7dc4090bd2ab408.html
Заголовок, (Title) документа по адресу, URL1:
History of machine translation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)