Нейронный машинный перевод

Нейронный машинный перевод ( NMT ) — это подход к машинному переводу , который использует искусственную нейронную сеть для прогнозирования вероятности последовательности слов, обычно моделируя целые предложения в единой интегрированной модели.

Сегодня это доминирующий подход ^[1]^: 293^[2]^: 1 и могут создавать переводы, которые могут конкурировать с человеческими переводами при переводе между языками с высокими ресурсами в определенных условиях. ^[3] Однако проблемы все еще остаются, особенно с языками, по которым доступны менее качественные данные. ^[4]^[5]^[1]^: 293 и со сдвигом предметной области между данными, на которых обучалась система, и текстами, которые она должна переводить. ^[1]^: 293 Системы NMT также имеют тенденцию производить довольно буквальный перевод. ^[5]

Обзор [ править ]

В задании на перевод предложение $\mathbf {x} =x_{1,I}$ (состоящий из $I$ жетоны $x_{i}$ ) на исходном языке необходимо перевести в предложение $\mathbf {y} =x_{1,J}$ (состоящий из $J$ жетоны $x_{j}$ ) на целевом языке. Исходные и целевые токены (которые в простом случае используются друг для друга для векторов конкретной игры), поэтому их можно обрабатывать математически.

Модели NMT присваивают вероятность $P(y|x)$ ^[2]^: 5^[6]^: 1 к потенциальным переводам y, а затем искать в подмножестве потенциальных переводов тот, который имеет наибольшую вероятность. Большинство моделей NMT являются авторегрессионными : они моделируют вероятность каждого целевого токена как функцию исходного предложения и ранее предсказанных целевых токенов. Тогда вероятность всего перевода является произведением вероятностей отдельных предсказанных токенов: ^[2]^: 5^[6]^: 2

P(y|x)=\prod _{j=1}^{J}P(y_{j}|y_{1,i-1},\mathbf {x} )

Модели NMT различаются тем, как именно они моделируют эту функцию. $P$ , но большинство из них используют некоторые варианты архитектуры кодера-декодера : ^[6]^: 2^[7]^: 469 Сначала они используют сеть кодировщиков для обработки $\mathbf {x}$ и закодировать его в векторное или матричное представление исходного предложения. Затем они используют сеть декодера, которая обычно производит одно целевое слово за раз, принимая во внимание исходное представление и ранее созданные токены. Как только декодер выдает специальный токен конца предложения , процесс декодирования завершается. Поскольку декодер во время выполнения ссылается на свои предыдущие выходные данные, такой способ декодирования называется авторегрессионным .

История [ править ]

подходы Ранние

В 1987 году Роберт Б. Аллен продемонстрировал использование нейронных сетей прямого распространения для перевода автоматически сгенерированных английских предложений с ограниченным словарным запасом в 31 слово на испанский. В этом эксперименте размер входного и выходного слоев сети был выбран достаточно большим для самых длинных предложений на исходном и целевом языках соответственно, поскольку в сети не было какого-либо механизма для кодирования последовательностей произвольной длины в фиксированную длину. -размерное представление. В своем резюме Аллен также уже намекнул на возможность использования автоассоциативных моделей: одной для кодирования источника, а другой — для декодирования цели. ^[8]

Лонни Крисман опирался на работу Аллена в 1991 году, обучая отдельные сети рекурсивной автоассоциативной памяти (RAAM) (разработанные Джорданом Б. Поллаком). ^[9]) для исходного и целевого языка. Каждая из сетей RAAM обучена кодировать предложение произвольной длины в скрытое представление фиксированного размера и снова декодировать исходное предложение из этого представления. Кроме того, обе сети обучены делиться своим скрытым представлением; таким образом, исходный кодер может создать представление, которое может декодировать целевой декодер. ^[10] Форкада и Сэко упростили эту процедуру в 1997 году, чтобы напрямую обучать исходный кодировщик и целевой декодер в том, что они назвали рекурсивной гетероассоциативной памятью . ^[11]

Также в 1997 году Кастаньо и Касакуберта использовали рекуррентную нейронную сеть Элмана в другой задаче машинного перевода с очень ограниченным словарным запасом и сложностью. ^[12]^[13]

Несмотря на то, что эти ранние подходы уже были похожи на современный NMT, вычислительных ресурсов того времени было недостаточно для обработки наборов данных, достаточно больших для вычислительной сложности задачи машинного перевода реальных текстов. ^[1]^: 39^[14]^: 2 другие методы, такие как статистический машинный перевод Вместо этого в 1990-х и 2000-х годах стали использоваться .

Гибридные подходы [ править ]

В то время, когда был распространен статистический машинный перевод, в некоторых работах использовались нейронные методы для замены различных частей статистического машинного перевода, при этом для их связи все еще использовался лог-линейный подход. ^[1]^: 39^[2]^: 1 Например, в различных работах совместно с другими исследователями Хольгер Швенк заменил привычную n-граммную модель языка на нейронную. ^[15]^[16] и оцененные вероятности перевода фраз с использованием сети прямой связи. ^[17]

становится доминирующим NMT

CNN и RNN [ править ]

В 2013 и 2014 годах в области сквозного нейронного машинного перевода произошел прорыв благодаря компании Kalchbrenner & Blunsom, использовавшей сверточную нейронную сеть (CNN) для кодирования источника. ^[18] и Чо и др. и Суцкевер и др. вместо этого используя рекуррентную нейронную сеть (RNN). ^[19]^[20] Все трое использовали RNN, обусловленную фиксированной кодировкой источника, в качестве декодера для выполнения перевода. Однако эти модели плохо работали с длинными предложениями. ^[21]^: 107^[1]^: 39^[2]^: 7 Эта проблема была решена, когда Богданау и др. обратили внимание на их архитектуру кодера-декодера: на каждом этапе декодирования состояние декодера используется для расчета представления источника, которое фокусируется на различных частях источника и использует это представление при вычислении вероятностей для следующего токена. ^[22] На основе этих архитектур на основе RNN Baidu запустила «первую крупномасштабную систему NMT». ^[23]^: 144 в 2015 году, а затем Google в 2016 году. ^[23]^: 144^[24] С этого года нейронные модели также стали преобладающим выбором на основной конференции по машинному переводу «Семинар по статистическому машинному переводу». ^[25]

Геринг и др. объединили кодер CNN с механизмом внимания в 2017 году, который обрабатывал дальние зависимости в источнике лучше, чем предыдущие подходы, а также увеличивал скорость трансляции, поскольку кодер CNN можно распараллеливать, тогда как кодер RNN должен кодировать один токен за раз из-за его рецидивирующий характер. ^[26]^: 230 В том же году «Microsoft Translator» выпустила онлайн-нейронный машинный перевод (NMT) на базе искусственного интеллекта. ^[27] DeepL Translator , который в то время был основан на кодировщике CNN , также был выпущен в том же году и был оценен несколькими новостными агентствами как превосходящий своих конкурентов. ^[28]^[29]^[30] Также было замечено, что OpenAI , GPT-3 выпущенный в 2020 году, может функционировать как система нейронного машинного перевода. Можно заметить, что некоторые другие системы машинного перевода, такие как переводчик Microsoft и SYSTRAN, также интегрировали нейронные сети в свои операции.

Трансформатор [ править ]

Другая сетевая архитектура, поддающаяся распараллеливанию, — это преобразователь , предложенный Васвани и др. также в 2017 году. ^[31] Как и предыдущие модели, преобразователь по-прежнему использует механизм внимания для взвешивания выходного сигнала кодера на этапах декодирования. Однако сами сети кодера и декодера преобразователя также основаны на внимании, а не на повторении или свертке: каждый уровень взвешивает и преобразует выходные данные предыдущего уровня в процессе, называемом самовниманием . Поскольку в механизме внимания нет никакого понятия о порядке токенов, но порядок слов в предложении явно важен, встраивания токенов комбинируются с явным кодированием их положения в предложении . ^[2]^: 15^[6]^: 7 Поскольку и кодер, и декодер преобразователя не содержат повторяющихся элементов, их можно распараллелить во время обучения. Однако декодер исходного преобразователя по-прежнему является авторегрессионным, а это означает, что декодирование по-прежнему необходимо выполнять по одному токену во время вывода.

Модель трансформатора быстро стала доминирующим выбором для систем машинного перевода. ^[2]^: 44 и по-прежнему оставалась наиболее часто используемой архитектурой на семинаре по статистическому машинному переводу в 2022 и 2023 годах. ^[32]^: 35–40^[33]^: 28–31

Обычно веса моделей NMT инициализируются случайным образом, а затем изучаются путем обучения на параллельных наборах данных. Однако, поскольку использование больших языковых моделей (LLM), таких как BERT, предварительно обученных на больших объемах одноязычных данных, в качестве отправной точки для изучения других задач , оказалось очень успешным в более широком НЛП , эта парадигма также становится все более распространенной в НМТ. Это особенно полезно для языков с низким уровнем ресурсов, где не существуют большие параллельные наборы данных. ^[4]^{: 689–690} Примером этого является модель mBART, которая сначала обучает один преобразователь на многоязычном наборе данных восстанавливать замаскированные токены в предложениях, а затем настраивает полученный автокодировщик на задачу перевода. ^[34]

Генеративные LLM [ править ]

Вместо точной настройки предварительно обученной языковой модели для задачи перевода можно также напрямую предложить достаточно большим генеративным моделям перевести предложение на желаемый язык. Этот подход был впервые всесторонне протестирован и оценен для GPT 3.5 в 2023 году Hendy et al. Они обнаружили, что «системы GPT могут производить очень плавные и конкурентоспособные результаты перевода даже при нулевых условиях, особенно для переводов на языки с высокими ресурсами». ^[35]^: 22 WMT23 оценил тот же подход (но с использованием GPT-4 ) и обнаружил, что он находится на одном уровне с современным уровнем техники при переводе на английский, но не совсем при переводе на языки с более низкими ресурсами. ^[33]^: 16–17 Это вполне правдоподобно, учитывая, что модели GPT обучаются в основном на английском тексте. ^[36]

машинным со статистическим Сравнение переводом

NMT преодолел несколько проблем, которые присутствовали в статистическом машинном переводе (SMT):

Полная уверенность NMT в непрерывном представлении токенов позволила преодолеть проблемы разреженности, вызванные редкими словами или фразами. Модели смогли более эффективно обобщать. ^[18]^: 1^[37]^{: 900–901}
Ограниченная длина n-грамм, используемая в моделях языка n-грамм SMT, привела к потере контекста. Системы NMT преодолевают эту проблему, поскольку не имеют жесткого ограничения после фиксированного количества токенов и уделяют внимание выбору токенов, на которых следует сосредоточиться при создании следующего токена. ^[37]^{: 900–901}
Сквозное обучение одной модели улучшило производительность перевода, а также упростило весь процесс. ^{[ нужна ссылка ]}
Огромные n-граммовые модели (до 7 грамм), используемые в SMT, требовали больших объемов памяти, ^[38]^: 88 тогда как NMT требует меньше.

Процедура обучения [ править ]

Перекрестная энтропийная потеря

Модели NMT обычно обучаются, чтобы максимизировать вероятность наблюдения обучающих данных. Т.е. для набора данных $T$ исходные предложения $X=\mathbf {x} ^{(1)},...,\mathbf {x} ^{(T)}$ и соответствующие целевые предложения $Y=\mathbf {y} ^{(1)},...,\mathbf {y} ^{(T)}$ , цель – найти параметры модели $\theta ^{*}$ которые максимизируют сумму вероятности каждого целевого предложения в обучающих данных с учетом соответствующего исходного предложения:

\theta ^{*}={\underset {\theta }{\operatorname {arg\,max} }}\sum _{i}^{T}P_{\theta }(\mathbf {y} ^{(i)}|\mathbf {x} ^{(i)})

Расширение до уровня токена дает:

\theta ^{*}={\underset {\theta }{\operatorname {arg\,max} }}\sum _{i}^{T}\prod _{j=1}^{J^{(i)}}P(y_{j}^{(i)}|y_{1,j-1}^{(i)},\mathbf {x} ^{(i)})

Поскольку нас интересует только максимум, мы можем вместо этого искать максимум логарифма (что имеет то преимущество, что позволяет избежать опустошения числа с плавающей запятой , которое может произойти с произведением низких вероятностей).

\theta ^{*}={\underset {\theta }{\operatorname {arg\,max} }}\sum _{i}^{T}\log \prod _{j=1}^{J^{(i)}}P(y_{j}^{(i)}|y_{1,j-1}^{(i)},\mathbf {x} ^{(i)})

Использование того факта, что логарифм произведения представляет собой сумму логарифмов факторов , и изменение знака дает классическую кросс-энтропийную потерю :

\theta ^{*}={\underset {\theta }{\operatorname {arg\,min} }}-\sum _{i}^{T}\log \sum _{j=1}^{J^{(i)}}P(y_{j}^{(i)}|y_{1,j-1}^{(i)},\mathbf {x} ^{(i)})

На практике эта минимизация выполняется итеративно на небольших подмножествах (мини-пакетах) обучающего набора с использованием стохастического градиентного спуска .

Учитель заставляет [ править ]

Во время вывода авторегрессивные декодеры используют токен, сгенерированный на предыдущем шаге, в качестве входного токена. Однако словарь целевых токенов обычно очень велик. Таким образом, в начале этапа обучения необученные модели почти всегда выбирают неправильный токен; и последующие шаги должны будут работать с неправильными входными токенами, что значительно замедлит обучение. Вместо этого на этапе обучения используется принуждение учителя : модель («ученик» в метафоре принуждения учителя) всегда получает предыдущие токены базовой истины в качестве входных данных для следующего токена, независимо от того, что было предсказано на предыдущем шаге.

Перевод, выполненный LLM по быстрому инжинирингу [ править ]

Как указано в разделе истории выше, вместо использования системы NMT, обученной на параллельном тексте, можно также предложить генеративному LLM перевести текст. Эти модели отличаются от системы NMT кодер-декодер по ряду причин: ^[35]^: 1

Генеративные языковые модели не обучаются решению задач перевода, не говоря уже о параллельном наборе данных. Вместо этого их обучают задачам языкового моделирования, например, предсказанию следующего слова в последовательности, взятой из большого набора текстовых данных. Этот набор данных может содержать документы на многих языках, но на практике в нем преобладает текст на английском языке. ^[36] После предварительной подготовки они настраиваются на выполнение другой задачи , обычно следуя инструкциям. ^[39]
Поскольку они не обучены переводу, они также не имеют архитектуры кодировщика-декодера. Вместо этого они просто состоят из декодера трансформатора.
Чтобы быть конкурентоспособными в области машинного перевода, LLM должны быть намного больше, чем другие системы NMT. Например, GPT-3 имеет 175 миллиардов параметров, ^[40]^: 5 в то время как mBART имеет 680 миллионов ^[34]^: 727 а у оригинального трансформера «всего» 213 миллионов. ^[31]^: 9 Это означает, что их обучение и использование требуют больших вычислительных затрат.

Генеративный LLM можно запустить с нуля , просто попросив его перевести текст на другой язык, не приводя никаких дополнительных примеров в подсказке. Или можно включить в подсказку один или несколько примеров перевода, прежде чем просить перевести рассматриваемый текст. Тогда это называется однократным или малократным обучением соответственно. Например, Hendy et al. использовали следующие подсказки. (2023) для нулевого и однократного перевода: ^[35]

### Translate this sentence from [source language] to [target language], Source:
[source sentence]
### Target:

Translate this into 1. [target language]:
[shot 1 source]
1. [shot 1 reference]
Translate this into 1. [target language]:
[input]
1.

Литература [ править ]

Коэн, Филипп (2020). Нейронный машинный перевод. Издательство Кембриджского университета.
Штальберг, Феликс (2020). Нейронный машинный перевод: обзор и обзор.

См. также [ править ]

Ссылки [ править ]

↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж Коэн, Филипп (2020). Нейронный машинный перевод . Издательство Кембриджского университета.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Штальберг, Феликс (29 сентября 2020 г.). «Нейронный машинный перевод: обзор и обзор». arXiv : 1912.02047v2 [ cs.CL ].
^ Эш, Мартин; Томкова, Маркета; Томек, Якуб; Кайзер, Лукаш; Ушкорейт, Якоб; Бояр, Ондрей; Жабокртский, Зденек (01 сентября 2020 г.). «Преобразование машинного перевода: система глубокого обучения достигает качества перевода новостей, сравнимого с качеством перевода людей-профессионалов» . Природные коммуникации . 11 (1): 4381. doi : 10.1038/s41467-020-18073-9 . hdl : 11346/BIBLIO@id=368112263610994118 . ISSN 2041-1723 . ПМЦ 7463233 . ПМИД 32873773 .
↑ Перейти обратно: Перейти обратно: ^а ^б Хэддоу, Барри; Боуден, Рэйчел; Мичели Бароне, Антонио Валерио; Хельц, Йиндржих; Береза, Александра (2022). «Обзор малоресурсного машинного перевода» . Компьютерная лингвистика . 48 (3): 673–732. arXiv : 2109.00486 . дои : 10.1162/coli_a_00446 .
↑ Перейти обратно: Перейти обратно: ^а ^б Пуабо, Тьерри (2022). Кальцолари, Николетта; Беше, Фредерик; Блаш, Филипп; Шукри, Халид; Сиери, Кристофер; Деклерк, Тьерри; Гогги, Сара; Исахара, Хитоши; Мегаард, Бенте (ред.). «О «человеческом паритете» и «сверхчеловеческой деятельности» в оценке машинного перевода» . Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 6018–6023.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д Тан, Чжисин; Ян, Цзунхан; Хуан, Сюаньчэн; Сунь, Маосун, Ян (31 декабря 2020 г.). .arXiv cs.CL : 2012.15515 [ ] .
^ Гудфеллоу, Ян; Бенджио, Йошуа; Курвиль, Аарон (2016). «12.4.5 Нейронный машинный перевод» . Глубокое обучение . МТИ Пресс. стр. 468–471 . Проверено 29 декабря 2022 г.
^ Аллен, Роберт Б. (1987). Несколько исследований естественного языка и обратного распространения ошибки . Первая международная конференция IEEE по нейронным сетям. Том. 2. Сан-Диего. стр. 335–341 . Проверено 30 декабря 2022 г.
^ Крисман, Лонни (1991). «Изучение рекурсивных распределенных представлений для целостных вычислений» . Наука о связях . 3 (4): 345–366. дои : 10.1080/09540099108946592 . ISSN 0954-0091 .
^ Поллак, Джордан Б. (1990). «Рекурсивные распределенные представления» . Искусственный интеллект . 46 (1): 77–105. дои : 10.1016/0004-3702(90)90005-К .
^ Форкада, Микель Л.; Сэко, Рамон П. (1997). Рекурсивная гетероассоциативная память для перевода . Конспекты лекций по информатике. Том. 1240. стр. 453–462. дои : 10.1007/BFb0032504 . ISBN 978-3-540-63047-0 . {{cite book}}: |journal= игнорируется ( помогите )
^ Кастаньо, Асунсьон; Касакуберта, Франциско (1997). Коннекционистский подход к машинному переводу . 5-я Европейская конференция по речевой коммуникации и технологиям (Eurospech, 1997). Родос, Греция. стр. 91–94. doi : 10.21437/Eurospech.1997-50 .
^ Кастаньо, Асунсьон; Касакуберта, Франциско; Видаль, Энрике (23 июля 1997 г.). Машинный перевод с использованием нейронных сетей и моделей конечных состояний . Материалы 7-й конференции по теоретико-методологическим проблемам машинного перевода естественных языков. Колледж Святого Иоанна, Санта-Фе.
^ Ян, Шуохэн; Ван, Юсинь; Чу, Сяовэнь (18 февраля 2020 г.). «Обзор методов глубокого обучения для нейронного машинного перевода». arXiv : 2002.07526 [ cs.CL ].
^ Швенк, Хольгер; Дешелотт, Дэниел; Говен, Жан-Люк (2006). Модели языка непрерывного пространства для статистического машинного перевода . Материалы стендовых докладов основной конференции COLING/ACL 2006. Сидней, Австралия. стр. 723–730.
^ Швенк, Хольгер (2007). «Модели непрерывного пространства». Компьютерная речь и язык . 3 (21): 492–518. дои : 10.1016/j.csl.2006.09.003 .
^ Швенк, Хольгер (2012). Модели перевода в непрерывном пространстве для фразового статистического машинного перевода . Материалы COLING 2012: Плакаты. Мумбаи, Индия. стр. 1071–1080.
↑ Перейти обратно: Перейти обратно: ^а ^б Кальхбреннер, Нал; Блансом, Филип (2013). «Рекуррентные модели непрерывного перевода» . Труды Ассоциации компьютерной лингвистики : 1700–1709.
^ Чо, Кёнхён; ван Мерриенбур, Барт; Гульчере, Чаглар; Богданов Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода . Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP). Доха, Катар: Ассоциация компьютерной лингвистики. стр. 1724–1734. arXiv : 1406.1078 . дои : 10.3115/v1/D14-1179 .
^ Суцкевер, Илья; Виньялс, Ориол; Ле, Куок В. (2014). «Последовательное обучение с помощью нейронных сетей» . Достижения в области нейронных систем обработки информации . 27 . Карран Ассошиэйтс, Инк.
^ Чо, Кёнхён; ван Мерриенбур, Барт; Богданов Дмитрий; Бенджио, Йошуа (2014). О свойствах нейронного машинного перевода: подходы кодировщика-декодера . Материалы SSST-8, Восьмого семинара по синтаксису, семантике и структуре статистического перевода. Доха, Катар: Ассоциация компьютерной лингвистики. стр. 103–111. arXiv : 1409.1259 . дои : 10.3115/v1/W14-4012 .
^ Богданов Дмитрий; Чо, Кёнхён; Бенджио, Йошуа (2014). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [ cs.CL ].
↑ Перейти обратно: Перейти обратно: ^а ^б Хуа, Хуан; Чёрч, Кеннет Уорд (01.11.2022) дело 18 . . : 143–153 . Ван, Хайфэн ; Инженерное .2021.03.023 .
^ Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Ле, Куок В.; Норузи, Мохаммед; Машери, Вольфганг; Крикун, Максим; Цао, Юань; Гао, Цинь; Машери, Клаус; Клингнер, Джефф; Шах, Апурва; Джонсон, Мелвин; Лю, Сяобин; Кайзер, Лукаш (2016). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [ cs.CL ].
^ Бояр, Ондрей; Чаттерджи, Раджен; Федерманн, Кристиан; Грэм, Иветт; Хэддоу, Барри; Гек, Матиас; Йепес, Антонио Химено; Коэн, Филипп; Логачева Варвара; Монц, Кристоф; Негри, Маттео; Невеоль, Орели; Невес, Мариана; Попель, Мартин; Пост, Мэтт; Рубино, Рафаэль; Скартон, Каролина; Специя, Люсия; Турки, Марко; Верспур, Карин; Зампиери, Маркос (2016). «Итоги конференции по машинному переводу 2016 г.» (PDF) . Первая конференция ACL 2016 по машинному переводу (WMT16) . Ассоциация компьютерной лингвистики: 131–198. Архивировано из оригинала (PDF) 27 января 2018 г. Проверено 27 января 2018 г.
^ Геринг, Йонас; Аули, Майкл; Гранжер, Дэвид; Дофин, Янн (2017). Модель сверточного кодировщика для нейронного машинного перевода . Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). Ванкувер, Канада: Ассоциация компьютерной лингвистики. стр. 123–135. arXiv : 1611.02344 . дои : 10.18653/v1/P17-1012 .
^ Переводчик, Microsoft (18 апреля 2018 г.). «Microsoft предоставляет конечным пользователям и разработчикам возможность перевода на основе искусственного интеллекта независимо от того, находитесь ли вы в сети или оффлайн» . Блог переводчика Microsoft . Проверено 19 апреля 2024 г. {{cite web}}: |last= имеет общее имя ( справка )
^ Колдьюи, Девин (29 августа 2017 г.). «DeepL обучает других онлайн-переводчиков умному машинному обучению» . ТехКранч . Проверено 26 декабря 2023 г.
^ Лелуп, Дэмиен; Ларуссери, Дэвид (29 августа 2022 г.). «Какой сервис онлайн-перевода лучший?» . Мир . Проверено 10 января 2023 г.
^ Пакальски, Инго (29 августа 2017 г.). «DeepL на практике: новый инструмент переводит намного лучше, чем Google и Microsoft» . Голем . Проверено 10 января 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Васван, Ашиш; Шазир, Ноам; Пармар, Ник; Ушкорейт, Джейкоб; Гомес, Эйдан Н.; Кайзер, Лукаш; Полосухин, Илья (2017). Внимание — это все, что вам нужно Достижения в области нейронных систем обработки информации 30 (NIPS 2017). стр. 100-1 5998–6008.
^ Кочми, Том; Боуден, Рэйчел; Бояр, среда; Дворкович, Антон; Федерманн, Кристиан; Фишел, Марк; Гауда, Тамме; Грэм, Иветт; Грундкевич, Роман; Хэддоу, Барри; Ноулз, Ребекка; Коэн, Филипп; Монц, Кристофер; Моришита, Макото; Нагата, Масааки (2022). Коэн, Филипп; Барро, Лоик; Бояр, среда; Бугарес, Фетхи; Чаттерджи, Раджен; Кост-Юсс, Марта Р.; Федерманн, Кристиан; Фишел, Марк; Фрейзер, Александр (ред.). Результаты конференции по машинному переводу 2022 года (WMT22) . Материалы седьмой конференции по машинному переводу (WMT). Абу-Даби, Объединенные Арабские Эмираты (гибрид): Ассоциация компьютерной лингвистики. стр. 100-1 1–45.
↑ Перейти обратно: Перейти обратно: ^а ^б Кочми, Том; Аврамидис, Элефтериос; Боуден, Рэйчел; Бояр, Ондржей; Дворкович, Антон; Федерманн, Кристиан; Фишел, Марк; Фрайтаг, Маркус; Гауда, Тамме; Грундкевич, Роман; Хэддоу, Барри; Коэн, Филипп; Мари, Бенджамин; Монц, Кристоф; Моришита, Макото (2023). Коэн, Филипп; Хэддоу, Барри; Кочми, Том; Монц, Кристоф (ред.). Результаты конференции по машинному переводу 2023 года (WMT23): степень магистра права уже здесь, но еще не совсем там . Материалы восьмой конференции по машинному переводу . Сингапур: Ассоциация компьютерной лингвистики. стр. 1–42. дои : 10.18653/v1/2023.wmt-1.1 .
↑ Перейти обратно: Перейти обратно: ^а ^б Лю, Иньхан; Гу, Цзятао; Гоял, Наман; Ли, Сиань; Эдунов, Сергей; Газвининежад, Марджан; Льюис, Майк; Зеттлмойер, Люк (2020). «Предварительная тренировка по многоязычному шумоподавлению для нейронного машинного перевода» . Труды Ассоциации компьютерной лингвистики . 8 : 726–742. arXiv : 2001.08210 . дои : 10.1162/tacl_a_00343 .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Хенди, Амр; Абдельрехим, Мохамед; Шараф, Амр; Раунак, Викас; Габр, Мохамед; Мацусита, Хитокадзу; Ким, Ён Джин; Афифи, Мохамед; Авадалла, Хани (18 февраля 2023 г.). «Насколько хороши модели GPT при машинном переводе? Комплексная оценка». arXiv : 2302.09210 [ cs.CL ].
↑ Перейти обратно: Перейти обратно: ^а ^б «Статистика набора данных GPT 3: языки по количеству символов» . ОпенАИ. 01.06.2020 . Проверено 23 декабря 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Рассел, Стюарт; Норвиг, Питер. Искусственный интеллект: современный подход (4-е, глобальное изд.). Пирсон.
^ Федерико, Марчелло; Четтоло, Мауро (2007). Каллисон-Берч, Крис; Коэн, Филипп; Фордайс, Кэмерон Шоу; Монц, Кристоф (ред.). «Эффективная обработка N-граммных языковых моделей для статистического машинного перевода» . Материалы второго семинара по статистическому машинному переводу . Прага, Чехия: Ассоциация компьютерной лингвистики: 88–95. дои : 10.3115/1626355.1626367 .
^ Рэдфорд, Алек; Нарасимхан, Картик; Салиманс, Тим; Суцкевер, Илья (2018). Улучшение понимания языка посредством генеративной предварительной подготовки (PDF) (Технический отчет). ОпенАИ . Проверено 26 декабря 2023 г.
^ Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред Д.; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон (2020). «Языковые модели изучаются немногими» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.

[Koehn2020-1] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж Коэн, Филипп (2020). Нейронный машинный перевод . Издательство Кембриджского университета.

[Stahlberg2020-2] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Штальберг, Феликс (29 сентября 2020 г.). «Нейронный машинный перевод: обзор и обзор». arXiv : 1912.02047v2 [ cs.CL ].

[Popel2020-3] Эш, Мартин; Томкова, Маркета; Томек, Якуб; Кайзер, Лукаш; Ушкорейт, Якоб; Бояр, Ондрей; Жабокртский, Зденек (01 сентября 2020 г.). «Преобразование машинного перевода: система глубокого обучения достигает качества перевода новостей, сравнимого с качеством перевода людей-профессионалов» . Природные коммуникации . 11 (1): 4381. doi : 10.1038/s41467-020-18073-9 . hdl : 11346/BIBLIO@id=368112263610994118 . ISSN 2041-1723 . ПМЦ 7463233 . ПМИД 32873773 .

[Haddow2022-4] Перейти обратно: Перейти обратно: ^а ^б Хэддоу, Барри; Боуден, Рэйчел; Мичели Бароне, Антонио Валерио; Хельц, Йиндржих; Береза, Александра (2022). «Обзор малоресурсного машинного перевода» . Компьютерная лингвистика . 48 (3): 673–732. arXiv : 2109.00486 . дои : 10.1162/coli_a_00446 .

[Poibeau2022-5] Перейти обратно: Перейти обратно: ^а ^б Пуабо, Тьерри (2022). Кальцолари, Николетта; Беше, Фредерик; Блаш, Филипп; Шукри, Халид; Сиери, Кристофер; Деклерк, Тьерри; Гогги, Сара; Исахара, Хитоши; Мегаард, Бенте (ред.). «О «человеческом паритете» и «сверхчеловеческой деятельности» в оценке машинного перевода» . Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 6018–6023.

[Tan2020-6] Перейти обратно: Перейти обратно: ^а ^б ^с ^д Тан, Чжисин; Ян, Цзунхан; Хуан, Сюаньчэн; Сунь, Маосун, Ян (31 декабря 2020 г.). .arXiv cs.CL : 2012.15515 [ ] .

[Goodfellow2013-7] Гудфеллоу, Ян; Бенджио, Йошуа; Курвиль, Аарон (2016). «12.4.5 Нейронный машинный перевод» . Глубокое обучение . МТИ Пресс. стр. 468–471 . Проверено 29 декабря 2022 г.

[Allen1987-8] Аллен, Роберт Б. (1987). Несколько исследований естественного языка и обратного распространения ошибки . Первая международная конференция IEEE по нейронным сетям. Том. 2. Сан-Диего. стр. 335–341 . Проверено 30 декабря 2022 г.

[Pollack1990-9] Крисман, Лонни (1991). «Изучение рекурсивных распределенных представлений для целостных вычислений» . Наука о связях . 3 (4): 345–366. дои : 10.1080/09540099108946592 . ISSN 0954-0091 .

[Chrisman1991-10] Поллак, Джордан Б. (1990). «Рекурсивные распределенные представления» . Искусственный интеллект . 46 (1): 77–105. дои : 10.1016/0004-3702(90)90005-К .

[Forcada1997-11] Форкада, Микель Л.; Сэко, Рамон П. (1997). Рекурсивная гетероассоциативная память для перевода . Конспекты лекций по информатике. Том. 1240. стр. 453–462. дои : 10.1007/BFb0032504 . ISBN 978-3-540-63047-0 . {{cite book}}: |journal= игнорируется ( помогите )

[Castano1997a-12] Кастаньо, Асунсьон; Касакуберта, Франциско (1997). Коннекционистский подход к машинному переводу . 5-я Европейская конференция по речевой коммуникации и технологиям (Eurospech, 1997). Родос, Греция. стр. 91–94. doi : 10.21437/Eurospech.1997-50 .

[Castano1997b-13] Кастаньо, Асунсьон; Касакуберта, Франциско; Видаль, Энрике (23 июля 1997 г.). Машинный перевод с использованием нейронных сетей и моделей конечных состояний . Материалы 7-й конференции по теоретико-методологическим проблемам машинного перевода естественных языков. Колледж Святого Иоанна, Санта-Фе.

[Yang2020-14] Ян, Шуохэн; Ван, Юсинь; Чу, Сяовэнь (18 февраля 2020 г.). «Обзор методов глубокого обучения для нейронного машинного перевода». arXiv : 2002.07526 [ cs.CL ].

[Schwenk2006-15] Швенк, Хольгер; Дешелотт, Дэниел; Говен, Жан-Люк (2006). Модели языка непрерывного пространства для статистического машинного перевода . Материалы стендовых докладов основной конференции COLING/ACL 2006. Сидней, Австралия. стр. 723–730.

[Schwenk2007-16] Швенк, Хольгер (2007). «Модели непрерывного пространства». Компьютерная речь и язык . 3 (21): 492–518. дои : 10.1016/j.csl.2006.09.003 .

[Schwenk2012-17] Швенк, Хольгер (2012). Модели перевода в непрерывном пространстве для фразового статистического машинного перевода . Материалы COLING 2012: Плакаты. Мумбаи, Индия. стр. 1071–1080.

[KalchbrennerBlunsom2013-18] Перейти обратно: Перейти обратно: ^а ^б Кальхбреннер, Нал; Блансом, Филип (2013). «Рекуррентные модели непрерывного перевода» . Труды Ассоциации компьютерной лингвистики : 1700–1709.

[Cho2014EncDec-19] Чо, Кёнхён; ван Мерриенбур, Барт; Гульчере, Чаглар; Богданов Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода . Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP). Доха, Катар: Ассоциация компьютерной лингвистики. стр. 1724–1734. arXiv : 1406.1078 . дои : 10.3115/v1/D14-1179 .

[Sutskever2014-20] Суцкевер, Илья; Виньялс, Ориол; Ле, Куок В. (2014). «Последовательное обучение с помощью нейронных сетей» . Достижения в области нейронных систем обработки информации . 27 . Карран Ассошиэйтс, Инк.

[Cho2014Properties-21] Чо, Кёнхён; ван Мерриенбур, Барт; Богданов Дмитрий; Бенджио, Йошуа (2014). О свойствах нейронного машинного перевода: подходы кодировщика-декодера . Материалы SSST-8, Восьмого семинара по синтаксису, семантике и структуре статистического перевода. Доха, Катар: Ассоциация компьютерной лингвистики. стр. 103–111. arXiv : 1409.1259 . дои : 10.3115/v1/W14-4012 .

[Bahdanau2015-22] Богданов Дмитрий; Чо, Кёнхён; Бенджио, Йошуа (2014). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [ cs.CL ].

[Wang2022-23] Перейти обратно: Перейти обратно: ^а ^б Хуа, Хуан; Чёрч, Кеннет Уорд (01.11.2022) дело 18 . . : 143–153 . Ван, Хайфэн ; Инженерное .2021.03.023 .

[Wu2016-24] Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Ле, Куок В.; Норузи, Мохаммед; Машери, Вольфганг; Крикун, Максим; Цао, Юань; Гао, Цинь; Машери, Клаус; Клингнер, Джефф; Шах, Апурва; Джонсон, Мелвин; Лю, Сяобин; Кайзер, Лукаш (2016). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [ cs.CL ].

[WMT2016-25] Бояр, Ондрей; Чаттерджи, Раджен; Федерманн, Кристиан; Грэм, Иветт; Хэддоу, Барри; Гек, Матиас; Йепес, Антонио Химено; Коэн, Филипп; Логачева Варвара; Монц, Кристоф; Негри, Маттео; Невеоль, Орели; Невес, Мариана; Попель, Мартин; Пост, Мэтт; Рубино, Рафаэль; Скартон, Каролина; Специя, Люсия; Турки, Марко; Верспур, Карин; Зампиери, Маркос (2016). «Итоги конференции по машинному переводу 2016 г.» (PDF) . Первая конференция ACL 2016 по машинному переводу (WMT16) . Ассоциация компьютерной лингвистики: 131–198. Архивировано из оригинала (PDF) 27 января 2018 г. Проверено 27 января 2018 г.

[Gehring2017-26] Геринг, Йонас; Аули, Майкл; Гранжер, Дэвид; Дофин, Янн (2017). Модель сверточного кодировщика для нейронного машинного перевода . Материалы 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). Ванкувер, Канада: Ассоциация компьютерной лингвистики. стр. 123–135. arXiv : 1611.02344 . дои : 10.18653/v1/P17-1012 .

[27] Переводчик, Microsoft (18 апреля 2018 г.). «Microsoft предоставляет конечным пользователям и разработчикам возможность перевода на основе искусственного интеллекта независимо от того, находитесь ли вы в сети или оффлайн» . Блог переводчика Microsoft . Проверено 19 апреля 2024 г. {{cite web}}: |last= имеет общее имя ( справка )

[DeepLTechCrunch-28] Колдьюи, Девин (29 августа 2017 г.). «DeepL обучает других онлайн-переводчиков умному машинному обучению» . ТехКранч . Проверено 26 декабря 2023 г.

[DeepLLeMonde-29] Лелуп, Дэмиен; Ларуссери, Дэвид (29 августа 2022 г.). «Какой сервис онлайн-перевода лучший?» . Мир . Проверено 10 января 2023 г.

[DeepLGolem-30] Пакальски, Инго (29 августа 2017 г.). «DeepL на практике: новый инструмент переводит намного лучше, чем Google и Microsoft» . Голем . Проверено 10 января 2023 г.

[Vaswani2017-31] Перейти обратно: Перейти обратно: ^а ^б Васван, Ашиш; Шазир, Ноам; Пармар, Ник; Ушкорейт, Джейкоб; Гомес, Эйдан Н.; Кайзер, Лукаш; Полосухин, Илья (2017). Внимание — это все, что вам нужно Достижения в области нейронных систем обработки информации 30 (NIPS 2017). стр. 100-1 5998–6008.

[WMT2022-32] Кочми, Том; Боуден, Рэйчел; Бояр, среда; Дворкович, Антон; Федерманн, Кристиан; Фишел, Марк; Гауда, Тамме; Грэм, Иветт; Грундкевич, Роман; Хэддоу, Барри; Ноулз, Ребекка; Коэн, Филипп; Монц, Кристофер; Моришита, Макото; Нагата, Масааки (2022). Коэн, Филипп; Барро, Лоик; Бояр, среда; Бугарес, Фетхи; Чаттерджи, Раджен; Кост-Юсс, Марта Р.; Федерманн, Кристиан; Фишел, Марк; Фрейзер, Александр (ред.). Результаты конференции по машинному переводу 2022 года (WMT22) . Материалы седьмой конференции по машинному переводу (WMT). Абу-Даби, Объединенные Арабские Эмираты (гибрид): Ассоциация компьютерной лингвистики. стр. 100-1 1–45.

[WMT2023-33] Перейти обратно: Перейти обратно: ^а ^б Кочми, Том; Аврамидис, Элефтериос; Боуден, Рэйчел; Бояр, Ондржей; Дворкович, Антон; Федерманн, Кристиан; Фишел, Марк; Фрайтаг, Маркус; Гауда, Тамме; Грундкевич, Роман; Хэддоу, Барри; Коэн, Филипп; Мари, Бенджамин; Монц, Кристоф; Моришита, Макото (2023). Коэн, Филипп; Хэддоу, Барри; Кочми, Том; Монц, Кристоф (ред.). Результаты конференции по машинному переводу 2023 года (WMT23): степень магистра права уже здесь, но еще не совсем там . Материалы восьмой конференции по машинному переводу . Сингапур: Ассоциация компьютерной лингвистики. стр. 1–42. дои : 10.18653/v1/2023.wmt-1.1 .

[Liu2020-34] Перейти обратно: Перейти обратно: ^а ^б Лю, Иньхан; Гу, Цзятао; Гоял, Наман; Ли, Сиань; Эдунов, Сергей; Газвининежад, Марджан; Льюис, Майк; Зеттлмойер, Люк (2020). «Предварительная тренировка по многоязычному шумоподавлению для нейронного машинного перевода» . Труды Ассоциации компьютерной лингвистики . 8 : 726–742. arXiv : 2001.08210 . дои : 10.1162/tacl_a_00343 .

[Hendy2023-35] Перейти обратно: Перейти обратно: ^а ^б ^с Хенди, Амр; Абдельрехим, Мохамед; Шараф, Амр; Раунак, Викас; Габр, Мохамед; Мацусита, Хитокадзу; Ким, Ён Джин; Афифи, Мохамед; Авадалла, Хани (18 февраля 2023 г.). «Насколько хороши модели GPT при машинном переводе? Комплексная оценка». arXiv : 2302.09210 [ cs.CL ].

[GPT3LanguagesByCharacterCount2020-36] Перейти обратно: Перейти обратно: ^а ^б «Статистика набора данных GPT 3: языки по количеству символов» . ОпенАИ. 01.06.2020 . Проверено 23 декабря 2023 г.

[Russell2020-37] Перейти обратно: Перейти обратно: ^а ^б Рассел, Стюарт; Норвиг, Питер. Искусственный интеллект: современный подход (4-е, глобальное изд.). Пирсон.

[Federico2007-38] Федерико, Марчелло; Четтоло, Мауро (2007). Каллисон-Берч, Крис; Коэн, Филипп; Фордайс, Кэмерон Шоу; Монц, Кристоф (ред.). «Эффективная обработка N-граммных языковых моделей для статистического машинного перевода» . Материалы второго семинара по статистическому машинному переводу . Прага, Чехия: Ассоциация компьютерной лингвистики: 88–95. дои : 10.3115/1626355.1626367 .

[Radford2018-39] Рэдфорд, Алек; Нарасимхан, Картик; Салиманс, Тим; Суцкевер, Илья (2018). Улучшение понимания языка посредством генеративной предварительной подготовки (PDF) (Технический отчет). ОпенАИ . Проверено 26 декабря 2023 г.

[Brown2020-40] Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред Д.; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон (2020). «Языковые модели изучаются немногими» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]