Seq2seq

Из Википедии, бесплатной энциклопедии

Seq2seq — это семейство подходов машинного обучения , используемых для обработки естественного языка . [1] Приложения включают языковой перевод , субтитры к изображениям , разговорные модели и обобщение текста . [2] Seq2seq использует преобразование последовательности : он превращает одну последовательность в другую последовательность.

История [ править ]

Алгоритм был разработан Google для использования в машинном переводе . [2] [ ненадежный источник ]

Аналогичная более ранняя работа включает Томаша Миколова, написанную в 2012 году. докторскую диссертацию [3] [ нужен неосновной источник ] .

В 2023 году, получив награду Test of Time от NeurIPS за статью word2vec , Миколов сделал публичное заявление. [4] В нем он подтвердил, что идея нейронного перевода последовательности в последовательность исходит от него и возникла еще до того, как он присоединился к Google. Он также заявил, что говорил об этой идее Илье Суцкеверу и Куок Ле и неоднократно обсуждал ее с ними. И он обвинил их в публикации статьи seq2seq без его признания.

В 2019 году Facebook объявил о его использовании для символьного интегрирования и решения дифференциальных уравнений . Компания заявила, что может решать сложные уравнения быстрее и с большей точностью, чем коммерческие решения, такие как Mathematica , MATLAB и Maple . Сначала уравнение разбирается в древовидную структуру, чтобы избежать особенностей обозначений. Затем нейронная сеть LSTM применяет свои стандартные средства распознавания образов для обработки дерева. [5]

В 2020 году Google выпустила Meena, 2,6 миллиардами параметров на основе seq2seq с чат-бот , обученный на наборе данных объемом 341 ГБ. Google заявил, что чат-бот имеет в 1,7 раза большую модельную емкость, чем OpenAI от GPT-2 . [6] чей преемник, выпущенный в мае 2020 года, 175-миллиардный параметр GPT-3 , обучался на «наборе данных открытого текста размером 45 ТБ (45 000 ГБ), который был… отфильтрован до 570 ГБ». [7]

В 2022 году Amazon seq2seq среднего размера (20 миллиардов параметров) представила AlexaTM 20B, языковую модель . Он использует кодер-декодер для выполнения обучения за несколько кадров. Кодер выводит представление входных данных, которые декодер использует в качестве входных данных для выполнения определенной задачи, например перевода входных данных на другой язык. Модель превосходит гораздо более крупную GPT-3 в языковом переводе и обобщении. Обучение сочетает шумоподавление (соответствующая вставка недостающего текста в строки) и причинно-языковое моделирование (осмысленное расширение входного текста). Это позволяет добавлять функции на разных языках без масштабных рабочих процессов обучения. AlexaTM 20B достигла высочайшего уровня производительности при выполнении задач обучения за несколько шагов во всех языковых парах Flores-101, превзойдя GPT-3 в некоторых задачах. [8]

Архитектура [ править ]

Модель seq2seq состоит из кодера и декодера, которые обычно реализуются как RNN . Кодер фиксирует контекст входной последовательности и отправляет его декодеру, который затем создает окончательную выходную последовательность. [9]

Кодер [ править ]

Кодер отвечает за обработку входной последовательности и сбор ее важной информации, которая сохраняется как скрытое состояние сети и, в модели с механизмом внимания, как вектор контекста. Вектор контекста представляет собой взвешенную сумму входных скрытых состояний и генерируется для каждого момента времени в выходных последовательностях.

Декодер [ править ]

Декодер берет вектор контекста и скрытые состояния от кодера и генерирует окончательную выходную последовательность. Декодер работает авторегрессионным способом, создавая по одному элементу выходной последовательности за раз. На каждом этапе он учитывает ранее сгенерированные элементы, вектор контекста и информацию о входной последовательности, чтобы сделать прогнозы для следующего элемента в выходной последовательности. В частности, в модели с механизмом внимания вектор контекста и скрытое состояние объединяются вместе, чтобы сформировать скрытый вектор внимания, который используется в качестве входных данных для декодера. [10]

Механизм внимания [ править ]

Механизм внимания представляет собой усовершенствование, введенное Bahdanau et al. в 2014 [11] для устранения ограничений базовой архитектуры Seq2Seq, когда более длинная входная последовательность приводит к тому, что вывод скрытого состояния кодера становится неактуальным для декодера. Это позволяет модели выборочно фокусироваться на различных частях входной последовательности в процессе декодирования. На каждом этапе декодера модель выравнивания вычисляет оценку внимания, используя текущее состояние декодера и все скрытые векторы внимания в качестве входных данных. Модель выравнивания — это еще одна модель нейронной сети, которая обучается совместно с моделью seq2seq, используемой для расчета того, насколько хорошо входные данные, представленные скрытым состоянием, совпадают с предыдущими выходными данными, представленными скрытым состоянием внимания. внимания . Затем к показателю внимания применяется функция softmax, чтобы получить вес

В некоторых моделях состояния энкодера напрямую передаются в функцию активации, что устраняет необходимость в модели выравнивания. Функция активации получает одно состояние декодера и одно состояние кодера и возвращает скалярное значение их релевантности. [12]

Сопутствующее программное обеспечение [ править ]

Программное обеспечение, использующее аналогичные подходы, включает OpenNMT ( Torch ), Neural Monkey ( TensorFlow ) и NEMATUS ( Theano ). [13]

См. также [ править ]

Ссылки [ править ]

  1. ^ Суцкевер, Илья; Виньялс, Ориол; Ле, Куок Вьет (2014). «Последовательное обучение с помощью нейронных сетей». arXiv : 1409.3215 [ cs.CL ].
  2. ^ Перейти обратно: а б Вадхва, Мани (5 декабря 2018 г.). «модель seq2seq в машинном обучении» . Гики для Гиков . Проверено 17 декабря 2019 г.
  3. ^ с. 94 из https://www.fit.vut.cz/study/phd-thesis-file/283/283.pdf , https://www.fit.vut.cz/study/phd-thesis-file/283/ 283_o2.pdf
  4. ^ https://archive.today/20231224074628/https://news.ycombinator.com/item?id=38654038 .
  5. ^ «У Facebook есть нейронная сеть, способная выполнять сложную математику» . Обзор технологий Массачусетского технологического института . 17 декабря 2019 года . Проверено 17 декабря 2019 г.
  6. ^ Мехта, Иван (29 января 2020 г.). «Google утверждает, что ее новый чат-бот Meena — лучший в мире» . Следующая сеть . Проверено 3 февраля 2020 г.
  7. ^ Гейдж, Джастин. «Что такое GPT-3?» . Проверено 1 августа 2020 г.
  8. ^ Родригес, Хесус (8 сентября 2022 г.). «🤘Edge#224: AlexaTM 20B — это новая языковая супермодель Amazon, также способная к быстрому обучению» . Этиquence.substack.com . Проверено 8 сентября 2022 г.
  9. ^ ПайТорч. «НЛП С НУЛЯ: ПЕРЕВОД С ПОСЛЕДОВАТЕЛЬНОСТЬЮ В ПОСЛЕДОВАТЕЛЬНОСТЬ СЕТИ И ВНИМАНИЯ» . Проверено 20 декабря 2023 г.
  10. ^ Дугар, Пранай (14 июля 2021 г.). «Внимание — модели Seq2Seq» . в сторону datascience.com . Проверено 20 декабря 2023 г.
  11. ^ с. 1 из https://arxiv.org/pdf/1409.0473.pdf , https://arxiv.org/pdf/1409.0473.pdf .
  12. ^ Войта, Лена. «Последовательность за последовательностью (seq2seq) и внимание» . Проверено 20 декабря 2023 г.
  13. ^ «Обзор — seq2seq» . google.github.io . Проверено 17 декабря 2019 г.

Внешние ссылки [ править ]