Встраивание предложений

В обработке естественного языка относится встраивание предложения к числовому представлению предложения в виде вектора действительных чисел , который кодирует значимую семантическую информацию. ^[1]^[2]^[3]^[4]^[5]^[6]^[7]

Современные внедрения основаны на обученном представлении скрытых слоев специальных моделей преобразователей предложений. BERT впервые применил подход, включающий использование специального токена [CLS] в начале каждого предложения, введенного в модель; конечный вектор скрытого состояния этого токена кодирует информацию о предложении и может быть точно настроен для использования в задачах классификации предложений. Однако на практике встраивание предложений BERT с помощью токена [CLS] дает низкую производительность, часто хуже, чем простое усреднение неконтекстных вложений слов. SBERT добился превосходной производительности встраивания предложений. Позже ^[8] путем точной настройки встраивания токенов BERT [CLS] посредством использования архитектуры сиамской нейронной сети в наборе данных SNLI.

Другие подходы в общих чертах основаны на идее распределительной семантики, применяемой к предложениям. Skip-Thought обучает структуру кодировщика-декодера для прогнозирования соседних предложений. Хотя было показано, что это обеспечивает худшую производительность, чем такие подходы, как InferSent или SBERT.

Альтернативное направление — агрегировать встраивания слов, например, возвращаемые Word2vec , в встраивания предложений. Самый простой подход — просто вычислить среднее значение векторов слов, известное как непрерывный набор слов (CBOW). ^[9] Однако были предложены и более сложные решения, основанные на векторном квантовании слов. Одним из таких подходов является вектор локально агрегированных вложений слов (VLAWE), ^[10] который продемонстрировал улучшение производительности в последующих задачах классификации текста.

Приложения

В последние годы интерес к внедрению предложений растет благодаря его применению в базах знаний, допускающих запросы на естественном языке, посредством использования векторного индексирования для семантического поиска. LangChain , например, использует преобразователи предложений для индексации документов. В частности, индексация генерируется путем создания вложений для фрагментов документов и хранения кортежей (фрагмент документа, встраивание). Затем, учитывая запрос на естественном языке, можно сгенерировать вложение для запроса. Затем между встраиванием запроса и встраиванием фрагмента документа используется алгоритм поиска по сходству по k вершине, чтобы получить наиболее релевантные фрагменты документа в качестве контекстной информации для ответа на вопросы задач . Этот подход также формально известен как генерация с расширенным поиском. ^[11]

Хотя встраивание предложений не так распространено, как BERTScore, оно обычно используется для оценки сходства предложений, что обычно используется для задачи оптимизации параметров генерации большой языковой модели , часто выполняемой путем сравнения предложений-кандидатов с эталонными предложениями. Используя косинусное сходство вложений предложений-кандидатов и эталонных предложений в качестве функции оценки, можно использовать алгоритм поиска по сетке для автоматизации оптимизации гиперпараметров. ^{[ нужна ссылка ]}.

Оценка

Способ тестирования кодировок предложений — применить их к корпусу предложений, включающих композиционные знания (SICK). ^[12]как для следствия (SICK-E), так и для связанности (SICK-R).

В ^[13] лучшие результаты получены при использовании сети BiLSTM, обученной на Стэнфордском корпусе вывода естественного языка (SNLI) . Коэффициент корреляции Пирсона для SICK-R составляет 0,885, а результат для SICK-E — 86,3. Небольшое улучшение по сравнению с предыдущими показателями представлено в: ^[14] SICK-R: 0,888 и SICK-E: 87,8 с использованием конкатенации двунаправленной рекуррентной единицы Gated .

См. также

Внешние ссылки

У Схолии есть профиль темы для Q29043221 .

Ссылки

^ Баркан, Орен; Разин, Ноам; Малкиэль, Ицик; Кац, Ори; Качулару, Ави; Кенигштейн, Ноам (2019). «Масштабируемое моделирование пар предложений с помощью дистиллированного внедрения предложений». arXiv : 1908.05161 [ cs.LG ].
^ Текущее лучшее из универсальных вложений слов и вложений предложений
^ Сер, Дэниел; Ян, Иньфэй; Конг, Шэн-и; Хуа, Нан; Лимтиако, Николь; Джон, улица Ромни; Констант, Ной; Гуахардо-Сеспедес, Марио; Юань, Стив; Тар, Крис; Сун, Юн-Сюань; Строуп, Брайан; Курцвейл, Рэй (2018). «Универсальный кодировщик предложений». arXiv : 1803.11175 [ cs.CL ].
^ Ву, Леделл; Фиш, Адам; Чопра, Сумит; Адамс, Кейт; Борд, Антуан; Уэстон, Джейсон (2017). «StarSpace: встраивайте все!». arXiv : 1709.03856 [ cs.CL ].
^ Санджив Арора, Инъюй Лян и Тенгю Ма. «Простой, но сложный базовый вариант для встраивания предложений», 2016 г.; открытый обзор: SyK00v5xx .
^ Трифан, Мирча; Ионеску, Богдан; Гадеа, Кристиан; Ионеску, Дэн (2015). «Графовый метод цифровой обработки сигналов для семантического анализа». 2015 10-й юбилейный международный симпозиум IEEE по прикладному вычислительному интеллекту и информатике . стр. 187–192. дои : 10.1109/SACI.2015.7208196 . ISBN 978-1-4799-9911-8 . S2CID 17099431 .
^ Базиль, Пьерпаоло; Капуто, Анналина; Семераро, Джованни (2012). «Исследование композиционной семантики слов в распределительных пространствах». 2012 Шестая международная конференция IEEE по семантическим вычислениям . стр. 154–161. дои : 10.1109/ICSC.2012.55 . ISBN 978-1-4673-4433-3 . S2CID 552921 .
^ Реймерс, Нильс; Гуревич, Ирина (2019). «Предложение-BERT: встраивание предложений с использованием сиамских сетей BERT». arXiv : 1908.10084 [ cs.CL ].
^ Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (6 сентября 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
^ Ионеску, Раду Тудор; Бутнару, Андрей (2019). «Вектор локально-агрегированных вложений слов» (« . Proceedings of the 2019 Conference of the North . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики. стр. 363–369. doi : 10.18653/v1/N19-1033 . S2CID 85500146 .
^ Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин Владимир; Гоял, Наман; Кюттлер, Генрих; Льюис, Майк; Йи, Вен-тау; Роктешель, Тим; Ридель, Себастьян; Киела, Доуве (2020). «Расширенная поисковая генерация для наукоемких задач НЛП». arXiv : 2005.11401 [ cs.CL ].
^ Марко Марелли, Стефано Менини, Марко Барони, Луиза Бентивольи, Рафаэлла Бернарди и Роберто Зампарелли. «БОЛЬНОЕ лекарство для оценки композиционно-распределительных семантических моделей». В ЛРЭК, стр. 216-223. 2014 [1] .
^ Конно, Алексис; Киела, Доуве; Швенк, Хольгер; Барро, Лоик; Борд, Антуан (2017). «Контролируемое обучение универсальным представлениям предложений на основе данных вывода естественного языка». arXiv : 1705.02364 [ cs.CL ].
^ Субраманиан, Сандип; Тришлер, Адам; Бенджио, Йошуа; Кристофер Дж. Пал (2018). «Изучение представлений распределенных предложений общего назначения посредством крупномасштабного многозадачного обучения». arXiv : 1804.00079 [ cs.CL ].

[1] Баркан, Орен; Разин, Ноам; Малкиэль, Ицик; Кац, Ори; Качулару, Ави; Кенигштейн, Ноам (2019). «Масштабируемое моделирование пар предложений с помощью дистиллированного внедрения предложений». arXiv : 1908.05161 [ cs.LG ].

[2] Текущее лучшее из универсальных вложений слов и вложений предложений

[3] Сер, Дэниел; Ян, Иньфэй; Конг, Шэн-и; Хуа, Нан; Лимтиако, Николь; Джон, улица Ромни; Констант, Ной; Гуахардо-Сеспедес, Марио; Юань, Стив; Тар, Крис; Сун, Юн-Сюань; Строуп, Брайан; Курцвейл, Рэй (2018). «Универсальный кодировщик предложений». arXiv : 1803.11175 [ cs.CL ].

[4] Ву, Леделл; Фиш, Адам; Чопра, Сумит; Адамс, Кейт; Борд, Антуан; Уэстон, Джейсон (2017). «StarSpace: встраивайте все!». arXiv : 1709.03856 [ cs.CL ].

[5] Санджив Арора, Инъюй Лян и Тенгю Ма. «Простой, но сложный базовый вариант для встраивания предложений», 2016 г.; открытый обзор: SyK00v5xx .

[6] Трифан, Мирча; Ионеску, Богдан; Гадеа, Кристиан; Ионеску, Дэн (2015). «Графовый метод цифровой обработки сигналов для семантического анализа». 2015 10-й юбилейный международный симпозиум IEEE по прикладному вычислительному интеллекту и информатике . стр. 187–192. дои : 10.1109/SACI.2015.7208196 . ISBN 978-1-4799-9911-8 . S2CID 17099431 .

[7] Базиль, Пьерпаоло; Капуто, Анналина; Семераро, Джованни (2012). «Исследование композиционной семантики слов в распределительных пространствах». 2012 Шестая международная конференция IEEE по семантическим вычислениям . стр. 154–161. дои : 10.1109/ICSC.2012.55 . ISBN 978-1-4673-4433-3 . S2CID 552921 .

[8] Реймерс, Нильс; Гуревич, Ирина (2019). «Предложение-BERT: встраивание предложений с использованием сиамских сетей BERT». arXiv : 1908.10084 [ cs.CL ].

[9] Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (6 сентября 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].

[10] Ионеску, Раду Тудор; Бутнару, Андрей (2019). «Вектор локально-агрегированных вложений слов» (« . Proceedings of the 2019 Conference of the North . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики. стр. 363–369. doi : 10.18653/v1/N19-1033 . S2CID 85500146 .

[11] Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин Владимир; Гоял, Наман; Кюттлер, Генрих; Льюис, Майк; Йи, Вен-тау; Роктешель, Тим; Ридель, Себастьян; Киела, Доуве (2020). «Расширенная поисковая генерация для наукоемких задач НЛП». arXiv : 2005.11401 [ cs.CL ].

[12] Марко Марелли, Стефано Менини, Марко Барони, Луиза Бентивольи, Рафаэлла Бернарди и Роберто Зампарелли. «БОЛЬНОЕ лекарство для оценки композиционно-распределительных семантических моделей». В ЛРЭК, стр. 216-223. 2014 [1] .

[13] Конно, Алексис; Киела, Доуве; Швенк, Хольгер; Барро, Лоик; Борд, Антуан (2017). «Контролируемое обучение универсальным представлениям предложений на основе данных вывода естественного языка». arXiv : 1705.02364 [ cs.CL ].

[14] Субраманиан, Сандип; Тришлер, Адам; Бенджио, Йошуа; Кристофер Дж. Пал (2018). «Изучение представлений распределенных предложений общего назначения посредством крупномасштабного многозадачного обучения». arXiv : 1804.00079 [ cs.CL ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]