Встраивание предложений
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
В обработке естественного языка относится встраивание предложения к числовому представлению предложения в виде вектора действительных чисел , который кодирует значимую семантическую информацию. [1] [2] [3] [4] [5] [6] [7]
Современные внедрения основаны на обученном представлении скрытых слоев специальных моделей преобразователей предложений. BERT впервые применил подход, включающий использование специального токена [CLS] в начале каждого предложения, введенного в модель; конечный вектор скрытого состояния этого токена кодирует информацию о предложении и может быть точно настроен для использования в задачах классификации предложений. Однако на практике встраивание предложений BERT с помощью токена [CLS] дает низкую производительность, часто хуже, чем простое усреднение неконтекстных вложений слов. SBERT добился превосходной производительности встраивания предложений. Позже [8] путем точной настройки встраивания токенов BERT [CLS] посредством использования архитектуры сиамской нейронной сети в наборе данных SNLI.
Другие подходы в общих чертах основаны на идее распределительной семантики, применяемой к предложениям. Skip-Thought обучает структуру кодировщика-декодера для прогнозирования соседних предложений. Хотя было показано, что это обеспечивает худшую производительность, чем такие подходы, как InferSent или SBERT.
Альтернативное направление — агрегировать встраивания слов, например, возвращаемые Word2vec , в встраивания предложений. Самый простой подход — просто вычислить среднее значение векторов слов, известное как непрерывный набор слов (CBOW). [9] Однако были предложены и более сложные решения, основанные на векторном квантовании слов. Одним из таких подходов является вектор локально агрегированных вложений слов (VLAWE), [10] который продемонстрировал улучшение производительности в последующих задачах классификации текста.
Приложения
[ редактировать ]В последние годы интерес к внедрению предложений растет благодаря его применению в базах знаний, допускающих запросы на естественном языке, посредством использования векторного индексирования для семантического поиска. LangChain , например, использует преобразователи предложений для индексации документов. В частности, индексация генерируется путем создания вложений для фрагментов документов и хранения кортежей (фрагмент документа, встраивание). Затем, учитывая запрос на естественном языке, можно сгенерировать вложение для запроса. Затем между встраиванием запроса и встраиванием фрагмента документа используется алгоритм поиска по сходству по k вершине, чтобы получить наиболее релевантные фрагменты документа в качестве контекстной информации для ответа на вопросы задач . Этот подход также формально известен как генерация с расширенным поиском. [11]
Хотя встраивание предложений не так распространено, как BERTScore, оно обычно используется для оценки сходства предложений, что обычно используется для задачи оптимизации параметров генерации большой языковой модели , часто выполняемой путем сравнения предложений-кандидатов с эталонными предложениями. Используя косинусное сходство вложений предложений-кандидатов и эталонных предложений в качестве функции оценки, можно использовать алгоритм поиска по сетке для автоматизации оптимизации гиперпараметров. [ нужна ссылка ] .
Оценка
[ редактировать ]Способ тестирования кодировок предложений — применить их к корпусу предложений, включающих композиционные знания (SICK). [12] как для следствия (SICK-E), так и для связанности (SICK-R).
В [13] лучшие результаты получены при использовании сети BiLSTM, обученной на Стэнфордском корпусе вывода естественного языка (SNLI) . Коэффициент корреляции Пирсона для SICK-R составляет 0,885, а результат для SICK-E — 86,3. Небольшое улучшение по сравнению с предыдущими показателями представлено в: [14] SICK-R: 0,888 и SICK-E: 87,8 с использованием конкатенации двунаправленной рекуррентной единицы Gated .
См. также
[ редактировать ]Внешние ссылки
[ редактировать ]- Встраивание предложений InferSent и обучающий код
- Универсальный кодировщик предложений
- Изучение распределенных представлений предложений общего назначения посредством крупномасштабного многозадачного обучения
Ссылки
[ редактировать ]- ^ Баркан, Орен; Разин, Ноам; Малкиэль, Ицик; Кац, Ори; Качулару, Ави; Кенигштейн, Ноам (2019). «Масштабируемое моделирование пар предложений с помощью дистиллированного внедрения предложений». arXiv : 1908.05161 [ cs.LG ].
- ^ Текущее лучшее из универсальных вложений слов и вложений предложений
- ^ Сер, Дэниел; Ян, Иньфэй; Конг, Шэн-и; Хуа, Нан; Лимтиако, Николь; Джон, улица Ромни; Констант, Ной; Гуахардо-Сеспедес, Марио; Юань, Стив; Тар, Крис; Сун, Юн-Сюань; Строуп, Брайан; Курцвейл, Рэй (2018). «Универсальный кодировщик предложений». arXiv : 1803.11175 [ cs.CL ].
- ^ Ву, Леделл; Фиш, Адам; Чопра, Сумит; Адамс, Кейт; Борд, Антуан; Уэстон, Джейсон (2017). «StarSpace: встраивайте все!». arXiv : 1709.03856 [ cs.CL ].
- ^ Санджив Арора, Инъюй Лян и Тенгю Ма. «Простой, но сложный базовый вариант для встраивания предложений», 2016 г.; открытый обзор: SyK00v5xx .
- ^ Трифан, Мирча; Ионеску, Богдан; Гадеа, Кристиан; Ионеску, Дэн (2015). «Графовый метод цифровой обработки сигналов для семантического анализа». 2015 10-й юбилейный международный симпозиум IEEE по прикладному вычислительному интеллекту и информатике . стр. 187–192. дои : 10.1109/SACI.2015.7208196 . ISBN 978-1-4799-9911-8 . S2CID 17099431 .
- ^ Базиль, Пьерпаоло; Капуто, Анналина; Семераро, Джованни (2012). «Исследование композиционной семантики слов в распределительных пространствах». 2012 Шестая международная конференция IEEE по семантическим вычислениям . стр. 154–161. дои : 10.1109/ICSC.2012.55 . ISBN 978-1-4673-4433-3 . S2CID 552921 .
- ^ Реймерс, Нильс; Гуревич, Ирина (2019). «Предложение-BERT: встраивание предложений с использованием сиамских сетей BERT». arXiv : 1908.10084 [ cs.CL ].
- ^ Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (6 сентября 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
- ^ Ионеску, Раду Тудор; Бутнару, Андрей (2019). «Вектор локально-агрегированных вложений слов» (« . Proceedings of the 2019 Conference of the North . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики. стр. 363–369. doi : 10.18653/v1/N19-1033 . S2CID 85500146 .
- ^ Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин Владимир; Гоял, Наман; Кюттлер, Генрих; Льюис, Майк; Йи, Вен-тау; Роктешель, Тим; Ридель, Себастьян; Киела, Доуве (2020). «Расширенная поисковая генерация для наукоемких задач НЛП». arXiv : 2005.11401 [ cs.CL ].
- ^ Марко Марелли, Стефано Менини, Марко Барони, Луиза Бентивольи, Рафаэлла Бернарди и Роберто Зампарелли. «БОЛЬНОЕ лекарство для оценки композиционно-распределительных семантических моделей». В ЛРЭК, стр. 216-223. 2014 [1] .
- ^ Конно, Алексис; Киела, Доуве; Швенк, Хольгер; Барро, Лоик; Борд, Антуан (2017). «Контролируемое обучение универсальным представлениям предложений на основе данных вывода естественного языка». arXiv : 1705.02364 [ cs.CL ].
- ^ Субраманиан, Сандип; Тришлер, Адам; Бенджио, Йошуа; Кристофер Дж. Пал (2018). «Изучение представлений распределенных предложений общего назначения посредством крупномасштабного многозадачного обучения». arXiv : 1804.00079 [ cs.CL ].