Jump to content

Встраивание предложений

В обработке естественного языка относится встраивание предложения к числовому представлению предложения в виде вектора действительных чисел , который кодирует значимую семантическую информацию. [1] [2] [3] [4] [5] [6] [7]

Современные внедрения основаны на обученном представлении скрытых слоев специальных моделей преобразователей предложений. BERT впервые применил подход, включающий использование специального токена [CLS] в начале каждого предложения, введенного в модель; конечный вектор скрытого состояния этого токена кодирует информацию о предложении и может быть точно настроен для использования в задачах классификации предложений. Однако на практике встраивание предложений BERT с помощью токена [CLS] дает низкую производительность, часто хуже, чем простое усреднение неконтекстных вложений слов. SBERT добился превосходной производительности встраивания предложений. Позже [8] путем точной настройки встраивания токенов BERT [CLS] посредством использования архитектуры сиамской нейронной сети в наборе данных SNLI.

Другие подходы в общих чертах основаны на идее распределительной семантики, применяемой к предложениям. Skip-Thought обучает структуру кодировщика-декодера для прогнозирования соседних предложений. Хотя было показано, что это обеспечивает худшую производительность, чем такие подходы, как InferSent или SBERT.

Альтернативное направление — агрегировать встраивания слов, например, возвращаемые Word2vec , в встраивания предложений. Самый простой подход — просто вычислить среднее значение векторов слов, известное как непрерывный набор слов (CBOW). [9] Однако были предложены и более сложные решения, основанные на векторном квантовании слов. Одним из таких подходов является вектор локально агрегированных вложений слов (VLAWE), [10] который продемонстрировал улучшение производительности в последующих задачах классификации текста.

Приложения

[ редактировать ]

В последние годы интерес к внедрению предложений растет благодаря его применению в базах знаний, допускающих запросы на естественном языке, посредством использования векторного индексирования для семантического поиска. LangChain , например, использует преобразователи предложений для индексации документов. В частности, индексация генерируется путем создания вложений для фрагментов документов и хранения кортежей (фрагмент документа, встраивание). Затем, учитывая запрос на естественном языке, можно сгенерировать вложение для запроса. Затем между встраиванием запроса и встраиванием фрагмента документа используется алгоритм поиска по сходству по k вершине, чтобы получить наиболее релевантные фрагменты документа в качестве контекстной информации для ответа на вопросы задач . Этот подход также формально известен как генерация с расширенным поиском. [11]

Хотя встраивание предложений не так распространено, как BERTScore, оно обычно используется для оценки сходства предложений, что обычно используется для задачи оптимизации параметров генерации большой языковой модели , часто выполняемой путем сравнения предложений-кандидатов с эталонными предложениями. Используя косинусное сходство вложений предложений-кандидатов и эталонных предложений в качестве функции оценки, можно использовать алгоритм поиска по сетке для автоматизации оптимизации гиперпараметров. [ нужна ссылка ] .

Способ тестирования кодировок предложений — применить их к корпусу предложений, включающих композиционные знания (SICK). [12] как для следствия (SICK-E), так и для связанности (SICK-R).

В [13] лучшие результаты получены при использовании сети BiLSTM, обученной на Стэнфордском корпусе вывода естественного языка (SNLI) . Коэффициент корреляции Пирсона для SICK-R составляет 0,885, а результат для SICK-E — 86,3. Небольшое улучшение по сравнению с предыдущими показателями представлено в: [14] SICK-R: 0,888 и SICK-E: 87,8 с использованием конкатенации двунаправленной рекуррентной единицы Gated .

См. также

[ редактировать ]
[ редактировать ]
  1. ^ Баркан, Орен; Разин, Ноам; Малкиэль, Ицик; Кац, Ори; Качулару, Ави; Кенигштейн, Ноам (2019). «Масштабируемое моделирование пар предложений с помощью дистиллированного внедрения предложений». arXiv : 1908.05161 [ cs.LG ].
  2. ^ Текущее лучшее из универсальных вложений слов и вложений предложений
  3. ^ Сер, Дэниел; Ян, Иньфэй; Конг, Шэн-и; Хуа, Нан; Лимтиако, Николь; Джон, улица Ромни; Констант, Ной; Гуахардо-Сеспедес, Марио; Юань, Стив; Тар, Крис; Сун, Юн-Сюань; Строуп, Брайан; Курцвейл, Рэй (2018). «Универсальный кодировщик предложений». arXiv : 1803.11175 [ cs.CL ].
  4. ^ Ву, Леделл; Фиш, Адам; Чопра, Сумит; Адамс, Кейт; Борд, Антуан; Уэстон, Джейсон (2017). «StarSpace: встраивайте все!». arXiv : 1709.03856 [ cs.CL ].
  5. ^ Санджив Арора, Инъюй Лян и Тенгю Ма. «Простой, но сложный базовый вариант для встраивания предложений», 2016 г.; открытый обзор: SyK00v5xx .
  6. ^ Трифан, Мирча; Ионеску, Богдан; Гадеа, Кристиан; Ионеску, Дэн (2015). «Графовый метод цифровой обработки сигналов для семантического анализа». 2015 10-й юбилейный международный симпозиум IEEE по прикладному вычислительному интеллекту и информатике . стр. 187–192. дои : 10.1109/SACI.2015.7208196 . ISBN  978-1-4799-9911-8 . S2CID   17099431 .
  7. ^ Базиль, Пьерпаоло; Капуто, Анналина; Семераро, Джованни (2012). «Исследование композиционной семантики слов в распределительных пространствах». 2012 Шестая международная конференция IEEE по семантическим вычислениям . стр. 154–161. дои : 10.1109/ICSC.2012.55 . ISBN  978-1-4673-4433-3 . S2CID   552921 .
  8. ^ Реймерс, Нильс; Гуревич, Ирина (2019). «Предложение-BERT: встраивание предложений с использованием сиамских сетей BERT». arXiv : 1908.10084 [ cs.CL ].
  9. ^ Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (6 сентября 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
  10. ^ Ионеску, Раду Тудор; Бутнару, Андрей (2019). «Вектор локально-агрегированных вложений слов» (« . Proceedings of the 2019 Conference of the North . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики. стр. 363–369. doi : 10.18653/v1/N19-1033 . S2CID   85500146 .
  11. ^ Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин Владимир; Гоял, Наман; Кюттлер, Генрих; Льюис, Майк; Йи, Вен-тау; Роктешель, Тим; Ридель, Себастьян; Киела, Доуве (2020). «Расширенная поисковая генерация для наукоемких задач НЛП». arXiv : 2005.11401 [ cs.CL ].
  12. ^ Марко Марелли, Стефано Менини, Марко Барони, Луиза Бентивольи, Рафаэлла Бернарди и Роберто Зампарелли. «БОЛЬНОЕ лекарство для оценки композиционно-распределительных семантических моделей». В ЛРЭК, стр. 216-223. 2014 [1] .
  13. ^ Конно, Алексис; Киела, Доуве; Швенк, Хольгер; Барро, Лоик; Борд, Антуан (2017). «Контролируемое обучение универсальным представлениям предложений на основе данных вывода естественного языка». arXiv : 1705.02364 [ cs.CL ].
  14. ^ Субраманиан, Сандип; Тришлер, Адам; Бенджио, Йошуа; Кристофер Дж. Пал (2018). «Изучение представлений распределенных предложений общего назначения посредством крупномасштабного многозадачного обучения». arXiv : 1804.00079 [ cs.CL ].
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b2775ebd7a23584d7938a8bf5a5395f1__1721129460
URL1:https://arc.ask3.ru/arc/aa/b2/f1/b2775ebd7a23584d7938a8bf5a5395f1.html
Заголовок, (Title) документа по адресу, URL1:
Sentence embedding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)