Перчатка
GloVe , созданный на базе Global Vectors, представляет собой модель распределенного представления слов. Модель представляет собой алгоритм обучения без учителя для получения векторных представлений слов. Это достигается путем отображения слов в значимом пространстве, где расстояние между словами связано с семантическим сходством. [1] слов совпадения Обучение выполняется на основе агрегированной глобальной статистики из корпуса, и полученные представления демонстрируют интересные линейные подструктуры векторного пространства слов . Он разработан как проект с открытым исходным кодом в Стэнфорде. [2] и был запущен в 2014 году.
Как модель лог-билинейной регрессии для обучения представлений слов без учителя, она сочетает в себе особенности двух семейств моделей, а именно методы глобальной матричной факторизации и методов окна локального контекста.
Определение
[ редактировать ]Вы узнаете слово по компании, которую оно держит (Ферт, Дж.Р. 1957:11). [3]
Идея GloVe состоит в том, чтобы построить для каждого слова , два вектора , так что относительные положения векторов отражают часть статистических закономерностей слова . Статистическая регулярность определяется как вероятность совместного возникновения. Слова, похожие друг на друга по значению, также должны напоминать друг друга по вероятности совместного появления.
Подсчет слов
[ редактировать ]Пусть словарный запас будет , набор всех возможных слов (также известных как «токены»). Пунктуация либо игнорируется, либо рассматривается как словарь, то же самое касается использования заглавных букв и других типографских деталей. [1]
Если два слова встречаются близко друг к другу, то мы говорим, что они встречаются в контексте друг друга. Например, если длина контекста равна 3, то мы говорим, что в следующем предложении
Перчатка 1 , созданная 2 из 3 Глобальных 4 Векторов 5 , представляет 6 модель 7 собой 8 для 9 распределенного 10 слова 11 представления 12
слово «модель 8 » находится в контексте «слова 11 », но не в контексте «представления 12 ».
Слово не находится в контексте самого себя, поэтому «модель 8 » не находится в контексте слова «модель 8 », хотя, если слово появляется снова в том же контексте, то оно засчитывается.
Позволять сколько раз слово появляется в контексте слова по всему корпусу. Например, если корпус просто «Я не думаю, что это проблема». у нас есть поскольку первое «то» появляется в контексте второго, и наоборот.
Позволять быть количеством слов в контексте всех экземпляров слова . Подсчитав, мы имеем (за исключением слов, встречающихся в начале и конце корпуса)
Вероятностное моделирование
[ редактировать ]Позволять быть вероятностью совместного появления . То есть, если взять случайное вхождение слова во всем документе и случайном слове в его контексте, это слово с вероятностью . Обратите внимание, что в общем. Например, в типичном корпусе современного английского языка близко к единице, но близко к нулю. Это потому, что слово «адо» почти используется только в контексте архаичной фразы « много шума », но слово «много» встречается во всех контекстах.
Например, в корпусе из 6 миллиардов токенов у нас есть
Вероятность и соотношение | ||||
---|---|---|---|---|
Рассматривая таблицу, мы видим, что слова «лед» и «пар» неразличимы по слову «вода» (часто сочетаясь с обоими) и «мода» (редко сочетаясь с тем и другим), но различимы по слову «твердое тело». (чаще встречается вместе со льдом) и «газ» (чаще встречается вместе с «паром»).
Идея состоит в том, чтобы изучить два вектора. за каждое слово , так что мы имеем полиномиальную логистическую регрессию : и условия являются неважными параметрами.
Это означает, что если слова имеют схожие вероятности совместного возникновения , то их векторы также должны быть похожи: .
Логистическая регрессия
[ редактировать ]Проще говоря, логистическую регрессию можно запустить, минимизировав квадрат потерь: Однако это было бы шумно для редких совпадений. Чтобы решить эту проблему, квадрат потерь взвешивается так, что потери постепенно увеличиваются до абсолютного числа совпадений. увеличивается: где и являются гиперпараметрами . В оригинальной статье авторы обнаружили, что кажется, хорошо работает на практике.
Использовать
[ редактировать ]После обучения модели у нас есть 4 обученных параметра для каждого слова: . Параметры не имеют значения, и только актуальны.
Авторы рекомендовали использовать как окончательный вектор представления слова , потому что эмпирически это сработало лучше, чем или один.
Приложения
[ редактировать ]GloVe можно использовать для поиска связей между такими словами, как синонимы, отношения между компанией и продуктом, почтовые индексы и города и т. д. Однако алгоритм неконтролируемого обучения неэффективен при выявлении омографов, то есть слов с одинаковым написанием и разными значениями. Это происходит потому, что алгоритм неконтролируемого обучения вычисляет один набор векторов для слов с одинаковой морфологической структурой. [4] Алгоритм также используется библиотекой SpaCy для создания функций встраивания семантических слов при вычислении слов из верхнего списка, соответствующих таким мерам расстояния, как косинусное сходство и подход евклидова расстояния . [5] GloVe также использовался в качестве структуры представления слов для онлайн- и оффлайн-систем, предназначенных для выявления психологического дистресса во время интервью с пациентами. [6]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Пеннингтон, Джеффри; Сошер, Ричард; Мэннинг, Кристофер (октябрь 2014 г.). Мошитти, Алессандро; Панг, Бо; Далеманс, Уолтер (ред.). «GloVe: глобальные векторы для представления слов» . Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Доха, Катар: Ассоциация компьютерной лингвистики: 1532–1543. дои : 10.3115/v1/D14-1162 .
- ^ GloVe: Глобальные векторы для представления слов (pdf). Архивировано 3 сентября 2020 г. в Wayback Machine. «Мы используем наши идеи для создания новой модели представления слов, которую мы называем GloVe, для глобальных векторов, потому что фиксируется глобальная статистика корпуса. непосредственно по модели».
- ^ Ферт, младший (1957). Исследования по лингвистическому анализу (PDF) . Уайли-Блэквелл.
- ^ Вениг, Филипп (2019). «Создание вложений предложений на основе тематических представлений слов: подход к универсальному пониманию языка». На пути к науке о данных .
- ^ Сингх, Маянк; Гупта, ПК; Тьяги, Випин; Флюссер, Ян; Орен, Тунцер И. (2018). Достижения в области вычислений и наук о данных: Вторая международная конференция, ICACDS 2018, Дехрадун, Индия, 20–21 апреля 2018 г., Пересмотренные избранные статьи . Сингапур: Спрингер. п. 171. ИСБН 9789811318122 .
- ^ Абад, Альберто; Ортега, Альфонсо; Тейшейра, Антониу; Матео, Кармен; Хинарехос, Карлос; Пердигао, Фернандо; Батиста, Фернандо; Мамеде, Нуно (2016). Достижения в области речи и языковых технологий для иберийских языков: Третья международная конференция, IberSPEECH 2016, Лиссабон, Португалия, 23-25 ноября 2016 г., Материалы . Чам: Спрингер. п. 165. ИСБН 9783319491691 .
Внешние ссылки
[ редактировать ]- GloVe. Архивировано 19 декабря 2016 г. в Wayback Machine.
- Deeplearning4j GloVe. Архивировано 2 февраля 2019 г. в Wayback Machine.