Jump to content

Перчатка

(Перенаправлено с GloVe (машинное обучение) )

GloVe , созданный на базе Global Vectors, представляет собой модель распределенного представления слов. Модель представляет собой алгоритм обучения без учителя для получения векторных представлений слов. Это достигается путем отображения слов в значимом пространстве, где расстояние между словами связано с семантическим сходством. [1] слов совпадения Обучение выполняется на основе агрегированной глобальной статистики из корпуса, и полученные представления демонстрируют интересные линейные подструктуры векторного пространства слов . Он разработан как проект с открытым исходным кодом в Стэнфорде. [2] и был запущен в 2014 году.

Как модель лог-билинейной регрессии для обучения представлений слов без учителя, она сочетает в себе особенности двух семейств моделей, а именно методы глобальной матричной факторизации и методов окна локального контекста.

Определение

[ редактировать ]

Вы узнаете слово по компании, которую оно держит (Ферт, Дж.Р. 1957:11). [3]

Идея GloVe состоит в том, чтобы построить для каждого слова , два вектора , так что относительные положения векторов отражают часть статистических закономерностей слова . Статистическая регулярность определяется как вероятность совместного возникновения. Слова, похожие друг на друга по значению, также должны напоминать друг друга по вероятности совместного появления.

Подсчет слов

[ редактировать ]

Пусть словарный запас будет , набор всех возможных слов (также известных как «токены»). Пунктуация либо игнорируется, либо рассматривается как словарь, то же самое касается использования заглавных букв и других типографских деталей. [1]

Если два слова встречаются близко друг к другу, то мы говорим, что они встречаются в контексте друг друга. Например, если длина контекста равна 3, то мы говорим, что в следующем предложении

Перчатка 1 , созданная 2 из 3 Глобальных 4 Векторов 5 , представляет 6 модель 7 собой 8 для 9 распределенного 10 слова 11 представления 12

слово «модель 8 » находится в контексте «слова 11 », но не в контексте «представления 12 ».

Слово не находится в контексте самого себя, поэтому «модель 8 » не находится в контексте слова «модель 8 », хотя, если слово появляется снова в том же контексте, то оно засчитывается.

Позволять сколько раз слово появляется в контексте слова по всему корпусу. Например, если корпус просто «Я не думаю, что это проблема». у нас есть поскольку первое «то» появляется в контексте второго, и наоборот.

Позволять быть количеством слов в контексте всех экземпляров слова . Подсчитав, мы имеем (за исключением слов, встречающихся в начале и конце корпуса)

Вероятностное моделирование

[ редактировать ]

Позволять быть вероятностью совместного появления . То есть, если взять случайное вхождение слова во всем документе и случайном слове в его контексте, это слово с вероятностью . Обратите внимание, что в общем. Например, в типичном корпусе современного английского языка близко к единице, но близко к нулю. Это потому, что слово «адо» почти используется только в контексте архаичной фразы « много шума », но слово «много» встречается во всех контекстах.

Например, в корпусе из 6 миллиардов токенов у нас есть

Таблица 1 из [1]
Вероятность и соотношение

Рассматривая таблицу, мы видим, что слова «лед» и «пар» неразличимы по слову «вода» (часто сочетаясь с обоими) и «мода» (редко сочетаясь с тем и другим), но различимы по слову «твердое тело». (чаще встречается вместе со льдом) и «газ» (чаще встречается вместе с «паром»).

Идея состоит в том, чтобы изучить два вектора. за каждое слово , так что мы имеем полиномиальную логистическую регрессию : и условия являются неважными параметрами.

Это означает, что если слова имеют схожие вероятности совместного возникновения , то их векторы также должны быть похожи: .

Логистическая регрессия

[ редактировать ]

Проще говоря, логистическую регрессию можно запустить, минимизировав квадрат потерь: Однако это было бы шумно для редких совпадений. Чтобы решить эту проблему, квадрат потерь взвешивается так, что потери постепенно увеличиваются до абсолютного числа совпадений. увеличивается: где и являются гиперпараметрами . В оригинальной статье авторы обнаружили, что кажется, хорошо работает на практике.

Использовать

[ редактировать ]

После обучения модели у нас есть 4 обученных параметра для каждого слова: . Параметры не имеют значения, и только актуальны.

Авторы рекомендовали использовать как окончательный вектор представления слова , потому что эмпирически это сработало лучше, чем или один.

Приложения

[ редактировать ]

GloVe можно использовать для поиска связей между такими словами, как синонимы, отношения между компанией и продуктом, почтовые индексы и города и т. д. Однако алгоритм неконтролируемого обучения неэффективен при выявлении омографов, то есть слов с одинаковым написанием и разными значениями. Это происходит потому, что алгоритм неконтролируемого обучения вычисляет один набор векторов для слов с одинаковой морфологической структурой. [4] Алгоритм также используется библиотекой SpaCy для создания функций встраивания семантических слов при вычислении слов из верхнего списка, соответствующих таким мерам расстояния, как косинусное сходство и подход евклидова расстояния . [5] GloVe также использовался в качестве структуры представления слов для онлайн- и оффлайн-систем, предназначенных для выявления психологического дистресса во время интервью с пациентами. [6]

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б с Пеннингтон, Джеффри; Сошер, Ричард; Мэннинг, Кристофер (октябрь 2014 г.). Мошитти, Алессандро; Панг, Бо; Далеманс, Уолтер (ред.). «GloVe: глобальные векторы для представления слов» . Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Доха, Катар: Ассоциация компьютерной лингвистики: 1532–1543. дои : 10.3115/v1/D14-1162 .
  2. ^ GloVe: Глобальные векторы для представления слов (pdf). Архивировано 3 сентября 2020 г. в Wayback Machine. «Мы используем наши идеи для создания новой модели представления слов, которую мы называем GloVe, для глобальных векторов, потому что фиксируется глобальная статистика корпуса. непосредственно по модели».
  3. ^ Ферт, младший (1957). Исследования по лингвистическому анализу (PDF) . Уайли-Блэквелл.
  4. ^ Вениг, Филипп (2019). «Создание вложений предложений на основе тематических представлений слов: подход к универсальному пониманию языка». На пути к науке о данных .
  5. ^ Сингх, Маянк; Гупта, ПК; Тьяги, Випин; Флюссер, Ян; Орен, Тунцер И. (2018). Достижения в области вычислений и наук о данных: Вторая международная конференция, ICACDS 2018, Дехрадун, Индия, 20–21 апреля 2018 г., Пересмотренные избранные статьи . Сингапур: Спрингер. п. 171. ИСБН  9789811318122 .
  6. ^ Абад, Альберто; Ортега, Альфонсо; Тейшейра, Антониу; Матео, Кармен; Хинарехос, Карлос; Пердигао, Фернандо; Батиста, Фернандо; Мамеде, Нуно (2016). Достижения в области речи и языковых технологий для иберийских языков: Третья международная конференция, IberSPEECH 2016, Лиссабон, Португалия, 23-25 ​​ноября 2016 г., Материалы . Чам: Спрингер. п. 165. ИСБН  9783319491691 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4d2aba98a5c57e4e1f65c0872737fea5__1722063360
URL1:https://arc.ask3.ru/arc/aa/4d/a5/4d2aba98a5c57e4e1f65c0872737fea5.html
Заголовок, (Title) документа по адресу, URL1:
GloVe - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)