Дистрибутивная семантика

Дистрибутивная семантика ^[1] это область исследований, которая разрабатывает и изучает теории и методы количественной оценки и классификации семантических сходств между лингвистическими элементами на основе их свойств распределения в больших выборках языковых данных. Основную идею дистрибутивной семантики можно резюмировать в так называемой дистрибутивной гипотезе: лингвистические единицы со схожим распределением имеют схожие значения.

Гипотеза распределения

Гипотеза распределения в лингвистике вытекает из семантической теории использования языка, то есть слова, которые используются и встречаются в одних и тех же контекстах , имеют тенденцию иметь схожие значения. ^[2]

Основная идея о том, что «слово характеризуется тем, с кем оно связано», была популяризирована Фертом в 1950-х годах. ^[3]

Гипотеза распределения является основой статистической семантики . Хотя гипотеза распределения возникла в лингвистике, ^[4] сейчас ему уделяется внимание в когнитивной науке, особенно в отношении контекста использования слов. ^[5]

В последние годы гипотеза распределения легла в основу теории обобщения, основанной на сходстве, при изучении языка: идея о том, что дети могут понять, как использовать слова, с которыми они раньше редко сталкивались, делая обобщения об их использовании на основе распределения похожих слов. . ^[6]^[7]

Гипотеза распределения предполагает, что чем более семантически схожи два слова, тем более сходными они будут в свою очередь, и, следовательно, тем больше они будут иметь тенденцию встречаться в схожих лингвистических контекстах.

Независимо от того, справедливо это предположение или нет, оно имеет серьезные последствия как для проблемы разреженности данных в компьютерном моделировании, так и для решения проблемы разреженности данных в компьютерном моделировании. ^[8] и вопрос о том, как дети могут так быстро выучить язык при относительно скудных ресурсах (это также известно как проблема скудности стимулов ).

Распределительное семантическое моделирование в векторных пространствах [ править ]

Семантика распределения благоприятствует использованию линейной алгебры в качестве вычислительного инструмента и структуры представления. Основной подход заключается в сборе информации о распределении в многомерных векторах и определении распределительного/семантического сходства с точки зрения векторного сходства. ^[9] Различные виды сходства могут быть извлечены в зависимости от того, какой тип распределительной информации используется для сбора векторов: тематические сходства могут быть извлечены путем заполнения векторов информацией о том, в каких текстовых областях встречаются лингвистические элементы; Парадигматические сходства могут быть извлечены путем заполнения векторов информацией о том, с какими другими лингвистическими элементами эти элементы совпадают. Обратите внимание, что последний тип векторов также можно использовать для извлечения синтагматических сходств путем рассмотрения отдельных компонентов вектора.

Основная идея корреляции между дистрибутивным и семантическим сходством может быть реализована разными способами. Существует большое разнообразие вычислительных моделей, реализующих семантику распределения, включая скрытый семантический анализ (LSA), ^[10]^[11] Гиперпространственный аналог языка (HAL), модели на основе синтаксиса или зависимостей, ^[12] случайная индексация , семантическая свертка ^[13] и различные варианты тематической модели . ^[14]

Распределительные семантические модели различаются прежде всего по следующим параметрам:

Тип контекста (текстовые области или лингвистические элементы)
Контекстное окно (размер, расширение и т. д.)
Частотное взвешивание (например , энтропия , поточечная взаимная информация , ^[15] и т. д.)
Уменьшение размерности (например, случайное индексирование , разложение по сингулярным значениям и т. д.)
Мера сходства (например, косинусное сходство , расстояние Минковского и т. д.)

Распределительные семантические модели, которые используют лингвистические элементы в качестве контекста, также называются моделями пространства слов или моделями векторного пространства . ^[16]^[17]

За пределами лексической семантики [ править ]

В то время как распределительная семантика обычно применяется к лексическим единицам – словам и терминам, состоящим из нескольких слов – со значительным успехом, не в последнюю очередь благодаря ее применимости в качестве входного слоя для моделей глубокого обучения, основанных на нейронной сети, лексическая семантика , то есть значение слов, будет только несут часть семантики всего высказывания. Значение предложения, например : «Тигры любят кроликов». , можно лишь частично понять, исследуя значение трех лексических единиц, из которых оно состоит. Дистрибутивную семантику можно напрямую расширить, чтобы охватить более крупные лингвистические элементы, такие как конструкции, с нереализованными элементами или без них, но некоторые базовые предположения модели необходимо несколько скорректировать. Конструктивная грамматика и ее формулировка лексико-синтаксического континуума предлагают один подход для включения более сложных конструкций в распределительную семантическую модель, и некоторые эксперименты были реализованы с использованием подхода случайного индексирования. ^[18]

Композиционно-распределительные семантические модели расширяют распределительные семантические модели с помощью явных семантических функций, которые используют синтаксически основанные правила для объединения семантики участвующих лексических единиц в композиционную модель, характеризующую семантику целых фраз или предложений. Первоначально эта работа была предложена Стивеном Кларком, Бобом Коке и Мехрнушем Садрзаде из Оксфордского университета в их статье 2008 года «Композиционно-распределительная модель значения». ^[19] Были изучены различные подходы к композиции, включая нейронные модели, и они обсуждаются на авторитетных семинарах, таких как SemEval . ^[20]

Приложения [ править ]

Распределительные семантические модели успешно применяются для решения следующих задач:

нахождение смыслового сходства между словами и многословными выражениями;
кластеризация слов на основе семантического сходства;
автоматическое создание тезаурусов и двуязычных словарей;
устранение смысловой неоднозначности слова ;
расширение поисковых запросов с помощью синонимов и ассоциаций;
определение темы документа;
кластеризация документов для поиска информации ;
интеллектуальный анализ данных и распознавание именованных объектов ;
создание семантических карт различных предметных областей;
перефразирование ;
анализ настроений ;
моделирование выборочных предпочтений слов.

Программное обеспечение [ править ]

См. также [ править ]

Люди [ править ]

Ссылки [ править ]

^ Ленчи, Алессандро; Салгрен, Магнус (2023). Дистрибутивная семантика . Издательство Кембриджского университета. ISBN 9780511783692 .
^ Харрис 1954 г.
^ Ферт 1957
^ Салгрен 2008
^ Макдональд и Рамскар, 2001 г.
^ Глейтман 2002
^ Ярлетт 2008
^ Уишарт, Райдер; Прокопидис, Прокопис (2017). Эксперименты по тематическому моделированию эллинистических корпусов (PDF) . Материалы семинара по корпусу в цифровых гуманитарных науках 17. S2CID 9191936 .
^ Ригер 1991
^ Дирвестер и др. 1990.
^ Ландауэр, Томас К.; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Психологический обзор . 104 (2): 211–240. дои : 10.1037/0033-295x.104.2.211 .
^ Падо и Лапата 2007
^ Де Соуза Уэббер, Франциско (2015). «Теория семантической складки и ее применение в семантическом дактилоскопировании». arXiv : 1511.08855 [ cs.AI ].
^ Джордан, Майкл И.; Нг, Эндрю Ю.; Блей, Дэвид М. (2003). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 (январь): 993–1022.
^ Черч, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Материалы 27-го ежегодного собрания Ассоциации компьютерной лингвистики . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 76–83. дои : 10.3115/981623.981633 .
^ Стрелец 1993
^ Салгрен 2006
^ Карлгрен, Юсси; Канерва, Пентти (июль 2019 г.). «Многомерные распределенные семантические пространства высказываний». Инженерия естественного языка . 25 (4): 503–517. arXiv : 2104.00424 . дои : 10.1017/S1351324919000226 . S2CID 201141249 .
^ Кларк, Стивен; Куке, Боб; Садрзаде, Мехрнуш (2008). «Композиционно-распределительная модель значения» (PDF) . Труды Второго симпозиума по квантовому взаимодействию : 133–140.
^ «СемЭвал-2014, Задача 1» .

Источники [ править ]

Харрис, З. (1954). «Структура распределения». Слово . 10 (23): 146–162. дои : 10.1080/00437956.1954.11659520 .
Ферт, младший (1957). «Краткий обзор лингвистической теории 1930-1955». Исследования по лингвистическому анализу : 1–32. Перепечатано в Ф. Р. Палмер, изд. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 гг . Лондон: Лонгман.
Ленчи, Алессандро; Салгрен, Магнус (2023). Дистрибутивная семантика . Издательство Кембриджского университета. ISBN 9780511783692 .
Салгрен, Магнус (2008). «Гипотеза распределения» (PDF) . Ривиста ди Лингвистика . 20 (1): 33–53. Архивировано из оригинала (PDF) 15 марта 2012 г. Проверено 10 декабря 2010 г.
Макдональд, С.; Рамскар, М. (2001). «Проверка гипотезы распределения: влияние контекста на суждения о семантическом сходстве». Материалы 23-й ежегодной конференции Общества когнитивных наук . стр. 611–616. CiteSeerX 10.1.1.104.7535 .
Глейтман, Лила Р. (2002). «Глаголы перышка сбиваются в кучу II». Наследие Зеллига Харриса . Актуальные проблемы лингвистической теории. Том. 1. С. 209–229. дои : 10.1075/cilt.228.17gle . ISBN 978-90-272-4736-0 .
Ярлетт, Д. (2008). Изучение языка посредством обобщения на основе сходства (PDF) (кандидатская диссертация). Стэнфордский университет. Архивировано из оригинала (PDF) 19 апреля 2014 г. Проверено 12 июля 2012 г.
Ригер, Бургхард Б. (1991). О распределенных представлениях в семантике слов (PDF) (Отчет). ИКСИ Беркли, 12-1991. CiteSeerX 10.1.1.37.7976 .
Дирвестер, Скотт; Дюмэ, Сьюзан Т.; Фурнас, Джордж В.; Ландауэр, Томас К.; Харшман, Ричард (1990). «Индексирование с помощью скрытого семантического анализа» (PDF) . Журнал Американского общества информатики . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 . Архивировано из оригинала (PDF) 17 июля 2012 г.
Падо, Себастьян; Лапата, Мирелла (2007). «Построение моделей семантического пространства на основе зависимостей» . Компьютерная лингвистика . 33 (2): 161–199. дои : 10.1162/coli.2007.33.2.161 . S2CID 7747235 .
Шютце, Хинрих (1993). «Пространство слов». Достижения в области нейронных систем обработки информации 5 . стр. 895–902. CiteSeerX 10.1.1.41.8856 .
Салгрен, Магнус (2006). Модель словесного пространства (PDF) (кандидатская диссертация). Стокгольмский университет. Архивировано из оригинала (PDF) 19 июня 2012 г. Проверено 26 ноября 2012 г.
Томас Ландауэр; Сьюзен Т. Дюмэ. «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» . Проверено 2 июля 2007 г.
Кевин Лунд; Курт Берджесс; Рут Энн Этчли (1995). Семантический и ассоциативный прайминг в многомерном семантическом пространстве . Труды по когнитивным наукам. стр. 660–665.
Кевин Лунд; Курт Берджесс (1996). «Создание многомерных семантических пространств на основе лексического совпадения» . Методы, инструменты и компьютеры исследования поведения . 28 (2): 203–208. дои : 10.3758/bf03204766 .

Внешние ссылки [ править ]

Зеллиг С. Харрис

[1] Ленчи, Алессандро; Салгрен, Магнус (2023). Дистрибутивная семантика . Издательство Кембриджского университета. ISBN 9780511783692 .

[2] Харрис 1954 г.

[3] Ферт 1957

[4] Салгрен 2008

[5] Макдональд и Рамскар, 2001 г.

[6] Глейтман 2002

[7] Ярлетт 2008

[8] Уишарт, Райдер; Прокопидис, Прокопис (2017). Эксперименты по тематическому моделированию эллинистических корпусов (PDF) . Материалы семинара по корпусу в цифровых гуманитарных науках 17. S2CID 9191936 .

[9] Ригер 1991

[10] Дирвестер и др. 1990.

[11] Ландауэр, Томас К.; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Психологический обзор . 104 (2): 211–240. дои : 10.1037/0033-295x.104.2.211 .

[12] Падо и Лапата 2007

[13] Де Соуза Уэббер, Франциско (2015). «Теория семантической складки и ее применение в семантическом дактилоскопировании». arXiv : 1511.08855 [ cs.AI ].

[14] Джордан, Майкл И.; Нг, Эндрю Ю.; Блей, Дэвид М. (2003). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 (январь): 993–1022.

[15] Черч, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Материалы 27-го ежегодного собрания Ассоциации компьютерной лингвистики . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 76–83. дои : 10.3115/981623.981633 .

[16] Стрелец 1993

[17] Салгрен 2006

[18] Карлгрен, Юсси; Канерва, Пентти (июль 2019 г.). «Многомерные распределенные семантические пространства высказываний». Инженерия естественного языка . 25 (4): 503–517. arXiv : 2104.00424 . дои : 10.1017/S1351324919000226 . S2CID 201141249 .

[19] Кларк, Стивен; Куке, Боб; Садрзаде, Мехрнуш (2008). «Композиционно-распределительная модель значения» (PDF) . Труды Второго симпозиума по квантовому взаимодействию : 133–140.

[20] «СемЭвал-2014, Задача 1» .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

Гипотеза распределения ​ ​