Дистрибутивная семантика
Дистрибутивная семантика [1] это область исследований, которая разрабатывает и изучает теории и методы количественной оценки и классификации семантических сходств между лингвистическими элементами на основе их свойств распределения в больших выборках языковых данных. Основную идею дистрибутивной семантики можно резюмировать в так называемой дистрибутивной гипотезе: лингвистические единицы со схожим распределением имеют схожие значения.
Гипотеза распределения
[ редактировать ]Гипотеза распределения в лингвистике вытекает из семантической теории использования языка, то есть слова, которые используются и встречаются в одних и тех же контекстах , имеют тенденцию иметь схожие значения. [2]
Основная идея о том, что «слово характеризуется тем, с кем оно связано», была популяризирована Фертом в 1950-х годах. [3]
Гипотеза распределения является основой статистической семантики . Хотя гипотеза распределения возникла в лингвистике, [4] сейчас ему уделяется внимание в когнитивной науке, особенно в отношении контекста использования слов. [5]
В последние годы гипотеза распределения легла в основу теории обобщения, основанной на сходстве, при изучении языка: идея о том, что дети могут понять, как использовать слова, с которыми они раньше редко сталкивались, делая обобщения об их использовании на основе распределения похожих слов. . [6] [7]
Гипотеза распределения предполагает, что чем более семантически схожи два слова, тем более сходными они будут в свою очередь, и, следовательно, тем больше они будут иметь тенденцию встречаться в схожих лингвистических контекстах.
Независимо от того, справедливо это предположение или нет, оно имеет серьезные последствия как для проблемы разреженности данных в компьютерном моделировании, так и для решения проблемы разреженности данных в компьютерном моделировании. [8] и вопрос о том, как дети могут так быстро выучить язык при относительно скудных ресурсах (это также известно как проблема скудности стимулов ).
Распределительное семантическое моделирование в векторных пространствах
[ редактировать ]Семантика распределения благоприятствует использованию линейной алгебры в качестве вычислительного инструмента и структуры представления. Основной подход заключается в сборе информации о распределении в многомерных векторах и определении распределительного/семантического сходства с точки зрения векторного сходства. [9] Различные виды сходства могут быть извлечены в зависимости от того, какой тип распределительной информации используется для сбора векторов: тематические сходства могут быть извлечены путем заполнения векторов информацией о том, в каких текстовых областях встречаются лингвистические элементы; Парадигматические сходства могут быть извлечены путем заполнения векторов информацией о том, с какими другими лингвистическими элементами эти элементы совпадают. Обратите внимание, что последний тип векторов также можно использовать для извлечения синтагматических сходств путем рассмотрения отдельных компонентов вектора.
Основная идея корреляции между дистрибутивным и семантическим сходством может быть реализована разными способами. Существует богатое разнообразие вычислительных моделей, реализующих семантику распределения, включая скрытый семантический анализ (LSA), [10] [11] Гиперпространственный аналог языка (HAL), модели на основе синтаксиса или зависимостей, [12] случайная индексация , семантическая свертка [13] и различные варианты тематической модели . [14]
Распределительные семантические модели различаются прежде всего по следующим параметрам:
- Тип контекста (текстовые области или лингвистические элементы)
- Контекстное окно (размер, расширение и т. д.)
- Частотное взвешивание (например , энтропия , поточечная взаимная информация , [15] и т. д.)
- Уменьшение размерности (например, случайное индексирование , разложение по сингулярным значениям и т. д.)
- Мера сходства (например, косинусное сходство , расстояние Минковского и т. д.)
Распределительные семантические модели, которые используют лингвистические элементы в качестве контекста, также называются моделями пространства слов или моделями векторного пространства . [16] [17]
За пределами лексической семантики
[ редактировать ]Хотя распределительная семантика обычно применяется к лексическим элементам — словам и терминам, состоящим из нескольких слов — со значительным успехом, не в последнюю очередь благодаря ее применимости в качестве входного слоя для моделей глубокого обучения, основанных на нейронной сети, лексическая семантика , то есть значение слов, будет только несут часть семантики всего высказывания. Значение предложения, например : «Тигры любят кроликов». , можно лишь частично понять, исследуя значение трех лексических единиц, из которых оно состоит. Дистрибутивную семантику можно напрямую расширить, чтобы охватить более крупные лингвистические элементы, такие как конструкции, с нереализованными элементами и без них, но некоторые базовые предположения модели необходимо несколько скорректировать. Конструктивная грамматика и ее формулировка лексико-синтаксического континуума предлагают один подход для включения более сложных конструкций в распределительную семантическую модель, и некоторые эксперименты были реализованы с использованием подхода случайного индексирования. [18]
Композиционно-распределительные семантические модели расширяют распределительные семантические модели с помощью явных семантических функций, которые используют синтаксически основанные правила для объединения семантики участвующих лексических единиц в композиционную модель, характеризующую семантику целых фраз или предложений. Первоначально эта работа была предложена Стивеном Кларком, Бобом Коке и Мехрнушем Садрзаде из Оксфордского университета в их статье 2008 года «Композиционно-распределительная модель значения». [19] Были изучены различные подходы к композиции, включая нейронные модели, и они обсуждаются на авторитетных семинарах, таких как SemEval . [20]
Приложения
[ редактировать ]Распределительные семантические модели успешно применяются для решения следующих задач:
- нахождение смыслового сходства между словами и многословными выражениями;
- кластеризация слов на основе семантического сходства;
- автоматическое создание тезаурусов и двуязычных словарей;
- устранение смысловой неоднозначности слова ;
- расширение поисковых запросов с помощью синонимов и ассоциаций;
- определение темы документа;
- кластеризация документов для поиска информации ;
- интеллектуальный анализ данных и распознавание именованных объектов ;
- создание семантических карт различных предметных областей;
- перефразирование ;
- анализ настроений ;
- моделирование выборочных предпочтений слов.
Программное обеспечение
[ редактировать ]См. также
[ редактировать ]- Концептуальное пространство
- Совпадение
- Распределительно-реляционная база данных
- Генерал
- Фразема
- Случайная индексация
- Встраивание предложений
- Статистическая семантика
- Word2vec
- Встраивание слов
Люди
[ редактировать ]Ссылки
[ редактировать ]- ^ Ленчи, Алессандро; Салгрен, Магнус (2023). Дистрибутивная семантика . Издательство Кембриджского университета. ISBN 9780511783692 .
- ^ Харрис 1954 г.
- ^ Ферт 1957
- ^ Салгрен 2008
- ^ Макдональд и Рамскар, 2001 г.
- ^ Глейтман 2002
- ^ Ярлетт 2008
- ^ Уишарт, Райдер; Прокопидис, Прокопис (2017). Эксперименты по тематическому моделированию эллинистических корпусов (PDF) . Материалы семинара по корпусу в цифровых гуманитарных науках 17. S2CID 9191936 .
- ^ Ригер 1991
- ^ Дирвестер и др. 1990.
- ^ Ландауэр, Томас К.; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Психологический обзор . 104 (2): 211–240. дои : 10.1037/0033-295x.104.2.211 .
- ^ Падо и Лапата 2007
- ^ Де Соуза Уэббер, Франциско (2015). «Теория семантической складки и ее применение в семантическом дактилоскопировании». arXiv : 1511.08855 [ cs.AI ].
- ^ Джордан, Майкл И.; Нг, Эндрю Ю.; Блей, Дэвид М. (2003). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 (январь): 993–1022.
- ^ Черч, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Материалы 27-го ежегодного собрания Ассоциации компьютерной лингвистики . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 76–83. дои : 10.3115/981623.981633 .
- ^ Стрелец 1993
- ^ Салгрен 2006
- ^ Карлгрен, Юсси; Канерва, Пентти (июль 2019 г.). «Многомерные распределенные семантические пространства высказываний». Инженерия естественного языка . 25 (4): 503–517. arXiv : 2104.00424 . дои : 10.1017/S1351324919000226 . S2CID 201141249 .
- ^ Кларк, Стивен; Куке, Боб; Садрзаде, Мехрнуш (2008). «Композиционно-распределительная модель значения» (PDF) . Труды Второго симпозиума по квантовому взаимодействию : 133–140.
- ^ «СемЭвал-2014, Задача 1» .
Источники
[ редактировать ]- Харрис, З. (1954). «Структура распределения». Слово . 10 (23): 146–162. дои : 10.1080/00437956.1954.11659520 .
- Ферт, младший (1957). «Краткий обзор лингвистической теории 1930-1955». Исследования по лингвистическому анализу : 1–32. Перепечатано в Ф. Р. Палмер, изд. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 гг . Лондон: Лонгман.
- Ленчи, Алессандро; Салгрен, Магнус (2023). Дистрибутивная семантика . Издательство Кембриджского университета. ISBN 9780511783692 .
- Салгрен, Магнус (2008). «Гипотеза распределения» (PDF) . Ривиста ди Лингвистика . 20 (1): 33–53. Архивировано из оригинала (PDF) 15 марта 2012 г. Проверено 10 декабря 2010 г.
- Макдональд, С.; Рамскар, М. (2001). «Проверка гипотезы распределения: влияние контекста на суждения о семантическом сходстве». Материалы 23-й ежегодной конференции Общества когнитивных наук . стр. 611–616. CiteSeerX 10.1.1.104.7535 .
- Глейтман, Лила Р. (2002). «Глаголы перышка сбиваются в кучу II». Наследие Зеллига Харриса . Актуальные проблемы лингвистической теории. Том. 1. С. 209–229. дои : 10.1075/cilt.228.17gle . ISBN 978-90-272-4736-0 .
- Ярлетт, Д. (2008). Изучение языка посредством обобщения на основе сходства (PDF) (кандидатская диссертация). Стэнфордский университет. Архивировано из оригинала (PDF) 19 апреля 2014 г. Проверено 12 июля 2012 г.
- Ригер, Бургхард Б. (1991). О распределенных представлениях в семантике слов (PDF) (Отчет). ИКСИ Беркли, 12-1991. CiteSeerX 10.1.1.37.7976 .
- Дирвестер, Скотт; Дюмэ, Сьюзен Т.; Фурнас, Джордж В.; Ландауэр, Томас К.; Харшман, Ричард (1990). «Индексирование с помощью скрытого семантического анализа» (PDF) . Журнал Американского общества информатики . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 . Архивировано из оригинала (PDF) 17 июля 2012 г.
- Падо, Себастьян; Лапата, Мирелла (2007). «Построение моделей семантического пространства на основе зависимостей» . Компьютерная лингвистика . 33 (2): 161–199. дои : 10.1162/coli.2007.33.2.161 . S2CID 7747235 .
- Шютце, Хинрих (1993). «Пространство слов». Достижения в области нейронных систем обработки информации 5 . стр. 895–902. CiteSeerX 10.1.1.41.8856 .
- Салгрен, Магнус (2006). Модель словесного пространства (PDF) (кандидатская диссертация). Стокгольмский университет. Архивировано из оригинала (PDF) 19 июня 2012 г. Проверено 26 ноября 2012 г.
- Томас Ландауэр; Сьюзен Т. Дюмэ. «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» . Проверено 2 июля 2007 г.
- Кевин Лунд; Курт Берджесс; Рут Энн Этчли (1995). Семантический и ассоциативный прайминг в многомерном семантическом пространстве . Труды по когнитивным наукам. стр. 660–665.
- Кевин Лунд; Курт Берджесс (1996). «Создание многомерных семантических пространств на основе лексического совпадения» . Методы, инструменты и компьютеры исследования поведения . 28 (2): 203–208. дои : 10.3758/bf03204766 .