Смысловая индукция
В компьютерной лингвистике индукция смысла слова (WSI) или является открытой проблемой обработки естественного языка , которая касается автоматической идентификации смыслов слова ( дискриминация т.е. значений ). Учитывая, что результатом индукции смысла слова является набор смыслов целевого слова (инвентарь смыслов), эта задача строго связана с задачей устранения смысловой неоднозначности (WSD), которая опирается на заранее определенный набор смыслов и направлена на решение многозначность слов в контексте.
Подходы и методы
[ редактировать ]Результатом работы алгоритма индукции смысла слова является кластеризация контекстов, в которых встречается целевое слово, или кластеризация слов, связанных с целевым словом. В литературе предложены три основных метода: [ 1 ] [ 2 ]
- Кластеризация контекста
- Кластеризация слов
- Графики совпадения
Кластеризация контекста
[ редактировать ]Основная гипотеза этого подхода заключается в том, что слова семантически схожи , если они встречаются в похожих документах, в аналогичных контекстных окнах или в схожих синтаксических контекстах. [ 3 ] Каждое появление целевого слова в корпусе представляется как вектор контекста . Эти векторы контекста могут быть либо векторами первого порядка, которые непосредственно представляют имеющийся контекст, либо векторами второго порядка, т. е. контексты целевого слова схожи, если их слова имеют тенденцию встречаться вместе. Затем векторы группируются в группы, каждая из которых определяет смысл целевого слова. Хорошо известным подходом к кластеризации контекста является алгоритм дискриминации контекстной группы. [ 4 ] на основе методов вычисления больших матриц.
Кластеризация слов
[ редактировать ]Кластеризация слов — это другой подход к индукции значений слов. Он состоит из группировок слов, которые семантически схожи и, таким образом, могут нести определенное значение. Алгоритм Линя [ 5 ] является прототипным примером кластеризации слов, основанной на статистике синтаксических зависимостей, которые встречаются в корпусе для создания наборов слов для каждого обнаруженного смысла целевого слова. [ 6 ] Комитет по кластеризации (CBC) [ 7 ] также использует синтаксические контексты, но использует матрицу сходства для кодирования сходства между словами и полагается на понятие комитетов для вывода различных значений интересующего слова. Эти подходы трудно реализовать в больших масштабах для многих областей и языков.
Графики совпадения
[ редактировать ]Основная гипотеза графов совместного появления предполагает, что семантика слова может быть представлена с помощью графа совместного появления , вершины которого являются отношениями совместного появления, а ребра — отношениями совместного появления. Эти подходы связаны с методами кластеризации слов, при которых совпадение слов можно получить на основе грамматических данных. [ 8 ] или коллокационные отношения. [ 9 ] HyperLex — это успешный подход графового алгоритма, основанный на идентификации концентраторов в графах совместного появления, которым приходится справляться с необходимостью настройки большого количества параметров. [ 10 ] Для решения этой проблемы было предложено несколько графовых алгоритмов, основанных на простых графовых шаблонах, а именно: кластеризация кривизны, квадраты, треугольники и ромбы (SquaT++) и сбалансированная максимальная кластеризация остовного дерева (B-MST). [ 11 ] Шаблоны направлены на идентификацию значений с использованием локальных структурных свойств графа совпадений. Рандомизированный алгоритм, который разделяет вершины графа путем итеративной передачи основного сообщения (т. е. смысла слова) в соседние вершины. [ 12 ] это китайский шепот. Было показано, что применение подходов на основе графов совпадений позволяет достичь самых современных показателей производительности в стандартных задачах оценки.
Приложения
[ редактировать ]- Было показано, что индукция смысла слов приносит пользу поиску веб-информации при использовании весьма неоднозначных запросов. [ 9 ]
- Простые алгоритмы индукции смысла слов значительно ускоряют кластеризацию результатов веб-поиска и улучшают диверсификацию результатов поиска, возвращаемых поисковыми системами, такими как Yahoo! [ 13 ]
- Индукция смысла слова применялась для обогащения лексических ресурсов, таких как WordNet . [ 14 ]
Программное обеспечение
[ редактировать ]- SenseClusters — это свободно доступный пакет программного обеспечения с открытым исходным кодом, который выполняет как кластеризацию контекста, так и кластеризацию слов.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Навильи, Р. (2009). «Устранение неоднозначности смысла слова: опрос» (PDF) . Обзоры вычислительной техники ACM . 41 (2): 1–69. дои : 10.1145/1459352.1459355 . S2CID 461624 .
- ^ Насируддин, М. (2013). Современное состояние индукции смысла слова: путь к устранению неоднозначности смысла слова для языков с ограниченными ресурсами (PDF) . TALN-RECITAL 2013. Пески Олонны, Франция. стр. 100-1 192–205.
- ^ Ван де Круйс, Т. (2010). «Поиск смысла. Извлечение лексико-семантических знаний из текста» (PDF) .
- ^ Шютце, Х. (1998). Размеры смысла . 1992 Конференция ACM/IEEE по суперкомпьютерам. Лос-Аламитос, Калифорния: Издательство IEEE Computer Society Press. стр. 787–796. дои : 10.1109/SUPERC.1992.236684 .
- ^ Лин, Д. (1998). Автоматический поиск и кластеризация похожих слов (PDF) . 17-я Международная конференция по компьютерной лингвистике (COLING). Монреаль, Канада. стр. 768–774.
- ^ Ван де Круйс, Тим; Апидианаки, Марианна (2011). «Индукция скрытого семантического смысла слова и устранение неоднозначности» (PDF) .
- ^ Лин, Д.; Пантель, П. (2002). Выявление значений слов из текста . 8-я Международная конференция по обнаружению знаний и интеллектуальному анализу данных (KDD). Эдмонтон, Канада. стр. 613–619. CiteSeerX 10.1.1.12.6771 .
- ^ Уиддоуз, Д.; Дороу, Б. (2002). Графовая модель для неконтролируемого лексического приобретения (PDF) . 19-я Международная конференция по компьютерной лингвистике (COLING). Тайбэй, Тайвань. стр. 1–7.
- ^ Перейти обратно: а б Веронис, Дж. (2004). «Hyperlex: Лексическая картография для поиска информации» (PDF) . Компьютерная речь и язык . 18 (3): 223–252. CiteSeerX 10.1.1.66.6499 . дои : 10.1016/j.csl.2004.05.002 .
- ^ Агирре, Э.; Мартинес, Д.; Де Лакаль, О. Лопес; Сороа, А. Два алгоритма на основе графов для современного WSD (PDF) . Конференция 2006 г. по эмпирическим методам обработки естественного языка (EMNLP). Сидней, Австралия. стр. 585–593.
- ^ Ди Марко, А.; Навильи, Р. (2013). «Кластеризация и диверсификация результатов веб-поиска с помощью графической индукции смысла слов» (PDF) . Компьютерная лингвистика . 39 (3): 709–754. дои : 10.1162/coli_a_00148 . S2CID 1775181 .
- ^ Биманн, К. (2006). «Китайский шепот — эффективный алгоритм кластеризации графов и его применение к задачам обработки естественного языка» (PDF) .
- ^ Навильи, Р.; Крисафулли, Г. Использование смысла слов для улучшения кластеризации результатов веб-поиска (PDF) . Конференция 2010 г. по эмпирическим методам обработки естественного языка (EMNLP 2010). Массачусетс, США: Статистический центр Массачусетского технологического института. стр. 116–126.
- ^ Насируддин, М.; Шваб, Д.; Чечмеджиев А.; Серассе, Г.; Бланшон, Х. Индукция смысла слова для обогащения лексических ресурсов (PDF) . 21-я конференция по обработке естественного языка (TALN 2014). Марсель, Франция. стр. 598–603.