Jump to content

Смысловая индукция

В компьютерной лингвистике индукция смысла слова (WSI) или являются открытой проблемой обработки естественного языка , которая касается автоматической идентификации смыслов слова ( дискриминация т.е. значений ). Учитывая, что результатом индукции смысла слова является набор смыслов целевого слова (инвентаризация смыслов), эта задача строго связана с задачей устранения смысловой неоднозначности (WSD), которая опирается на заранее определенный набор смыслов и направлена ​​на решение многозначность слов в контексте.

Подходы и методы [ править ]

Результатом работы алгоритма индукции смысла слова является кластеризация контекстов, в которых встречается целевое слово, или кластеризация слов, связанных с целевым словом. В литературе предложены три основных метода: [1] [2]

  • Кластеризация контекста
  • Кластеризация слов
  • Графики совпадения

Кластеризация контекста [ править ]

Основная гипотеза этого подхода заключается в том, что слова семантически схожи , если они встречаются в похожих документах, в аналогичных контекстных окнах или в схожих синтаксических контекстах. [3] Каждое появление целевого слова в корпусе представляется как вектор контекста . Эти векторы контекста могут быть либо векторами первого порядка, которые непосредственно представляют имеющийся контекст, либо векторами второго порядка, т. е. контексты целевого слова схожи, если их слова имеют тенденцию встречаться вместе. Затем векторы группируются в группы, каждая из которых определяет смысл целевого слова. Хорошо известным подходом к кластеризации контекста является алгоритм дискриминации контекстной группы. [4] на основе методов больших матриц.

Кластеризация слов [ править ]

Кластеризация слов — это другой подход к индукции значений слов. Он состоит из групп слов, которые семантически схожи и, таким образом, могут нести определенное значение. Алгоритм Линя [5] является прототипным примером кластеризации слов, основанной на статистике синтаксических зависимостей, которые встречаются в корпусе для создания наборов слов для каждого обнаруженного смысла целевого слова. [6] Комитет по кластеризации (CBC) [7] также использует синтаксические контексты, но использует матрицу сходства для кодирования сходства между словами и полагается на понятие комитетов для вывода различных значений интересующего слова. Эти подходы трудно реализовать в больших масштабах для многих областей и языков.

Графики совпадения [ править ]

Основная гипотеза графов совместного появления предполагает, что семантика слова может быть представлена ​​с помощью графа совместного появления , вершины которого являются отношениями совместного появления, а ребра — отношениями совместного появления. Эти подходы связаны с методами кластеризации слов, при которых совпадение слов можно получить на основе грамматических данных. [8] или коллокационные отношения. [9] HyperLex — это успешный подход графового алгоритма, основанный на идентификации концентраторов в графах совместного появления, которым приходится справляться с необходимостью настройки большого количества параметров. [10] Для решения этой проблемы было предложено несколько графовых алгоритмов, основанных на простых графовых шаблонах, а именно: кластеризация кривизны, квадраты, треугольники и ромбы (SquaT++) и сбалансированная максимальная кластеризация остовного дерева (B-MST). [11] Шаблоны направлены на идентификацию значений с использованием локальных структурных свойств графа совпадений. Рандомизированный алгоритм, который разделяет вершины графа путем итеративной передачи основного сообщения (т. е. смысла слова) в соседние вершины. [12] это китайский шепот. Было показано, что применение подходов на основе графов совпадений позволяет достичь самых современных показателей в стандартных задачах оценки.

Приложения [ править ]

  • Было показано, что индукция смысла слов приносит пользу при поиске веб-информации при использовании весьма неоднозначных запросов. [9]
  • Простые алгоритмы индукции смысла слов значительно ускоряют кластеризацию результатов веб-поиска и улучшают диверсификацию результатов поиска, возвращаемых поисковыми системами, такими как Yahoo! [13]
  • Индукция смысла слова применялась для обогащения лексических ресурсов, таких как WordNet . [14]

Программное обеспечение [ править ]

  • SenseClusters — это свободно доступный пакет программного обеспечения с открытым исходным кодом, который выполняет как кластеризацию контекста, так и кластеризацию слов.

См. также [ править ]

Ссылки [ править ]

  1. ^ Навильи, Р. (2009). «Устранение неоднозначности смысла слова: опрос» (PDF) . Обзоры вычислительной техники ACM . 41 (2): 1–69. дои : 10.1145/1459352.1459355 . S2CID   461624 .
  2. ^ Насируддин, М. (2013). Современное состояние индукции смысла слова: путь к устранению неоднозначности смысла слова для языков с ограниченными ресурсами (PDF) . TALN-RÉCITAL 2013. Ле Сабль д'Олон, Франция. стр. 192–205.
  3. ^ Ван де Круйс, Т. (2010). «Поиск смысла. Извлечение лексико-семантических знаний из текста» (PDF) .
  4. ^ Шютце, Х. (1998). Размеры смысла . 1992 Конференция ACM/IEEE по суперкомпьютерам. Лос-Аламитос, Калифорния: Издательство IEEE Computer Society Press. стр. 787–796. дои : 10.1109/SUPERC.1992.236684 .
  5. ^ Лин, Д. (1998). Автоматический поиск и кластеризация похожих слов (PDF) . 17-я Международная конференция по компьютерной лингвистике (COLING). Монреаль, Канада. стр. 768–774.
  6. ^ Ван де Круйс, Тим; Апидианаки, Марианна (2011). «Индукция скрытого семантического смысла слова и устранение неоднозначности» (PDF) .
  7. ^ Лин, Д.; Пантель, П. (2002). Выявление значений слов из текста . 8-я Международная конференция по обнаружению знаний и интеллектуальному анализу данных (KDD). Эдмонтон, Канада. стр. 613–619. CiteSeerX   10.1.1.12.6771 .
  8. ^ Уиддоуз, Д.; Дороу, Б. (2002). Графовая модель для неконтролируемого лексического приобретения (PDF) . 19-я Международная конференция по компьютерной лингвистике (COLING). Тайбэй, Тайвань. стр. 1–7.
  9. Перейти обратно: Перейти обратно: а б Веронис, Дж. (2004). «Hyperlex: Лексическая картография для поиска информации» (PDF) . Компьютерная речь и язык . 18 (3): 223–252. CiteSeerX   10.1.1.66.6499 . дои : 10.1016/j.csl.2004.05.002 .
  10. ^ Агирре, Э.; Мартинес, Д.; Де Лакаль, О. Лопес; Сороа, А. Два алгоритма на основе графов для современного WSD (PDF) . Конференция 2006 г. по эмпирическим методам обработки естественного языка (EMNLP). Сидней, Австралия. стр. 585–593.
  11. ^ Ди Марко, А.; Навильи, Р. (2013). «Кластеризация и диверсификация результатов веб-поиска с помощью графической индукции смысла слов» (PDF) . Компьютерная лингвистика . 39 (3): 709–754. дои : 10.1162/coli_a_00148 . S2CID   1775181 .
  12. ^ Биманн, К. (2006). «Китайский шепот — эффективный алгоритм кластеризации графов и его применение к задачам обработки естественного языка» (PDF) .
  13. ^ Навильи, Р.; Крисафулли, Г. Использование смысла слов для улучшения кластеризации результатов веб-поиска (PDF) . Конференция 2010 г. по эмпирическим методам обработки естественного языка (EMNLP 2010). Массачусетс, США: Статистический центр Массачусетского технологического института. стр. 116–126.
  14. ^ Насируддин, М.; Шваб, Д.; Чечмеджиев А.; Серассет, Г.; Бланшон, Х. Индукция смысла слова для обогащения лексических ресурсов (PDF) . 21-я конференция по обработке естественного языка (TALN 2014). Марсель, Франция. стр. 598–603.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9d934500bae1b1aed64151e328749172__1693212960
URL1:https://arc.ask3.ru/arc/aa/9d/72/9d934500bae1b1aed64151e328749172.html
Заголовок, (Title) документа по адресу, URL1:
Word-sense induction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)