Алгоритм Леска
Алгоритм Леска — это классический алгоритм устранения смысловой неоднозначности слов, предложенный Майклом Э. Леском в 1986 году. [1] Он основан на предпосылке, что слова в данном контексте, вероятно, имеют общее значение. Этот алгоритм сравнивает словарные определения неоднозначного слова со словами в окружающем его контексте, чтобы определить наиболее подходящий смысл. Варианты, такие как упрощенный алгоритм Леска, продемонстрировали повышенную точность и эффективность. Однако алгоритм Леска подвергся критике за его чувствительность к формулировкам определений и зависимость от кратких толкований. Исследователи стремились повысить его точность за счет включения дополнительных ресурсов, таких как тезаурусы и синтаксические модели.
Обзор [ править ]
Алгоритм Леска основан на предположении, что слова в данном «районе» (разделе текста) имеют тенденцию иметь общую тему. Упрощенная версия алгоритма Леска заключается в сравнении словарного определения неоднозначного слова с терминами, содержащимися в его окрестностях. Версии адаптированы для использования WordNet . [2] Реализация может выглядеть так:
- для каждого значения слова, которое устраняется неоднозначность, следует подсчитать количество слов, которые находятся как по соседству с этим словом, так и в словарном определении этого значения.
- смысл, который следует выбрать, - это смысл, имеющий наибольшее число этих значений.
Часто используемый пример, иллюстрирующий этот алгоритм, касается контекста «сосновая шишка». Используются следующие словарные определения:
PINE 1. kinds of evergreen tree with needle-shaped leaves 2. waste away through sorrow or illness
CONE 1. solid body which narrows to a point 2. something of this shape whether solid or hollow 3. fruit of certain evergreen trees
Как видно, лучшее пересечение — это Сосна №1 ⋂ Конус №3 = 2.
Упрощенный алгоритм Леска [ править ]
В упрощенном алгоритме Леска [3] правильное значение каждого слова в данном контексте определяется индивидуально путем определения смысла, который больше всего перекрывается между его словарным определением и данным контекстом. Вместо одновременного определения значений всех слов в данном контексте этот подход рассматривает каждое слово индивидуально, независимо от значения других слов, встречающихся в том же контексте.
«Сравнительная оценка, проведенная Василеску и др. (2004 г.) [4] показал, что упрощенный алгоритм Леска может значительно превосходить исходное определение алгоритма как с точки зрения точности, так и эффективности. Оценивая алгоритмы устранения неоднозначности на данных всех слов английского языка Senseval-2, они измеряют точность 58% при использовании упрощенного алгоритма Леска по сравнению с только 42% при использовании исходного алгоритма.
Примечание: Василеску и др. реализация учитывает стратегию отката для слов, не охватываемых алгоритмом, состоящих из наиболее часто встречающихся значений, определенных в WordNet. Это означает, что слова, все их возможные значения которых не перекрываются с текущим контекстом или с другими определениями слов, по умолчанию имеют смысл номер один в WordNet». [5]
Упрощенный алгоритм LESK с интеллектуальным определением слов по умолчанию (Vasilescu et al., 2004). [6]
функция УПРОЩЕННЫЙ ЛЕСК( слово,предложение ) возвращает лучший смысл слова
конец возврата ( здравый смысл ) |
Функция COMPUTEOVERLAP возвращает количество общих слов в двух наборах, игнорируя функциональные слова или другие слова в стоп-листе. Исходный алгоритм Леска определяет контекст более сложным образом.
Критика [ править ]
К сожалению, подход Леска очень чувствителен к точным формулировкам определений, поэтому отсутствие определенного слова может радикально изменить результаты. Далее алгоритм определяет совпадения только среди толкований рассматриваемых смыслов. Это существенное ограничение, поскольку словарные толкования, как правило, довольно кратки и не содержат достаточного словарного запаса для передачи тонких смысловых различий.
Появилось много работ, предлагающих различные модификации этого алгоритма. В этих работах используются другие ресурсы для анализа (тезаурусы, словари синонимов или морфологические и синтаксические модели): например, может использоваться такая информация, как синонимы, различные производные или слова из определений слов из определений. [7]
Lesk variants [ edit ]
- Оригинальный Леск (Леск, 1986)
- Адаптированный/расширенный леск (Банерджи и Педерсон, 2002/2003): В алгоритме адаптивного леска создается вектор слов, соответствующий каждому слову контента в глоссе wordnet. Объединение толкований связанных понятий в WordNet можно использовать для расширения этого вектора. Вектор содержит количество совпадений слов, встречающихся одновременно с w в большом корпусе. Добавление всех векторов слов для всех слов содержания в его глоссе создает вектор глосса g для понятия. Родственность определяется путем сравнения вектора блеска с использованием косинусной меры сходства . [8]
Существует множество исследований, касающихся Lesk и его расширений: [9]
- Уилкс и Стивенсон, 1998, 1999 гг.;
- Махеш и др., 1997;
- Коуи и др., 1992;
- Яровский, 1992;
- Пук и Кэтлетт, 1988 г.;
- Килгаррифф и Розенсвейг, 2000 г.;
- Квонг, 2001 г.;
- Нэстасе и Шпакович, 2001 г.;
- Gelbukh and Sidorov, 2004.
См. также [ править ]

Ссылки [ править ]
- ^ Леск, М. (1986). Автоматическое устранение смысловой неоднозначности с помощью машиночитаемых словарей: как отличить сосновую шишку от рожка мороженого . В SIGDOC '86: Материалы 5-й ежегодной международной конференции по системной документации, страницы 24–26, Нью-Йорк, штат Нью-Йорк, США. АКМ.
- ^ Сатанджив Банерджи и Тед Педерсен. Адаптированный алгоритм Леска для устранения неоднозначности смысла слов с использованием WordNet , конспекты лекций по информатике; Том. 2276, Страницы: 136–145, 2002. ISBN 3-540-43219-1
- ^ Килгаррифф и Дж. Розенцвейг. 2000. Английский SENSEVAL: Отчет и результаты . В материалах 2-й Международной конференции по языковым ресурсам и оценке, LREC, Афины, Греция.
- ^ Флорентина Василеску, Филипп Лангле и Ги Лапальм. 2004. Оценка вариантов подхода Леска к устранению неоднозначности слов . ЛРЕК, Португалия.
- ^ Агирре, Энеко и Филип Эдмондс (ред.). 2006. Устранение неоднозначности смысла слова: алгоритмы и приложения . Дордрехт: Спрингер. www.wsdbook.org
- ^ Флорентина Василеску, Филипп Лангле и Ги Лапальм. 2004. Оценка вариантов подхода Леска к устранению неоднозначности слов . ЛРЕК, Португалия.
- ^ Alexander Gelbukh, Grigori Sidorov. Automatic resolution of ambiguity of word senses in dictionary definitions (in Russian). J. Nauchno-Tehnicheskaya Informaciya (NTI), ISSN 0548-0027, ser. 2, N 3, 2004, pp. 10–15.
- ^ Банерджи, Сатджиев; Педерсен, Тед (17 февраля 2002 г.). «Адаптированный алгоритм Леска для устранения неоднозначности смысла слов с использованием WordNet». Компьютерная лингвистика и интеллектуальная обработка текста . Конспекты лекций по информатике. Том. 2276. Шпрингер, Берлин, Гейдельберг. стр. 136–145. CiteSeerX 10.1.1.118.8359 . дои : 10.1007/3-540-45715-1_11 . ISBN 978-3540457152 .
- ^ Роберто Навильи. Устранение неоднозначности в смысле слова: опрос , ACM Computing Surveys, 41 (2), 2009 г., стр. 1–69.