Алгоритм Леска

Алгоритм Леска — это классический алгоритм устранения смысловой неоднозначности слов, предложенный Майклом Э. Леском в 1986 году. ^[1] Он основан на предпосылке, что слова в данном контексте, вероятно, имеют общее значение. Этот алгоритм сравнивает словарные определения неоднозначного слова со словами в окружающем его контексте, чтобы определить наиболее подходящий смысл. Варианты, такие как упрощенный алгоритм Леска, продемонстрировали повышенную точность и эффективность. Однако алгоритм Леска подвергся критике за его чувствительность к формулировкам определений и зависимость от кратких толкований. Исследователи стремились повысить его точность за счет включения дополнительных ресурсов, таких как тезаурусы и синтаксические модели.

Обзор [ править ]

Алгоритм Леска основан на предположении, что слова в данном «районе» (разделе текста) имеют тенденцию иметь общую тему. Упрощенная версия алгоритма Леска заключается в сравнении словарного определения неоднозначного слова с терминами, содержащимися в его окрестностях. Версии адаптированы для использования WordNet . ^[2] Реализация может выглядеть так:

для каждого значения слова, которое устраняется неоднозначность, следует подсчитать количество слов, которые находятся как по соседству с этим словом, так и в словарном определении этого значения.
смысл, который следует выбрать, - это смысл, имеющий наибольшее число этих значений.

Часто используемый пример, иллюстрирующий этот алгоритм, касается контекста «сосновая шишка». Используются следующие словарные определения:

PINE 
1. kinds of evergreen tree with needle-shaped leaves
2. waste away through sorrow or illness

CONE 
1. solid body which narrows to a point
2. something of this shape whether solid or hollow
3. fruit of certain evergreen trees

Как видно, лучшее пересечение — это Сосна №1 ⋂ Конус №3 = 2.

Упрощенный алгоритм Леска [ править ]

В упрощенном алгоритме Леска ^[3] правильное значение каждого слова в данном контексте определяется индивидуально путем определения смысла, который больше всего перекрывается между его словарным определением и данным контекстом. Вместо одновременного определения значений всех слов в данном контексте этот подход рассматривает каждое слово индивидуально, независимо от значения других слов, встречающихся в том же контексте.

«Сравнительная оценка, проведенная Василеску и др. (2004 г.) ^[4] показал, что упрощенный алгоритм Леска может значительно превосходить исходное определение алгоритма как с точки зрения точности, так и эффективности. Оценивая алгоритмы устранения неоднозначности на данных всех слов английского языка Senseval-2, они измеряют точность 58% при использовании упрощенного алгоритма Леска по сравнению с только 42% при использовании исходного алгоритма.

Примечание: Василеску и др. реализация учитывает стратегию отката для слов, не охватываемых алгоритмом, состоящих из наиболее часто встречающихся значений, определенных в WordNet. Это означает, что слова, все их возможные значения которых не перекрываются с текущим контекстом или с другими определениями слов, по умолчанию имеют смысл номер один в WordNet». ^[5]

Упрощенный алгоритм LESK с интеллектуальным определением слов по умолчанию (Vasilescu et al., 2004). ^[6]

функция УПРОЩЕННЫЙ ЛЕСК( слово,предложение ) возвращает лучший смысл слова лучший смысл <- наиболее часто встречающийся смысл слова максимальное перекрытие <- 0 контекст <- набор слов в предложении для каждого смысла в смыслах слова делать подпись <- набор слов в глянце и примеры по смыслу перекрытие <- COMPUTEOVERLAP ( подпись,контекст ) если перекрытие > максимальное перекрытие, то максимальное перекрытие <- перекрытие здравый смысл <- смысл конец возврата ( здравый смысл )

Функция COMPUTEOVERLAP возвращает количество общих слов в двух наборах, игнорируя функциональные слова или другие слова в стоп-листе. Исходный алгоритм Леска определяет контекст более сложным образом.

Критика [ править ]

К сожалению, подход Леска очень чувствителен к точным формулировкам определений, поэтому отсутствие определенного слова может радикально изменить результаты. Далее алгоритм определяет совпадения только среди толкований рассматриваемых смыслов. Это существенное ограничение, поскольку словарные толкования, как правило, довольно кратки и не содержат достаточного словарного запаса для передачи тонких смысловых различий.

Появилось много работ, предлагающих различные модификации этого алгоритма. В этих работах используются другие ресурсы для анализа (тезаурусы, словари синонимов или морфологические и синтаксические модели): например, может использоваться такая информация, как синонимы, различные производные или слова из определений слов из определений. ^[7]

Lesk variants [ edit ]

Оригинальный Леск (Леск, 1986)
Адаптированный/расширенный леск (Банерджи и Педерсон, 2002/2003): В алгоритме адаптивного леска создается вектор слов, соответствующий каждому слову контента в глоссе wordnet. Объединение толкований связанных понятий в WordNet можно использовать для расширения этого вектора. Вектор содержит количество совпадений слов, встречающихся одновременно с w в большом корпусе. Добавление всех векторов слов для всех слов содержания в его глоссе создает вектор глосса g для понятия. Родственность определяется путем сравнения вектора блеска с использованием косинусной меры сходства . ^[8]

Существует множество исследований, касающихся Lesk и его расширений: ^[9]

Уилкс и Стивенсон, 1998, 1999 гг.;
Махеш и др., 1997;
Коуи и др., 1992;
Яровский, 1992;
Пук и Кэтлетт, 1988 г.;
Килгаррифф и Розенсвейг, 2000 г.;
Квонг, 2001 г.;
Нэстасе и Шпакович, 2001 г.;
Gelbukh and Sidorov, 2004.

См. также [ править ]

Смысловая неоднозначность

Ссылки [ править ]

^ Леск, М. (1986). Автоматическое устранение смысловой неоднозначности с помощью машиночитаемых словарей: как отличить сосновую шишку от рожка мороженого . В SIGDOC '86: Материалы 5-й ежегодной международной конференции по системной документации, страницы 24–26, Нью-Йорк, штат Нью-Йорк, США. АКМ.
^ Сатанджив Банерджи и Тед Педерсен. Адаптированный алгоритм Леска для устранения неоднозначности смысла слов с использованием WordNet , конспекты лекций по информатике; Том. 2276, Страницы: 136–145, 2002. ISBN 3-540-43219-1
^ Килгаррифф и Дж. Розенцвейг. 2000. Английский SENSEVAL: Отчет и результаты . В материалах 2-й Международной конференции по языковым ресурсам и оценке, LREC, Афины, Греция.
^ Флорентина Василеску, Филипп Лангле и Ги Лапальм. 2004. Оценка вариантов подхода Леска к устранению неоднозначности слов . ЛРЕК, Португалия.
^ Агирре, Энеко и Филип Эдмондс (ред.). 2006. Устранение неоднозначности смысла слова: алгоритмы и приложения . Дордрехт: Спрингер. www.wsdbook.org
^ Флорентина Василеску, Филипп Лангле и Ги Лапальм. 2004. Оценка вариантов подхода Леска к устранению неоднозначности слов . ЛРЕК, Португалия.
^ Alexander Gelbukh, Grigori Sidorov. Automatic resolution of ambiguity of word senses in dictionary definitions (in Russian). J. Nauchno-Tehnicheskaya Informaciya (NTI), ISSN 0548-0027, ser. 2, N 3, 2004, pp. 10–15.
^ Банерджи, Сатджиев; Педерсен, Тед (17 февраля 2002 г.). «Адаптированный алгоритм Леска для устранения неоднозначности смысла слов с использованием WordNet». Компьютерная лингвистика и интеллектуальная обработка текста . Конспекты лекций по информатике. Том. 2276. Шпрингер, Берлин, Гейдельберг. стр. 136–145. CiteSeerX 10.1.1.118.8359 . дои : 10.1007/3-540-45715-1_11 . ISBN 978-3540457152 .
^ Роберто Навильи. Устранение неоднозначности в смысле слова: опрос , ACM Computing Surveys, 41 (2), 2009 г., стр. 1–69.

[1] Леск, М. (1986). Автоматическое устранение смысловой неоднозначности с помощью машиночитаемых словарей: как отличить сосновую шишку от рожка мороженого . В SIGDOC '86: Материалы 5-й ежегодной международной конференции по системной документации, страницы 24–26, Нью-Йорк, штат Нью-Йорк, США. АКМ.

[2] Сатанджив Банерджи и Тед Педерсен. Адаптированный алгоритм Леска для устранения неоднозначности смысла слов с использованием WordNet , конспекты лекций по информатике; Том. 2276, Страницы: 136–145, 2002. ISBN 3-540-43219-1

[3] Килгаррифф и Дж. Розенцвейг. 2000. Английский SENSEVAL: Отчет и результаты . В материалах 2-й Международной конференции по языковым ресурсам и оценке, LREC, Афины, Греция.

[4] Флорентина Василеску, Филипп Лангле и Ги Лапальм. 2004. Оценка вариантов подхода Леска к устранению неоднозначности слов . ЛРЕК, Португалия.

[5] Агирре, Энеко и Филип Эдмондс (ред.). 2006. Устранение неоднозначности смысла слова: алгоритмы и приложения . Дордрехт: Спрингер. www.wsdbook.org

[6] Флорентина Василеску, Филипп Лангле и Ги Лапальм. 2004. Оценка вариантов подхода Леска к устранению неоднозначности слов . ЛРЕК, Португалия.

[7] Alexander Gelbukh, Grigori Sidorov. Automatic resolution of ambiguity of word senses in dictionary definitions (in Russian). J. Nauchno-Tehnicheskaya Informaciya (NTI), ISSN 0548-0027, ser. 2, N 3, 2004, pp. 10–15.

[8] Банерджи, Сатджиев; Педерсен, Тед (17 февраля 2002 г.). «Адаптированный алгоритм Леска для устранения неоднозначности смысла слов с использованием WordNet». Компьютерная лингвистика и интеллектуальная обработка текста . Конспекты лекций по информатике. Том. 2276. Шпрингер, Берлин, Гейдельберг. стр. 136–145. CiteSeerX 10.1.1.118.8359 . дои : 10.1007/3-540-45715-1_11 . ISBN 978-3540457152 .

[9] Роберто Навильи. Устранение неоднозначности в смысле слова: опрос , ACM Computing Surveys, 41 (2), 2009 г., стр. 1–69.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]