Jump to content

Алгоритм Леска

Алгоритм Леска — это классический алгоритм устранения смысловой неоднозначности слов, предложенный Майклом Э. Леском в 1986 году. [1] Он основан на предпосылке, что слова в данном контексте, вероятно, имеют общее значение. Этот алгоритм сравнивает словарные определения неоднозначного слова со словами в окружающем его контексте, чтобы определить наиболее подходящий смысл. Варианты, такие как упрощенный алгоритм Леска, продемонстрировали повышенную точность и эффективность. Однако алгоритм Леска подвергся критике за его чувствительность к формулировкам определений и зависимость от кратких толкований. Исследователи стремились повысить его точность за счет включения дополнительных ресурсов, таких как тезаурусы и синтаксические модели.

Обзор [ править ]

Алгоритм Леска основан на предположении, что слова в данном «районе» (разделе текста) имеют тенденцию иметь общую тему. Упрощенная версия алгоритма Леска заключается в сравнении словарного определения неоднозначного слова с терминами, содержащимися в его окрестностях. Версии адаптированы для использования WordNet . [2] Реализация может выглядеть так:

  1. для каждого значения слова, которое устраняется неоднозначность, следует подсчитать количество слов, которые находятся как по соседству с этим словом, так и в словарном определении этого значения.
  2. смысл, который следует выбрать, - это смысл, имеющий наибольшее число этих значений.

Часто используемый пример, иллюстрирующий этот алгоритм, касается контекста «сосновая шишка». Используются следующие словарные определения:

PINE 
1. kinds of evergreen tree with needle-shaped leaves
2. waste away through sorrow or illness
CONE 
1. solid body which narrows to a point
2. something of this shape whether solid or hollow
3. fruit of certain evergreen trees

Как видно, лучшее пересечение — это Сосна №1 ⋂ Конус №3 = 2.

Упрощенный алгоритм Леска [ править ]

В упрощенном алгоритме Леска [3] правильное значение каждого слова в данном контексте определяется индивидуально путем определения смысла, который больше всего перекрывается между его словарным определением и данным контекстом. Вместо одновременного определения значений всех слов в данном контексте этот подход рассматривает каждое слово индивидуально, независимо от значения других слов, встречающихся в том же контексте.

«Сравнительная оценка, проведенная Василеску и др. (2004 г.) [4] показал, что упрощенный алгоритм Леска может значительно превосходить исходное определение алгоритма как с точки зрения точности, так и эффективности. Оценивая алгоритмы устранения неоднозначности на данных всех слов английского языка Senseval-2, они измеряют точность 58% при использовании упрощенного алгоритма Леска по сравнению с только 42% при использовании исходного алгоритма.

Примечание: Василеску и др. реализация учитывает стратегию отката для слов, не охватываемых алгоритмом, состоящих из наиболее часто встречающихся значений, определенных в WordNet. Это означает, что слова, все их возможные значения которых не перекрываются с текущим контекстом или с другими определениями слов, по умолчанию имеют смысл номер один в WordNet». [5]

Упрощенный алгоритм LESK с интеллектуальным определением слов по умолчанию (Vasilescu et al., 2004). [6]

функция УПРОЩЕННЫЙ ЛЕСК( слово,предложение ) возвращает лучший смысл слова
лучший смысл <- наиболее часто встречающийся смысл слова
максимальное перекрытие <- 0
контекст <- набор слов в предложении
для каждого смысла в смыслах слова делать
подпись <- набор слов в глянце и примеры по смыслу
перекрытие <- COMPUTEOVERLAP ( подпись,контекст )
если перекрытие > максимальное перекрытие, то
максимальное перекрытие <- перекрытие
здравый смысл <- смысл

конец возврата ( здравый смысл )

Функция COMPUTEOVERLAP возвращает количество общих слов в двух наборах, игнорируя функциональные слова или другие слова в стоп-листе. Исходный алгоритм Леска определяет контекст более сложным образом.

Критика [ править ]

К сожалению, подход Леска очень чувствителен к точным формулировкам определений, поэтому отсутствие определенного слова может радикально изменить результаты. Далее алгоритм определяет совпадения только среди толкований рассматриваемых смыслов. Это существенное ограничение, поскольку словарные толкования, как правило, довольно кратки и не содержат достаточного словарного запаса для передачи тонких смысловых различий.

Появилось много работ, предлагающих различные модификации этого алгоритма. В этих работах используются другие ресурсы для анализа (тезаурусы, словари синонимов или морфологические и синтаксические модели): например, может использоваться такая информация, как синонимы, различные производные или слова из определений слов из определений. [7]

Lesk variants [ edit ]

  • Оригинальный Леск (Леск, 1986)
  • Адаптированный/расширенный леск (Банерджи и Педерсон, 2002/2003): В алгоритме адаптивного леска создается вектор слов, соответствующий каждому слову контента в глоссе wordnet. Объединение толкований связанных понятий в WordNet можно использовать для расширения этого вектора. Вектор содержит количество совпадений слов, встречающихся одновременно с w в большом корпусе. Добавление всех векторов слов для всех слов содержания в его глоссе создает вектор глосса g для понятия. Родственность определяется путем сравнения вектора блеска с использованием косинусной меры сходства . [8]

Существует множество исследований, касающихся Lesk и его расширений: [9]

  • Уилкс и Стивенсон, 1998, 1999 гг.;
  • Махеш и др., 1997;
  • Коуи и др., 1992;
  • Яровский, 1992;
  • Пук и Кэтлетт, 1988 г.;
  • Килгаррифф и Розенсвейг, 2000 г.;
  • Квонг, 2001 г.;
  • Нэстасе и Шпакович, 2001 г.;
  • Gelbukh and Sidorov, 2004.

См. также [ править ]

Ссылки [ править ]

  1. ^ Леск, М. (1986). Автоматическое устранение смысловой неоднозначности с помощью машиночитаемых словарей: как отличить сосновую шишку от рожка мороженого . В SIGDOC '86: Материалы 5-й ежегодной международной конференции по системной документации, страницы 24–26, Нью-Йорк, штат Нью-Йорк, США. АКМ.
  2. ^ Сатанджив Банерджи и Тед Педерсен. Адаптированный алгоритм Леска для устранения неоднозначности смысла слов с использованием WordNet , конспекты лекций по информатике; Том. 2276, Страницы: 136–145, 2002. ISBN   3-540-43219-1
  3. ^ Килгаррифф и Дж. Розенцвейг. 2000. Английский SENSEVAL: Отчет и результаты . В материалах 2-й Международной конференции по языковым ресурсам и оценке, LREC, Афины, Греция.
  4. ^ Флорентина Василеску, Филипп Лангле и Ги Лапальм. 2004. Оценка вариантов подхода Леска к устранению неоднозначности слов . ЛРЕК, Португалия.
  5. ^ Агирре, Энеко и Филип Эдмондс (ред.). 2006. Устранение неоднозначности смысла слова: алгоритмы и приложения . Дордрехт: Спрингер. www.wsdbook.org
  6. ^ Флорентина Василеску, Филипп Лангле и Ги Лапальм. 2004. Оценка вариантов подхода Леска к устранению неоднозначности слов . ЛРЕК, Португалия.
  7. ^ Alexander Gelbukh, Grigori Sidorov. Automatic resolution of ambiguity of word senses in dictionary definitions (in Russian). J. Nauchno-Tehnicheskaya Informaciya (NTI), ISSN 0548-0027, ser. 2, N 3, 2004, pp. 10–15.
  8. ^ Банерджи, Сатджиев; Педерсен, Тед (17 февраля 2002 г.). «Адаптированный алгоритм Леска для устранения неоднозначности смысла слов с использованием WordNet». Компьютерная лингвистика и интеллектуальная обработка текста . Конспекты лекций по информатике. Том. 2276. Шпрингер, Берлин, Гейдельберг. стр. 136–145. CiteSeerX   10.1.1.118.8359 . дои : 10.1007/3-540-45715-1_11 . ISBN  978-3540457152 .
  9. ^ Роберто Навильи. Устранение неоднозначности в смысле слова: опрос , ACM Computing Surveys, 41 (2), 2009 г., стр. 1–69.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b7dc187c46841490b3132c41e24ad839__1714187280
URL1:https://arc.ask3.ru/arc/aa/b7/39/b7dc187c46841490b3132c41e24ad839.html
Заголовок, (Title) документа по адресу, URL1:
Lesk algorithm - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)