Jump to content

Классическое одноязычное устранение смысловой неоднозначности

Классические одноязычные задачи оценки устранения неоднозначности смысла слова используют WordNet в качестве смыслового инвентаря и в значительной степени основаны на контролируемой / полуконтролируемой классификации с аннотированными вручную корпусами: [1]

  • Классический английский WSD использует Princeton WordNet для определения инвентаризации, а первичные входные классификационные данные обычно основаны на корпусе SemCor .
  • Классический WSD для других языков использует соответствующие WordNet в качестве смысловых описей и смысловых аннотированных корпусов, помеченных на соответствующих языках. Часто исследователи также используют корпус SemCor и выравнивают битексты, используя английский в качестве исходного языка.

Смысловые запасы

[ редактировать ]

Во время первого семинара Senseval был принят сенсорный опросник HECTOR. Причина принятия ранее неизвестного реестра смыслов заключалась главным образом в том, чтобы избежать использования популярных детальных значений слов (таких как WordNet), которые могли бы сделать эксперименты несправедливыми или предвзятыми. Однако, учитывая недостаточность охвата таких реестров, после второго семинара Senseval был принят реестр смыслов WordNet. Для упражнений WSD требуется словарь, чтобы указать значения слов, которые необходимо устранить неоднозначность, а также корпус языковых данных, которые необходимо устранить неоднозначность. WordNet — самый популярный пример смысловой инвентаризации. Причиной использования базы данных HECTOR во время Senseval-1 было то, что инвентаризация WordNet уже была общедоступной. [2]

Описание задачи

[ редактировать ]

Сравнение методов можно разделить на 2 группы по количеству проверяемых слов. Разница заключается в объеме анализа и обработки:

  • Задача «Все слова» предполагает устранение неоднозначности всех слов текста.
  • Лексическая выборка заключается в устранении неоднозначности некоторых ранее выбранных целевых слов.

Предполагается, что первый вариант является более реалистичной оценкой, хотя и с весьма трудоемкой проверкой результатов. Первоначально при оценке использовался только последний, но позже был включен и первый.

Организаторам лексической выборки пришлось выбирать образцы, на которых будут тестироваться системы. Критика более ранних попыток оценки WSD по лексическому образцу заключается в том, что лексический образец был выбран по прихоти экспериментатора (или чтобы совпасть с выбором предыдущих экспериментаторов). Для английского Senseval была разработана основа выборки, в которой слова классифицировались в зависимости от их частоты (в BNC) и уровня многозначности (в WordNet). Кроме того, обсуждалась проблема включения POS-тегов, и было решено, что образцы должны представлять собой слова с известной частью речи и некоторыми неопределенными значениями (например, 15 задач с существительными, 13 задач с глаголами, 8 прилагательных и 5 неопределенных значений).

Для целей сравнения используются известные, но простые алгоритмы, называемые базовыми линиями. К ним относятся различные варианты алгоритма Леска или наиболее частого смысла алгоритма .

Меры оценки

[ редактировать ]

При оценке систем WSD используются два основных показателя эффективности:

  • Точность : доля правильных системных назначений.
  • Напомним : доля от общего числа экземпляров слов, правильно назначенная системой.

Если система присваивает каждое слово, то точность и полнота одинаковы, и их можно назвать точностью . Эта модель была расширена для учета систем, которые возвращают набор значений с весами для каждого события.

См. также

[ редактировать ]
  1. ^ Люсия Специа, Мария дас Гракас Вольпе Нуньес, Габриэла Кастелу Бранку Рибейру и Марк Стивенсон. Многоязычный и одноязычный WSD. Архивировано 10 апреля 2012 г. в Wayback Machine . На семинаре EACL-2006 «Осмысление смысла: объединение психолингвистики и компьютерной лингвистики», страницы 33–40, Тренто, Италия, апрель 2006 г.
  2. ^ Адам Килгаррифф и Джозеф Розенцвейг. 2000. Английская структура и результаты . Компьютеры и гуманитарные науки 34 (1-2), специальный выпуск SENSEVAL.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 01a9de571fcb4298c4bb8252f18154d9__1595516640
URL1:https://arc.ask3.ru/arc/aa/01/d9/01a9de571fcb4298c4bb8252f18154d9.html
Заголовок, (Title) документа по адресу, URL1:
Classic monolingual word-sense disambiguation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)