Jump to content

Автоматическое получение корпусов с сенсорными метками

Узкое место в приобретении знаний , пожалуй, является основным препятствием на пути решения проблемы устранения неоднозначности смысла слов (WSD). Методы обучения без учителя основаны на знаниях о значениях слов, которые практически не сформулированы в словарях и лексических базах данных. Методы контролируемого обучения во многом зависят от наличия аннотированных вручную примеров для каждого значения слова, что на данный момент является необходимым условием. можно встретить только для нескольких слов в целях тестирования, как это делается в упражнениях Сенсеваля .

Существующие методы

[ редактировать ]

Таким образом, одним из наиболее многообещающих направлений в исследованиях WSD является использование крупнейшего из когда-либо доступных массивов данных — Всемирной паутины — для автоматического получения лексической информации. [1] WSD традиционно понимался как технология разработки промежуточного языка, которая могла бы улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые системы в Интернете реализуют простые и надежные методы IR, которые можно успешно использовать при поиске в Интернете информации для использования в WSD. Самый прямой способ использования Интернета (и других корпусов ) для повышения производительности WSD — это автоматическое получение корпусов с сенсорными тегами, фундаментального ресурса для питания контролируемых алгоритмов WSD. Хотя это далеко не обычное явление в литературе WSD, уже был предложен ряд различных и эффективных стратегий для достижения этой цели. Некоторые из этих стратегий:

Краткое содержание

[ редактировать ]

Оптимистичные результаты

[ редактировать ]

Автоматическое извлечение примеров для обучения рассмотренных алгоритмов обучения с учителем на сегодняшний день является наиболее изученным подходом к поиску в Интернете смысловых неоднозначностей. Некоторые результаты, безусловно, обнадеживают:

  • В некоторых экспериментах качество веб-данных для WSD равняется качеству примеров, помеченных человеком. Это случай односемных родственников плюс бутстрэппинг с использованием техники семян Semcor. [2] и примеры, взятые из веб-каталогов ODP. [3] Однако в первом случае необходимы примеры семян размером с Semcor (и они доступны только для английского языка), и они были протестированы только с очень ограниченным набором существительных; во втором случае охват весьма ограничен, и пока неясно, можно ли его расширить без ущерба для качества полученных примеров.
  • Было показано [4] что основная методика обучения с учителем, обученная исключительно на веб-данных, может дать лучшие результаты, чем все неконтролируемые системы WSD, которые участвовали в Senseval-2.
  • Веб-примеры внесли значительный вклад в лучшую полнословную систему английского языка Senseval-2. [5]

Трудности

[ редактировать ]

Однако существует несколько открытых исследовательских вопросов, связанных с использованием веб-примеров в WSD:

  • Высокая точность извлеченных примеров (т. е. правильное присвоение смысла примерам) не обязательно приводит к хорошим контролируемым результатам WSD (т. е. примеры, возможно, бесполезны для обучения). [6]
  • Наиболее полная оценка веб-примеров для контролируемого WSD. [4] указывает на то, что обучение с использованием веб-данных улучшается по сравнению с неконтролируемыми методами, но результаты, тем не менее, далеки от результатов, полученных с помощью данных, помеченных вручную, и даже не превосходят наиболее часто встречающиеся базовые показатели.
  • Результаты не всегда воспроизводимы; одни и те же или похожие методы могут привести к разным результатам в разных экспериментах. Сравните, например, Михалчу (2002). [7] ) с Агирре и Мартинесом (2004 г.) [4] ), или Агирре и Мартинес (2000 г.) [6] ) с Михалчей и Молдаваном (1999) [8] ). Результаты с веб-данными кажутся очень чувствительными к небольшим различиям в алгоритме обучения, к тому времени, когда корпус был извлечен (поисковые системы постоянно меняются), а также к небольшим эвристическим проблемам (например, к различиям в фильтрах для отбрасывания части извлеченных примеров).
  • Результаты сильно зависят от предвзятости (т. е. от относительной частоты примеров на смысл слова). [4] Неясно, является ли это просто проблемой веб-данных, или внутренней проблемой методов обучения с учителем, или просто проблемой того, как оцениваются системы WSD (действительно, тестирование с довольно небольшими данными Senseval может переоценить смысловые распределения по сравнению с полученными смысловыми распределениями). из полной версии Интернета в виде корпуса).
  • В любом случае веб-данные имеют внутреннюю предвзятость, поскольку запросы к поисковым системам напрямую ограничивают контекст извлекаемых примеров. Существуют подходы, которые облегчают эту проблему, например, использование нескольких разных начальных значений/запросов для каждого смысла. [7] или присвоение смыслов веб-каталогам с последующим сканированием каталогов в поисках примеров; [9] но эта проблема тем не менее далека от решения.
  • После создания веб-корпуса примеров не совсем ясно, безопасно ли его распространение с юридической точки зрения.

Помимо автоматического получения примеров из Интернета, есть и другие эксперименты WSD, которые получили пользу от Интернета:

  • Интернет как социальная сеть успешно использовался для совместного аннотирования корпуса (OMWE, проект Open Mind Word Expert), [10] который уже использовался в трех заданиях Senseval-3 (английском, румынском и многоязычном).
  • Интернет использовался для обогащения смыслов WordNet информацией о предметной области: сигнатурами тем. [11] и веб-каталоги, [9] которые, в свою очередь, успешно использовались для WSD.
  • Кроме того, некоторые исследования получили пользу от семантической информации, которую Arc.Ask3.Ru хранит на своих страницах значений . [12] [13]

Ясно, [ по мнению кого? ] однако большинство исследовательских возможностей остаются в значительной степени неисследованными. Например, мало что известно о том, как использовать лексическую информацию, извлеченную из Интернета, в системах WSD, основанных на знаниях; Кроме того, трудно найти системы, которые используют параллельные корпуса, полученные из Интернета, для WSD, хотя уже существуют эффективные алгоритмы, использующие параллельные корпуса в WSD.

  1. ^ Килгаррифф, А.; Г. Грефенштетте. 2003. Знакомство со спецвыпуском в Интернете как корпусе . Компьютерная лингвистика 29(3)
  2. ^ Михалча, Рада. 2002. Начальная загрузка больших смысловых корпусов. Материалы конференции по языковым ресурсам и оценке (LREC), Лас-Пальмас, Испания.
  3. ^ Сантамария, Селина, Хулио Гонсало и Фелиса Вердехо. 2003. Автоматическое сопоставление веб-каталогов со значениями слов. Компьютерная лингвистика, 29 (3): 485–502.
  4. ^ Jump up to: а б с д Агирре, Энеко и Дэвид Мартинес. 2004. Неконтролируемое WSD на основе автоматически полученных примеров: важность предвзятости. Материалы конференции по эмпирическим методам обработки естественного языка (EMNLP), Барселона, Испания, 25–33.
  5. ^ Михалча, Рада. 2002а. Устранение неоднозначности смысла слов с помощью изучения шаблонов и автоматического выбора функций. Инженерия естественного языка, 8 (4): 348–358.
  6. ^ Jump up to: а б Агирре, Энеко и Дэвид Мартинес. 2000. Исследование автоматического устранения неоднозначности смысла слов с помощью списков решений и Интернета. Материалы семинара COLING по семантической и интеллектуальной аннотации, Люксембург, 11–19.
  7. ^ Jump up to: а б Михалча, Рада. 2002б. Начальная загрузка больших смысловых тегов корпусов. Материалы конференции по языковым ресурсам и оценке (LREC), Лас-Пальмас, Испания.
  8. ^ Михалча, Рада и Дэн Молдован. 1999. Автоматический метод создания корпусов смысловых тегов. Труды Американской ассоциации искусственного интеллекта (AAAI), Орландо, США, 461–466.
  9. ^ Jump up to: а б Сантамария, Селина, Хулио Гонсало и Фелиса Вердехо. 2003. Автоматическое сопоставление веб-каталогов со значениями слов. Компьютерная лингвистика, 29 (3): 485–502.
  10. ^ Чкловский, Тим и Рада Михалча. 2002. Создание корпуса смысловых тегов с помощью Open Mind Word Expert. Материалы семинара ACL SIGLEX по устранению неоднозначности смысла слов: недавние успехи и будущие направления, Филадельфия, США, 116–122.
  11. ^ Агирре, Энеко, Олац Анса, Эдуард Х. Хови и Дэвид Мартинес. 2000. Расширение очень больших онтологий с использованием WWW. Материалы семинара по изучению онтологий, Европейская конференция по искусственному интеллекту (ECAI), Берлин, Германия.
  12. ^ Денис Турдаков, Павел Велихов. Метрика семантической связанности концепций Википедии, основанная на анализе ссылок, и ее применение к устранению смысловой неоднозначности // SYRCoDIS.— 2008.
  13. ^ Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».— 2009. pdf (russian)
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bdf6bb1adcbaa5f53bb887c0b77e092c__1705841400
URL1:https://arc.ask3.ru/arc/aa/bd/2c/bdf6bb1adcbaa5f53bb887c0b77e092c.html
Заголовок, (Title) документа по адресу, URL1:
Automatic acquisition of sense-tagged corpora - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)