Автоматическое получение корпусов с сенсорными метками
Эта статья написана как личное размышление, личное эссе или аргументативное эссе , в котором излагаются личные чувства редактора Википедии или представлен оригинальный аргумент по определенной теме. ( декабрь 2015 г. ) |
Эта статья требует внимания эксперта в области лингвистики . Конкретная проблема такова: необходима энциклопедическая структура и тон (см. энциклопедический стиль ), который лучше всего обеспечить эксперту. ( февраль 2010 г. ) |
Узкое место в приобретении знаний , пожалуй, является основным препятствием на пути решения проблемы устранения неоднозначности смысла слов (WSD). Методы обучения без учителя основаны на знаниях о значениях слов, которые практически не сформулированы в словарях и лексических базах данных. Методы контролируемого обучения во многом зависят от наличия аннотированных вручную примеров для каждого значения слова, что на данный момент является необходимым условием. [update] можно встретить только для нескольких слов в целях тестирования, как это делается в упражнениях Сенсеваля .
Существующие методы
[ редактировать ]Таким образом, одним из наиболее многообещающих направлений в исследованиях WSD является использование крупнейшего из когда-либо доступных массивов данных — Всемирной паутины — для автоматического получения лексической информации. [1] WSD традиционно понимался как технология разработки промежуточного языка, которая могла бы улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые системы в Интернете реализуют простые и надежные методы IR, которые можно успешно использовать при поиске в Интернете информации для использования в WSD. Самый прямой способ использования Интернета (и других корпусов ) для повышения производительности WSD — это автоматическое получение корпусов с сенсорными тегами, фундаментального ресурса для питания контролируемых алгоритмов WSD. Хотя это далеко не обычное явление в литературе WSD, уже был предложен ряд различных и эффективных стратегий для достижения этой цели. Некоторые из этих стратегий:
- получение путем прямого поиска в Интернете (поиск однозначных синонимов, гиперонимов, гипонимов, анализируемых словарных слов и т. д.),
- Алгоритм Яровского (бутстреп),
- приобретение через веб-каталоги и
- приобретение через межъязыковые смысловые доказательства .
Краткое содержание
[ редактировать ]Оптимистичные результаты
[ редактировать ]Автоматическое извлечение примеров для обучения рассмотренных алгоритмов обучения с учителем на сегодняшний день является наиболее изученным подходом к поиску в Интернете смысловых неоднозначностей. Некоторые результаты, безусловно, обнадеживают:
- В некоторых экспериментах качество веб-данных для WSD равняется качеству примеров, помеченных человеком. Это случай односемных родственников плюс бутстрэппинг с использованием техники семян Semcor. [2] и примеры, взятые из веб-каталогов ODP. [3] Однако в первом случае необходимы примеры семян размером с Semcor (и они доступны только для английского языка), и они были протестированы только с очень ограниченным набором существительных; во втором случае охват весьма ограничен, и пока неясно, можно ли его расширить без ущерба для качества полученных примеров.
- Было показано [4] что основная методика обучения с учителем, обученная исключительно на веб-данных, может дать лучшие результаты, чем все неконтролируемые системы WSD, которые участвовали в Senseval-2.
- Веб-примеры внесли значительный вклад в лучшую полнословную систему английского языка Senseval-2. [5]
Трудности
[ редактировать ]Однако существует несколько открытых исследовательских вопросов, связанных с использованием веб-примеров в WSD:
- Высокая точность извлеченных примеров (т. е. правильное присвоение смысла примерам) не обязательно приводит к хорошим контролируемым результатам WSD (т. е. примеры, возможно, бесполезны для обучения). [6]
- Наиболее полная оценка веб-примеров для контролируемого WSD. [4] указывает на то, что обучение с использованием веб-данных улучшается по сравнению с неконтролируемыми методами, но результаты, тем не менее, далеки от результатов, полученных с помощью данных, помеченных вручную, и даже не превосходят наиболее часто встречающиеся базовые показатели.
- Результаты не всегда воспроизводимы; одни и те же или похожие методы могут привести к разным результатам в разных экспериментах. Сравните, например, Михалчу (2002). [7] ) с Агирре и Мартинесом (2004 г.) [4] ), или Агирре и Мартинес (2000 г.) [6] ) с Михалчей и Молдаваном (1999) [8] ). Результаты с веб-данными кажутся очень чувствительными к небольшим различиям в алгоритме обучения, к тому времени, когда корпус был извлечен (поисковые системы постоянно меняются), а также к небольшим эвристическим проблемам (например, к различиям в фильтрах для отбрасывания части извлеченных примеров).
- Результаты сильно зависят от предвзятости (т. е. от относительной частоты примеров на смысл слова). [4] Неясно, является ли это просто проблемой веб-данных, или внутренней проблемой методов обучения с учителем, или просто проблемой того, как оцениваются системы WSD (действительно, тестирование с довольно небольшими данными Senseval может переоценить смысловые распределения по сравнению с полученными смысловыми распределениями). из полной версии Интернета в виде корпуса).
- В любом случае веб-данные имеют внутреннюю предвзятость, поскольку запросы к поисковым системам напрямую ограничивают контекст извлекаемых примеров. Существуют подходы, которые облегчают эту проблему, например, использование нескольких разных начальных значений/запросов для каждого смысла. [7] или присвоение смыслов веб-каталогам с последующим сканированием каталогов в поисках примеров; [9] но эта проблема тем не менее далека от решения.
- После создания веб-корпуса примеров не совсем ясно, безопасно ли его распространение с юридической точки зрения.
Будущее
[ редактировать ]Помимо автоматического получения примеров из Интернета, есть и другие эксперименты WSD, которые получили пользу от Интернета:
- Интернет как социальная сеть успешно использовался для совместного аннотирования корпуса (OMWE, проект Open Mind Word Expert), [10] который уже использовался в трех заданиях Senseval-3 (английском, румынском и многоязычном).
- Интернет использовался для обогащения смыслов WordNet информацией о предметной области: сигнатурами тем. [11] и веб-каталоги, [9] которые, в свою очередь, успешно использовались для WSD.
- Кроме того, некоторые исследования получили пользу от семантической информации, которую Arc.Ask3.Ru хранит на своих страницах значений . [12] [13]
Ясно, [ по мнению кого? ] однако большинство исследовательских возможностей остаются в значительной степени неисследованными. Например, мало что известно о том, как использовать лексическую информацию, извлеченную из Интернета, в системах WSD, основанных на знаниях; Кроме того, трудно найти системы, которые используют параллельные корпуса, полученные из Интернета, для WSD, хотя уже существуют эффективные алгоритмы, использующие параллельные корпуса в WSD.
Ссылки
[ редактировать ]- ^ Килгаррифф, А.; Г. Грефенштетте. 2003. Знакомство со спецвыпуском в Интернете как корпусе . Компьютерная лингвистика 29(3)
- ^ Михалча, Рада. 2002. Начальная загрузка больших смысловых корпусов. Материалы конференции по языковым ресурсам и оценке (LREC), Лас-Пальмас, Испания.
- ^ Сантамария, Селина, Хулио Гонсало и Фелиса Вердехо. 2003. Автоматическое сопоставление веб-каталогов со значениями слов. Компьютерная лингвистика, 29 (3): 485–502.
- ^ Jump up to: а б с д Агирре, Энеко и Дэвид Мартинес. 2004. Неконтролируемое WSD на основе автоматически полученных примеров: важность предвзятости. Материалы конференции по эмпирическим методам обработки естественного языка (EMNLP), Барселона, Испания, 25–33.
- ^ Михалча, Рада. 2002а. Устранение неоднозначности смысла слов с помощью изучения шаблонов и автоматического выбора функций. Инженерия естественного языка, 8 (4): 348–358.
- ^ Jump up to: а б Агирре, Энеко и Дэвид Мартинес. 2000. Исследование автоматического устранения неоднозначности смысла слов с помощью списков решений и Интернета. Материалы семинара COLING по семантической и интеллектуальной аннотации, Люксембург, 11–19.
- ^ Jump up to: а б Михалча, Рада. 2002б. Начальная загрузка больших смысловых тегов корпусов. Материалы конференции по языковым ресурсам и оценке (LREC), Лас-Пальмас, Испания.
- ^ Михалча, Рада и Дэн Молдован. 1999. Автоматический метод создания корпусов смысловых тегов. Труды Американской ассоциации искусственного интеллекта (AAAI), Орландо, США, 461–466.
- ^ Jump up to: а б Сантамария, Селина, Хулио Гонсало и Фелиса Вердехо. 2003. Автоматическое сопоставление веб-каталогов со значениями слов. Компьютерная лингвистика, 29 (3): 485–502.
- ^ Чкловский, Тим и Рада Михалча. 2002. Создание корпуса смысловых тегов с помощью Open Mind Word Expert. Материалы семинара ACL SIGLEX по устранению неоднозначности смысла слов: недавние успехи и будущие направления, Филадельфия, США, 116–122.
- ^ Агирре, Энеко, Олац Анса, Эдуард Х. Хови и Дэвид Мартинес. 2000. Расширение очень больших онтологий с использованием WWW. Материалы семинара по изучению онтологий, Европейская конференция по искусственному интеллекту (ECAI), Берлин, Германия.
- ^ Денис Турдаков, Павел Велихов. Метрика семантической связанности концепций Википедии, основанная на анализе ссылок, и ее применение к устранению смысловой неоднозначности // SYRCoDIS.— 2008.
- ^ Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».— 2009. pdf (russian)