Обратная связь по актуальности
Обратная связь по релевантности является особенностью некоторых систем поиска информации . Идея обратной связи по релевантности состоит в том, чтобы взять результаты, которые изначально возвращаются по заданному запросу, собрать отзывы пользователей и использовать информацию о том, релевантны ли эти результаты для выполнения нового запроса. Мы можем с пользой различать три типа обратной связи: явную обратную связь, неявную обратную связь и слепую или «псевдо» обратную связь.
Явная обратная связь [ править ]
От оценщиков релевантности получается явная обратная связь, указывающая на релевантность документа, полученного для запроса. Этот тип обратной связи определяется как явный только тогда, когда эксперты (или другие пользователи системы) знают, что предоставленная обратная связь интерпретируется как релевантное суждение.
Пользователи могут явно указывать релевантность, используя двоичную или градуированную систему релевантности. Обратная связь по двоичной релевантности указывает, что документ либо релевантный, либо нерелевантный для данного запроса. Обратная связь по градуированной релевантности указывает на релевантность документа запросу по шкале с использованием цифр, букв или описаний (например, «не релевантно», «в некоторой степени релевантно», «релевантно» или «очень релевантно»). Степень релевантности может также принимать форму кардинального упорядочения документов, созданных оценщиком; то есть оценщик размещает документы результирующего набора в порядке релевантности (обычно по убыванию). Примером этого может быть функция SearchWiki , реализованная Google на их поисковом веб-сайте.
Информацию обратной связи по релевантности необходимо интерполировать с исходным запросом для повышения производительности поиска, например, с помощью известного алгоритма Роккио .
Метрикой производительности , ставшей популярной примерно в 2005 году для измерения полезности алгоритма ранжирования , основанного на явной обратной связи по релевантности, является нормализованный дисконтированный совокупный выигрыш . Другие меры включают точность при k и среднюю среднюю точность .
Неявная обратная связь [ править ]
Неявная обратная связь выводится из поведения пользователей, например, из наблюдения за тем, какие документы они выбирают, а какие нет, продолжительности времени, затраченного на просмотр документа, а также действий по просмотру страниц или прокрутке. [1] В процессе поиска существует множество сигналов, которые можно использовать для неявной обратной связи и типов информации, которую можно предоставить в ответ. [2] [3]
Ключевые отличия неявной обратной связи по релевантности от явной включают в себя: [4]
- Пользователь не оценивает актуальность для пользы ИК-системы, а лишь удовлетворяет собственные потребности и
- Пользователь не обязательно информируется о том, что его поведение (выбранные документы) будет использовано в качестве обратной связи.
Примером этого является время пребывания , которое является показателем того, как долго пользователь проводит просмотр страницы, на которую есть ссылка в результатах поиска. Это показатель того, насколько хорошо результат поиска соответствует намерению пользователя, и используется в качестве механизма обратной связи для улучшения результатов поиска.
Псевдорелевантная обратная связь [ править ]
Псевдообратная связь по релевантности, также известная как «слепая обратная связь по релевантности», обеспечивает метод автоматического локального анализа. Он автоматизирует ручную часть обратной связи по релевантности, так что пользователь получает улучшенную производительность поиска без расширенного взаимодействия. Метод состоит в том, чтобы выполнить обычный поиск, чтобы найти начальный набор наиболее релевантных документов, затем предположить, что документы с самым высоким рейтингом «k» релевантны, и, наконец, сделать обратную связь по релевантности, как и раньше, при этом предположении. Процедура такова:
- Примите результаты, полученные первоначальным запросом, в качестве релевантных результатов (в большинстве экспериментов только верхний k, где k находится в диапазоне от 10 до 50).
- Выберите 20–30 наиболее популярных (ориентировочное число) терминов из этих документов, используя, например, веса tf-idf .
- Выполните расширение запроса, добавьте эти термины в запрос, а затем сопоставьте возвращенные документы с этим запросом и, наконец, верните наиболее релевантные документы.
Некоторые эксперименты, такие как результаты системы Cornell SMART, опубликованные в (Buckley et al.1995), показывают улучшение производительности поисковых систем с использованием обратной связи псевдорелевантности в контексте экспериментов TREC 4.
Этот автоматический метод в основном работает. Имеющиеся данные свидетельствуют о том, что он, как правило, работает лучше, чем глобальный анализ. [5] Благодаря расширению запроса некоторые важные документы, пропущенные в первом раунде, можно затем получить, чтобы повысить общую производительность. Очевидно, что эффект этого метода во многом зависит от качества выбранных членов разложения. Было обнаружено, что это улучшает производительность при выполнении специальной задачи TREC. [ нужна ссылка ] . Но это не лишено опасностей автоматического процесса. Например, если запрос касается медных рудников, а несколько верхних документов посвящены рудникам в Чили, то запрос может смещаться в сторону документов по Чили. Кроме того, если слова, добавленные в исходный запрос, не связаны с темой запроса, качество поиска может ухудшиться, особенно при веб-поиске, где веб-документы часто охватывают несколько разных тем. Для улучшения качества слов расширения в обратной связи по псевдорелевантности предложена обратная связь по позиционной релевантности для обратной связи по псевдорелевантности, позволяющая выбирать из документов обратной связи те слова, которые ориентированы на тему запроса, на основе позиций слов в документах обратной связи. [6] В частности, модель позиционной релевантности присваивает больший вес словам, встречающимся ближе к словам запроса, основываясь на интуитивном предположении, что слова, расположенные ближе к словам запроса, с большей вероятностью будут связаны с темой запроса.
Слепая обратная связь автоматизирует ручную часть обратной связи по релевантности и имеет то преимущество, что оценщики не требуются.
Использование релевантной информации [ править ]
Информация о релевантности используется путем использования содержимого соответствующих документов для корректировки веса терминов в исходном запросе или путем использования этого содержимого для добавления слов в запрос. Обратная связь по релевантности часто реализуется с помощью алгоритма Роккио .
Ссылки [ править ]
- ^ «Архивная копия» (PDF) . www.scils.rutgers.edu . Архивировано из оригинала (PDF) 16 марта 2004 года . Проверено 12 января 2022 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ Янсен, Б.Дж. и Макнис, доктор медицинских наук, 2005. Оценка эффективности и моделей взаимодействия с автоматизированной помощью в ИК-системах . Журнал Американского общества информатики и технологий. 56(14), 1480-1503
- ^ Келли, Дайан и Джейми Тиван. « Неявная обратная связь для определения предпочтений пользователя: библиография ». Форум ACM SIGIR. Том. 37. № 2. АКМ, 2003.
- ^ «Архивная копия» (PDF) . haystack.lcs.mit.edu . Архивировано из оригинала (PDF) 11 июня 2007 года . Проверено 12 января 2022 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ Цзиньси Сюй и В. Брюс Крофт, Расширение запросов с использованием локального и глобального анализа документов , в материалах 19-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (SIGIR), 1996.
- ^ Юаньхуа Л.в. и Ченгсян Чжай, Модель позиционной релевантности для обратной связи о псевдорелевантности , в материалах 33-й международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (SIGIR), 2010.
Дальнейшее чтение [ править ]
- Конспекты лекций с обратной связью по релевантности - конспекты лекций Джимми Линя, адаптированные из книги Дуга Оарда.
- [1] - глава из журнала «Современный информационный поиск».
- Стефан Бютчер, Чарльз Л.А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем. Архивировано 5 октября 2020 г. в Wayback Machine . MIT Press, Кембридж, Массачусетс, 2010.