Jump to content

Релевантность (поиск информации)

В информатике и поиске информации релевантность означает , насколько хорошо полученный документ или набор документов удовлетворяет информационную потребность пользователя. Релевантность может включать в себя такие вопросы, как своевременность, авторитетность или новизна результата.

Озабоченность проблемой поиска актуальной информации восходит как минимум к первым публикациям научных журналов в 17 веке. [ нужна ссылка ]

Формальное изучение релевантности началось в 20 веке с изучения того, что позже будет названо библиометрией . В 1930-х и 1940-х годах С.К. Брэдфорд использовал термин «релевантные» для характеристики статей, имеющих отношение к теме (ср. закон Брэдфорда ). В 1950-х годах появились первые системы поиска информации, и исследователи отметили, что поиск нерелевантных статей является серьезной проблемой. В 1958 году Б.К. Викери ясно изложил концепцию релевантности в своем выступлении на Международной конференции по научной информации. [1]

С 1958 года ученые-информатики исследуют и обсуждают определения релевантности. Особое внимание в дебатах уделялось различию между «релевантностью предмету» или «тематической актуальностью» и «релевантностью для пользователя». [1]

Сообщество информационного поиска уделяет особое внимание использованию наборов тестов и контрольных задач для измерения актуальности темы, начиная с экспериментов Крэнфилда в начале 1960-х годов и заканчивая оценками TREC , которые продолжаются и по сей день в качестве основной структуры оценки исследований в области информационного поиска. [2]

Чтобы оценить, насколько хорошо система поиска информации извлекает тематически релевантные результаты, необходимо количественно оценить релевантность полученных результатов. В Крэнфилда оценках в стиле это обычно включает в себя присвоение уровня релевантности каждому полученному результату — процесс, известный как оценка релевантности . Уровни релевантности могут быть бинарными (указывающие на релевантность или нерелевантность результата) или градуированными (указывающие на различную степень соответствия результатов между темой результата и информационной потребностью). После того, как извлеченным результатам присвоены уровни релевантности, показатели эффективности поиска информации можно использовать для оценки качества выходных данных поисковой системы.

В отличие от этого внимания исключительно к актуальной актуальности, сообщество информатики уделяет особое внимание исследованиям пользователей, которые учитывают актуальность для пользователей. [3] Эти исследования часто фокусируются на аспектах взаимодействия человека и компьютера (см. также поиск информации человек-компьютер ).

Кластеризация и релевантность

[ редактировать ]

Кластерная гипотеза , предложенная К. Дж. ван Рейсбергеном в 1979 году, утверждает, что два документа, похожих друг на друга, с высокой вероятностью соответствуют одной и той же информационной потребности. Что касается пространства подобия вложения, кластерную гипотезу можно интерпретировать глобально или локально. [4] Глобальная интерпретация предполагает, что существует некоторый фиксированный набор основных тем, вытекающих из сходства между документами. Эти глобальные кластеры или их представители затем можно использовать для установления связи между релевантностью двух документов (например, два документа в одном кластере должны иметь отношение к одному и тому же запросу). К методам в этом духе относятся:

  • кластерный поиск информации [5] [6]
  • расширение документа на основе кластеров, такое как скрытый семантический анализ или его эквиваленты языкового моделирования. [7] Важно обеспечить, чтобы кластеры – по отдельности или в сочетании – успешно моделировали набор возможных соответствующих документов.

Вторая интерпретация, наиболее выдвинутая Эллен Вурхис , [8] фокусируется на локальных отношениях между документами. Локальная интерпретация позволяет избежать необходимости моделировать количество или размер кластеров в коллекции и обеспечивает релевантность в нескольких масштабах. К методам в этом духе относятся:

Локальные методы требуют точного и адекватного измерения сходства документов .

Проблемы и альтернативы

[ редактировать ]

Наиболее релевантными документами не обязательно являются те документы, которые наиболее полезно отображать на первой странице результатов поиска. Например, два повторяющихся документа по отдельности могут считаться весьма релевантными, но полезно отображать только один из них. Для устранения этого недостатка была предложена мера под названием «максимальная предельная релевантность» (MMR). Актуальность каждого документа рассматривается только с точки зрения того, сколько новой информации он приносит с учетом предыдущих результатов. [13]

В некоторых случаях запрос может иметь неоднозначную интерпретацию или множество потенциальных ответов. Обеспечение разнообразия результатов может учитываться при оценке полезности набора результатов. [14]

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Миццаро, Стефано (1997). «Актуальность: Вся история» (PDF) . Журнал Американского общества информатики . 48 (9): 810–832. doi : 10.1002/(SICI)1097-4571(199709)48:9<810::AID-ASI6>3.0.CO;2-U .
  2. ^ Сандерсон, П. Клаф, М. (15 июня 2013 г.). «Оценка производительности информационно-поисковых систем с использованием тестовых коллекций» . Informationr.net . Проверено 28 мая 2020 г. {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
  3. ^ Юньцзе, Сюй (2006). «Соответствующее суждение: что пользователи информации считают помимо актуальности?» . Журнал Американского общества информатики и технологий . 57 (7): 961–973. дои : 10.1002/asi.20361 .
  4. ^ Ф. Диас, Автокорреляция и регуляризация результатов поиска на основе запросов . Докторская диссертация, Массачусетский университет в Амхерсте, Амхерст, Массачусетс, февраль 2008 г., Глава 3.
  5. ^ Крофт, В.Брюс (1980). «Модель кластерного поиска на основе классификации». Информационные системы . 5 (3): 189–195. дои : 10.1016/0306-4379(80)90010-1 .
  6. ^ Перейти обратно: а б Гриффитс, Алан; Лакхерст, Х. Клэр; Уиллетт, Питер (1986). «Использование информации о сходстве между документами в системах поиска документов» (PDF) . Журнал Американского общества информатики . 37 : 3–11. doi : 10.1002/(SICI)1097-4571(198601)37:1<3::AID-ASI1>3.0.CO;2-O .
  7. ^ X. Лю и В.Б. Крофт, « Кластерный поиск с использованием языковых моделей », в SIGIR '04: Материалы 27-й ежегодной международной конференции по исследованиям и разработкам в области поиска информации (Нью-Йорк, Нью-Йорк, США), стр. 186. –193, АСМ Пресс, 2004.
  8. ^ Перейти обратно: а б Э. М. Вурхис , «Возвращение к кластерной гипотезе», в SIGIR '85: Материалы 8-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (Нью-Йорк, штат Нью-Йорк, США), стр. 188–196, ACM Press, 1985.
  9. ^ С. Прис, Модель сети распространяющейся активации для поиска информации. Докторская диссертация, Университет Иллинойса, Урбана-Шампейн, 1981 год.
  10. ^ Т. Цинь, Т.-Ю. Лю, Х.-Д. Чжан, З. Чен и В.-Ю. Ма, « Исследование распространения релевантности для веб-поиска », в SIGIR '05: Материалы 28-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (Нью-Йорк, штат Нью-Йорк, США), стр. 408–415, АКМ Пресс, 2005.
  11. ^ А. Сингхал и Ф. Перейра, « Расширение документов для поиска речи », в SIGIR '99: Материалы 22-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (Нью-Йорк, Нью-Йорк, США), стр. 34–41, ACM Press, 1999.
  12. ^ Цинь, Тао; Лю, Те-Янь; Чжан, Сюй-Донг; Чен, Чжэн; Ма, Вэй-Ин (2005). «Исследование распространения релевантности для веб-поиска» (PDF) . Материалы 28-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . п. 408. дои : 10.1145/1076034.1076105 . ISBN  1595930345 . S2CID   15310025 .
  13. ^ Карбонелл, Хайме; Гольдштейн, Джейд (1998). «Использование MMR, изменение ранжирования на основе разнообразия для изменения порядка документов и создания резюме». Материалы 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . стр. 335–336. CiteSeerX   10.1.1.50.2490 . дои : 10.1145/290941.291025 . ISBN  978-1581130157 . S2CID   6334682 .
  14. ^ «Разнообразие в поиске документов (DDR) 2012» .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6511410c63ab0dd2e72e736190c8c871__1697522820
URL1:https://arc.ask3.ru/arc/aa/65/71/6511410c63ab0dd2e72e736190c8c871.html
Заголовок, (Title) документа по адресу, URL1:
Relevance (information retrieval) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)