Релевантность (поиск информации)
В информатике и поиске информации релевантность означает , насколько хорошо полученный документ или набор документов удовлетворяет информационную потребность пользователя. Релевантность может включать в себя такие вопросы, как своевременность, авторитетность или новизна результата.
История [ править ]
Озабоченность проблемой поиска актуальной информации восходит как минимум к первым публикациям научных журналов в 17 веке. [ нужна ссылка ]
Формальное изучение релевантности началось в 20 веке с изучения того, что позже будет названо библиометрией . В 1930-х и 1940-х годах С.К. Брэдфорд использовал термин «релевантные» для характеристики статей, имеющих отношение к теме (ср. закон Брэдфорда ). В 1950-х годах появились первые системы поиска информации, и исследователи отметили, что поиск нерелевантных статей является серьезной проблемой. В 1958 году Б.К. Викери ясно изложил концепцию релевантности в своем выступлении на Международной конференции по научной информации. [1]
С 1958 года ученые-информатики исследуют и обсуждают определения релевантности. Особое внимание в дебатах уделялось различию между «релевантностью предмету» или «тематической актуальностью» и «релевантностью для пользователя». [1]
Оценка [ править ]
Сообщество информационного поиска уделяет особое внимание использованию наборов тестов и контрольных задач для измерения актуальности темы, начиная с экспериментов Крэнфилда в начале 1960-х годов и заканчивая оценками TREC , которые продолжаются и по сей день в качестве основной структуры оценки исследований в области информационного поиска. [2]
Чтобы оценить, насколько хорошо система поиска информации извлекает тематически релевантные результаты, необходимо количественно оценить релевантность полученных результатов. В Крэнфилда оценках в стиле это обычно включает в себя присвоение уровня релевантности каждому полученному результату — процесс, известный как оценка релевантности . Уровни релевантности могут быть бинарными (указывающие на релевантность или нерелевантность результата) или градуированными (указывающие на различную степень соответствия результатов между темой результата и информационной потребностью). После того, как извлеченным результатам присвоены уровни релевантности, показатели эффективности поиска информации можно использовать для оценки качества выходных данных поисковой системы.
В отличие от такого внимания исключительно к актуальной актуальности, сообщество информатики уделяет особое внимание исследованиям пользователей, которые учитывают актуальность для пользователей. [3] Эти исследования часто фокусируются на аспектах взаимодействия человека и компьютера (см. также поиск информации человек-компьютер ).
и релевантность Кластеризация
Кластерная гипотеза , предложенная К. Дж. ван Рейсбергеном в 1979 году, утверждает, что два документа, похожих друг на друга, с высокой вероятностью соответствуют одной и той же информационной потребности. Что касается пространства подобия вложения, кластерную гипотезу можно интерпретировать глобально или локально. [4] Глобальная интерпретация предполагает, что существует некоторый фиксированный набор основных тем, вытекающих из сходства между документами. Эти глобальные кластеры или их представители затем можно использовать для установления связи между релевантностью двух документов (например, два документа в одном кластере должны иметь отношение к одному и тому же запросу). К методам в этом духе относятся:
- кластерный поиск информации [5] [6]
- расширение документа на основе кластеров, такое как скрытый семантический анализ или его эквиваленты языкового моделирования. [7] Важно обеспечить, чтобы кластеры – по отдельности или в сочетании – успешно моделировали набор возможных соответствующих документов.
Вторая интерпретация, наиболее выдвинутая Эллен Вурхис , [8] фокусируется на локальных отношениях между документами. Локальная интерпретация позволяет избежать необходимости моделировать количество или размер кластеров в коллекции и обеспечивает релевантность в нескольких масштабах. К методам в этом духе относятся:
- получение нескольких кластеров [6] [8]
- распространяющаяся активация [9] и распространение актуальности [10] методы
- локальное расширение документа [11]
- регуляризация оценок [12]
Локальные методы требуют точного и адекватного измерения сходства документов .
Проблемы и альтернативы [ править ]
Наиболее релевантными документами не обязательно являются те документы, которые наиболее полезно отображать на первой странице результатов поиска. Например, два повторяющихся документа по отдельности могут считаться весьма релевантными, но полезно отображать только один из них. Для устранения этого недостатка была предложена мера под названием «максимальная предельная релевантность» (MMR). Актуальность каждого документа рассматривается только с точки зрения того, сколько новой информации он приносит с учетом предыдущих результатов. [13]
В некоторых случаях запрос может иметь неоднозначную интерпретацию или множество потенциальных ответов. Обеспечение разнообразия результатов может учитываться при оценке полезности набора результатов. [14]
См. также [ править ]
Ссылки [ править ]
- ^ Jump up to: а б Миццаро, Стефано (1997). «Актуальность: Вся история» (PDF) . Журнал Американского общества информатики . 48 (9): 810–832. doi : 10.1002/(SICI)1097-4571(199709)48:9<810::AID-ASI6>3.0.CO;2-U .
- ^ Сандерсон, П. Клаф, М. (15 июня 2013 г.). «Оценка производительности информационно-поисковых систем с помощью тестовых коллекций» . Informationr.net . Проверено 28 мая 2020 г.
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Юньцзе, Сюй (2006). «Соответствующее суждение: что пользователи информации считают помимо актуальности?» . Журнал Американского общества информатики и технологий . 57 (7): 961–973. дои : 10.1002/asi.20361 .
- ^ Ф. Диас, Автокорреляция и регуляризация результатов поиска на основе запросов . Докторская диссертация, Массачусетский университет в Амхерсте, Амхерст, Массачусетс, февраль 2008 г., Глава 3.
- ^ Крофт, В.Брюс (1980). «Модель кластерного поиска на основе классификации». Информационные системы . 5 (3): 189–195. дои : 10.1016/0306-4379(80)90010-1 .
- ^ Jump up to: а б Гриффитс, Алан; Лакхерст, Х. Клэр; Уиллетт, Питер (1986). «Использование информации о сходстве между документами в системах поиска документов» (PDF) . Журнал Американского общества информатики . 37 : 3–11. doi : 10.1002/(SICI)1097-4571(198601)37:1<3::AID-ASI1>3.0.CO;2-O .
- ^ X. Лю и В.Б. Крофт, « Кластерный поиск с использованием языковых моделей », в SIGIR '04: Материалы 27-й ежегодной международной конференции по исследованиям и разработкам в области поиска информации (Нью-Йорк, Нью-Йорк, США), стр. 186. –193, АСМ Пресс, 2004.
- ^ Jump up to: а б Э. М. Вурхис , «Возвращение к гипотезе кластера», в SIGIR '85: Материалы 8-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (Нью-Йорк, штат Нью-Йорк, США), стр. 188–196, ACM Press, 1985.
- ^ С. Прис, Модель сети распространяющейся активации для поиска информации. Докторская диссертация, Университет Иллинойса, Урбана-Шампейн, 1981 год.
- ^ Т. Цинь, Т.-Ю. Лю, Х.-Д. Чжан, З. Чен и В.-Ю. Ма, « Исследование распространения релевантности для веб-поиска », в SIGIR '05: Материалы 28-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (Нью-Йорк, штат Нью-Йорк, США), стр. 408–415, АКМ Пресс, 2005.
- ^ А. Сингхал и Ф. Перейра, « Расширение документов для поиска речи », в SIGIR '99: Материалы 22-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (Нью-Йорк, Нью-Йорк, США), стр. 34–41, ACM Press, 1999.
- ^ Цинь, Тао; Лю, Те-Янь; Чжан, Сюй-Дун; Чен, Чжэн; Ма, Вэй-Ин (2005). «Исследование распространения релевантности для веб-поиска» (PDF) . Материалы 28-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . п. 408. дои : 10.1145/1076034.1076105 . ISBN 1595930345 . S2CID 15310025 .
- ^ Карбонелл, Хайме; Гольдштейн, Джейд (1998). «Использование MMR, изменение ранжирования на основе разнообразия для изменения порядка документов и создания резюме». Материалы 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . стр. 335–336. CiteSeerX 10.1.1.50.2490 . дои : 10.1145/290941.291025 . ISBN 978-1581130157 . S2CID 6334682 .
- ^ «Разнообразие в поиске документов (DDR) 2012» .
Дальнейшее чтение [ править ]
- Хьёрланд, Биргер (2010). «Основы концепции релевантности» (PDF) . Журнал Американского общества информатики и технологий . 61 (2): 217–237. дои : 10.1002/asi.21261 .
- Актуальность: общение и познание. Дэн Спербер; Дейдре Уилсон. 2-е изд. Оксфорд; Кембридж, Массачусетс: Blackwell Publishers, 2001. ISBN 978-0-631-19878-9
- Сарацевич, Тефко (1975). «АКТУАЛЬНОСТЬ: обзор и основа размышлений об этом понятии в информатике» (PDF) . Журнал Американского общества информатики . 26 (6): 321–343. дои : 10.1002/asi.4630260604 .
- Сарацевич, Тефко (2007). «Актуальность: обзор литературы и основы размышлений об этом понятии в информатике. Часть II: Природа и проявления релевантности» (PDF) . Журнал Американского общества информатики и технологий . 58 (13): 1915–1933. дои : 10.1002/asi.20682 . Архивировано из оригинала (PDF) 21 февраля 2008 г.
- Сарацевич, Тефко (2007). «Актуальность: обзор литературы и основы размышлений об этом понятии в информатике. Часть III: Поведение и эффекты релевантности» (PDF) . Журнал Американского общества информатики и технологий . 58 (13): 2126–2144. дои : 10.1002/asi.20681 . Архивировано из оригинала (PDF) 21 февраля 2008 г.
- Сарацевич, Т. (2007). Актуальность в информатике. Приглашенная ежегодная лекция памяти Thomson Scientific Lazerow в Школе информационных наук Университета Теннесси. 19 сентября 2007 г. ( видео )
- Введение в поиск информации: оценка. Стэнфорд. ( презентация в формате PDF )