Вероятностная модель релевантности
Вероятностная модель релевантности [1] [2] была разработана Стивеном Э. Робертсоном и Карен Сперк Джонс как основа для вероятностных моделей будущих . Это формализм поиска информации, полезный для получения функций ранжирования, используемых поисковыми системами и поисковыми системами в Интернете для ранжирования совпадающих документов в соответствии с их релевантностью данному поисковому запросу.
Это теоретическая модель, оценивающая вероятность того, что документ d j соответствует запросу q . Модель предполагает, что эта вероятность релевантности зависит от представления запроса и документа. Более того, предполагается, что существует часть всех документов, которую пользователь предпочитает в качестве набора ответов для запроса q . Такой идеальный набор ответов называется R и должен максимизировать общую вероятность релевантности этому пользователю. Прогнозируется, что документы в этом наборе R релевантны запросу, а документы, отсутствующие в наборе, нерелевантны.
Сопутствующие модели [ править ]
У этой структуры есть некоторые ограничения, которые необходимо устранить при дальнейшей разработке:
- Точная оценка вероятности первого запуска не существует.
- Индексные термины не взвешиваются
- Термины предполагаются взаимонезависимыми.
Для решения этих и других проблем на основе теории вероятностной релевантности были разработаны другие модели, в том числе модель двоичной независимости того же автора. Наиболее известной производной этой схемы является схема взвешивания Окапи (BM25) , а также ее модификация BM25F.
Ссылки [ править ]
- ^ Робертсон, SE; Джонс, К. Сперк (май 1976 г.). «Релевантность поисковых запросов». Журнал Американского общества информатики . 27 (3): 129–146. дои : 10.1002/asi.4630270302 .
- ^ Робертсон, Стивен; Сарагоса, Уго (2009). «Структура вероятностной релевантности: BM25 и далее». Основы и тенденции в области информационного поиска . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . дои : 10.1561/1500000019 .