Окапи БМ25
В информации поиске Okapi BM25 ( BM — аббревиатура наилучшего соответствия ) — это функция ранжирования, используемая поисковыми системами для оценки релевантности документов данному поисковому запросу. Он основан на системе вероятностного поиска, разработанной в 1970-х и 1980-х годах Стивеном Э. Робертсоном , Карен Сперк Джонс и другими.
Имя фактической функции ранжирования — BM25 . Более полное название, Okapi BM25 , включает в себя название первой системы, использовавшей ее, — информационно-поисковой системы Okapi, внедренной в Лондонском городском университете. [1] в 1980-х и 1990-х годах. BM25 и его новые варианты, например BM25F (версия BM25, которая может учитывать структуру документа и текст привязки), представляют собой TF-IDF -подобные функции поиска, используемые при поиске документов. [2]
Функция ранжирования
[ редактировать ]BM25 — это функция поиска пакетов слов , которая ранжирует набор документов на основе терминов запроса, встречающихся в каждом документе, независимо от их близости внутри документа. Это семейство скоринговых функций с несколько разными компонентами и параметрами. Одна из наиболее известных реализаций функции выглядит следующим образом.
Дан запрос Q , содержащий ключевые слова , оценка BM25 документа D равна:
где это количество раз, когда ключевое слово встречается в документе D , — длина документа D в словах, а avgdl — средняя длина документа в текстовой коллекции, из которой извлекаются документы. и b — свободные параметры, обычно выбираемые при отсутствии расширенной оптимизации, как и . [3] вес IDF ( обратная частота документов ) термина запроса . Обычно он рассчитывается как:
где N — общее количество документов в коллекции, а количество документов, содержащих .
Существует несколько интерпретаций IDF и небольшие вариации ее формулы. В исходной версии BM25 компонент IDF получен из модели двоичной независимости .
Теоретико-информационная интерпретация IDF
[ редактировать ]Вот интерпретация из теории информации. Предположим, что термин запроса появляется в документы. Затем случайно выбранный документ будет содержать термин с вероятностью (где – опять же мощность множества документов в коллекции). Поэтому информативность сообщения» содержит " является:
Теперь предположим, что у нас есть два термина запроса. и . Если два термина встречаются в документах совершенно независимо друг от друга, то вероятность увидеть оба и в случайно выбранном документе является:
и информационным содержанием такого мероприятия является:
С небольшими вариациями именно это и выражает компонент ЦАХАЛа БМ25.
Модификации
[ редактировать ]- При крайних значениях коэффициента b BM25 превращается в ранговые функции, известные как BM11 (для ) и BM15 (для ). [4]
- БМ25Ф [5] [2] (или модель BM25 с расширением для нескольких взвешенных полей [6] ) — это модификация BM25, в которой документ считается состоящим из нескольких полей (таких как заголовки, основной текст, текст привязки) с возможно различной степенью важности, насыщенностью релевантности терминов и нормализацией длины. BM25F определяет каждый тип поля как поток , применяя взвешивание для каждого потока для масштабирования каждого потока по вычисленному баллу.
- БМ25+ [7] является расширением BM25. BM25+ был разработан для устранения одного недостатка стандарта BM25, в котором компонент нормализации частоты терминов по длине документа не имеет должным образом нижнего ограничения; В результате этого недостатка длинные документы, которые действительно соответствуют термину запроса, часто могут быть несправедливо оценены BM25 как имеющие аналогичную релевантность с более короткими документами, которые вообще не содержат термин запроса. Формула подсчета очков BM25+ имеет только один дополнительный свободный параметр. (значение по умолчанию — 1,0 при отсутствии данных обучения) по сравнению с BM25:
Ссылки
[ редактировать ]- ^ «ОКАПИ» . smcse.city.ac.uk . Проверено 16 октября 2023 г.
- ^ Jump up to: а б Стивен Робертсон и Уго Сарагоса (2009). «Структура вероятностной релевантности: BM25 и далее» . Основы и тенденции в области информационного поиска . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . дои : 10.1561/1500000019 . S2CID 207178704 .
- ^ Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце. Введение в поиск информации , Издательство Кембриджского университета, 2009, стр. 233.
- ^ «Схема взвешивания BM25» .
- ^ Хьюго Сарагоса, Ник Красвелл, Майкл Тейлор, Сучи Сария и Стивен Робертсон. Microsoft Cambridge на TREC-13: треки Web и HARD. В материалах ТРЭК-2004.
- ^ Робертсон, Стивен; Сарагоса, Уго; Тейлор, Майкл (13 ноября 2004 г.). «Простое расширение BM25 для нескольких взвешенных полей» . Материалы тринадцатой международной конференции ACM по управлению информацией и знаниями . ЦИКМ '04. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 42–49. дои : 10.1145/1031171.1031181 . ISBN 978-1-58113-874-0 . S2CID 16628332 .
- ^ Юаньхуа Л.в. и ЧэнСян Чжай. Нормализация частоты нижнего предела. В материалах ЦИКМ'2011, стр. 7-16.
Общие ссылки
[ редактировать ]- Стивен Э. Робертсон; Стив Уокер; Сьюзан Джонс; Мишлин Хэнкок-Болье и Майк Гэтфорд (ноябрь 1994 г.). Окапи на ТРЭК-3 . Материалы Третьей конференции по поиску текста (TREC 1994) . Гейтерсберг, США.
- Стивен Э. Робертсон; Стив Уокер и Мишлин Хэнкок-Болье (ноябрь 1998 г.). Окапи на ТРЭК-7 . Материалы седьмой конференции по текстовому поиску . Гейтерсберг, США.
- Сперк Джонс, К .; Уокер, С.; Робертсон, SE (2000). «Вероятностная модель поиска информации: Разработка и сравнительные эксперименты: Часть 1». Обработка информации и управление . 36 (6): 779–808. CiteSeerX 10.1.1.134.6108 . дои : 10.1016/S0306-4573(00)00015-7 .
- Сперк Джонс, К .; Уокер, С.; Робертсон, SE (2000). «Вероятностная модель поиска информации: Разработка и сравнительные эксперименты: Часть 2». Обработка информации и управление . 36 (6): 809–840. дои : 10.1016/S0306-4573(00)00016-9 .
- Стивен Робертсон и Уго Сарагоса (2009). «Структура вероятностной релевантности: BM25 и далее» . Основы и тенденции в области информационного поиска . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . дои : 10.1561/1500000019 . S2CID 207178704 .
Внешние ссылки
[ редактировать ]- Робертсон, Стивен ; Сарагоса, Уго (2009). Модель вероятностной релевантности: BM25 и далее (PDF) . СЕЙЧАС Publishers, Inc. ISBN 978-1-60198-308-4 .