Jump to content

Окапи БМ25

В информации поиске Okapi BM25 ( BM — аббревиатура наилучшего соответствия ) — это функция ранжирования, используемая поисковыми системами для оценки релевантности документов данному поисковому запросу. Он основан на системе вероятностного поиска, разработанной в 1970-х и 1980-х годах Стивеном Э. Робертсоном , Карен Сперк Джонс и другими.

Имя фактической функции ранжирования — BM25 . Более полное название, Okapi BM25 , включает в себя название первой системы, использовавшей ее, — информационно-поисковой системы Okapi, внедренной в Лондонском городском университете. [1] в 1980-х и 1990-х годах. BM25 и его новые варианты, например BM25F (версия BM25, которая может учитывать структуру документа и текст привязки), представляют собой TF-IDF -подобные функции поиска, используемые при поиске документов. [2]

Функция ранжирования

[ редактировать ]

BM25 — это функция поиска пакетов слов , которая ранжирует набор документов на основе терминов запроса, встречающихся в каждом документе, независимо от их близости внутри документа. Это семейство скоринговых функций с несколько разными компонентами и параметрами. Одна из наиболее известных реализаций функции выглядит следующим образом.

Дан запрос Q , содержащий ключевые слова , оценка BM25 документа D равна:

где это количество раз, когда ключевое слово встречается в документе D , — длина документа D в словах, а avgdl — средняя длина документа в текстовой коллекции, из которой извлекаются документы. и b — свободные параметры, обычно выбираемые при отсутствии расширенной оптимизации, как и . [3] вес IDF ( обратная частота документов ) термина запроса . Обычно он рассчитывается как:

где N — общее количество документов в коллекции, а количество документов, содержащих .

Существует несколько интерпретаций IDF и небольшие вариации ее формулы. В исходной версии BM25 компонент IDF получен из модели двоичной независимости .

Теоретико-информационная интерпретация IDF

[ редактировать ]

Вот интерпретация из теории информации. Предположим, что термин запроса появляется в документы. Затем случайно выбранный документ будет содержать термин с вероятностью (где – опять же мощность множества документов в коллекции). Поэтому информативность сообщения» содержит " является:

Теперь предположим, что у нас есть два термина запроса. и . Если два термина встречаются в документах совершенно независимо друг от друга, то вероятность увидеть оба и в случайно выбранном документе является:

и информационным содержанием такого мероприятия является:

С небольшими вариациями именно это и выражает компонент ЦАХАЛа БМ25.

Модификации

[ редактировать ]
  • При крайних значениях коэффициента b BM25 превращается в ранговые функции, известные как BM11 (для ) и BM15 (для ). [4]
  • БМ25Ф [5] [2] (или модель BM25 с расширением для нескольких взвешенных полей [6] ) — это модификация BM25, в которой документ считается состоящим из нескольких полей (таких как заголовки, основной текст, текст привязки) с возможно различной степенью важности, насыщенностью релевантности терминов и нормализацией длины. BM25F определяет каждый тип поля как поток , применяя взвешивание для каждого потока для масштабирования каждого потока по вычисленному баллу.
  • БМ25+ [7] является расширением BM25. BM25+ был разработан для устранения одного недостатка стандарта BM25, в котором компонент нормализации частоты терминов по длине документа не имеет должным образом нижнего ограничения; В результате этого недостатка длинные документы, которые действительно соответствуют термину запроса, часто могут быть несправедливо оценены BM25 как имеющие аналогичную релевантность с более короткими документами, которые вообще не содержат термин запроса. Формула подсчета очков BM25+ имеет только один дополнительный свободный параметр. (значение по умолчанию — 1,0 при отсутствии данных обучения) по сравнению с BM25:
  1. ^ «ОКАПИ» . smcse.city.ac.uk . Проверено 16 октября 2023 г.
  2. ^ Jump up to: а б Стивен Робертсон и Уго Сарагоса (2009). «Структура вероятностной релевантности: BM25 и далее» . Основы и тенденции в области информационного поиска . 3 (4): 333–389. CiteSeerX   10.1.1.156.5282 . дои : 10.1561/1500000019 . S2CID   207178704 .
  3. ^ Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце. Введение в поиск информации , Издательство Кембриджского университета, 2009, стр. 233.
  4. ^ «Схема взвешивания BM25» .
  5. ^ Хьюго Сарагоса, Ник Красвелл, Майкл Тейлор, Сучи Сария и Стивен Робертсон. Microsoft Cambridge на TREC-13: треки Web и HARD. В материалах ТРЭК-2004.
  6. ^ Робертсон, Стивен; Сарагоса, Уго; Тейлор, Майкл (13 ноября 2004 г.). «Простое расширение BM25 для нескольких взвешенных полей» . Материалы тринадцатой международной конференции ACM по управлению информацией и знаниями . ЦИКМ '04. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 42–49. дои : 10.1145/1031171.1031181 . ISBN  978-1-58113-874-0 . S2CID   16628332 .
  7. ^ Юаньхуа Л.в. и ЧэнСян Чжай. Нормализация частоты нижнего предела. В материалах ЦИКМ'2011, стр. 7-16.

Общие ссылки

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: de2d6d46431ee4a734c89f088c779e0a__1704917520
URL1:https://arc.ask3.ru/arc/aa/de/0a/de2d6d46431ee4a734c89f088c779e0a.html
Заголовок, (Title) документа по адресу, URL1:
Okapi BM25 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)