Jump to content

Булева модель поиска информации

(Стандартная) булева модель поиска информации ( BIR ). [1] — это классическая модель информационного поиска (ПИ) и в то же время первая и наиболее распространенная. [2] BIR основан на булевой логике и классической теории множеств , поскольку и документы, в которых осуществляется поиск, и запрос пользователя рассматриваются как наборы терминов ( модель «мешка слов» ). Поиск основан на том, содержат ли документы условия запроса и удовлетворяют ли они логическим условиям, описанным в запросе.

Определения

[ редактировать ]

Индексный термин — это слово или выражение , которое может иметь основу , описывая или характеризуя документ, например ключевое слово, указанное для журнальной статьи. Позволять быть набором всех таких индексных термов.

Документ это любое подмножество . Позволять быть комплектом всех документов.


представляет собой серию слов или небольших фраз (индексных терминов). Каждое из этих слов или небольших фраз названо , где — номер термина в серии/списке. Вы можете подумать о как «Условия» и как «индексный термин n ».

Слова или небольшие фразы (индексные термины ) могут существовать в документах. Эти документы затем образуют серию/список. где каждый отдельный документ называется . Эти документы ( ) может содержать слова или небольшие фразы (индексные термины ) такой как может содержать условия и от . Пример этого можно найти в следующем разделе.

Индексные термины обычно представляют собой слова, которые имеют для них большее значение и соответствуют тому, о чем может говорить содержание статьи или документа. Такие термины, как «the» и «like», будут встречаться почти во всех документах, тогда как «байесовский» будет составлять лишь небольшую часть документов. Поэтому более редкие термины, такие как «байесовский», являются лучшим выбором для выбора в наборы. Это относится к энтропии (теории информации) . Существует несколько типов операций, которые можно применять к терминам индекса, используемым в запросах, чтобы сделать их более общими и релевантными. Одним из таких является Стемминг .


Запрос это логическое выражение в нормальной форме: где верно для когда . (Эквивалентно, можно выразить в дизъюнктивной нормальной форме .)

Любой запросы представляют собой набор индексных терминов ( или ) выбрал из набора терминов, которые объединяются с помощью логических операторов для формирования набора условий.

Эти условия затем применяются к множеству документов, содержащих одинаковые индексные термины ( ) из набора .

Мы стремимся найти комплект документов, удовлетворяющий . Эта операция называется поиском и состоит из следующих двух шагов:

1. Для каждого в , найдите набор документов, удовлетворяющих : 2. Тогда набор документов, удовлетворяющих Q, определяется следующим образом: Где означает ИЛИ и означает И как логические операторы.

Пусть набор оригинальных (реальных) документов будет, например,

где

= «Принцип Байеса: принцип, согласно которому при оценке параметра следует изначально предположить, что каждое возможное значение имеет равную вероятность (равномерное априорное распределение)».

= « Байесовская теория принятия решений : математическая теория принятия решений, которая предполагает функции полезности и вероятности и согласно которой выбираемое действие является действием Байеса, то есть действием с наивысшей субъективной ожидаемой полезностью. Если бы у кого-то было неограниченное время и расчеты власть, с которой можно принимать любое решение, эта процедура была бы лучшим способом принятия любого решения».

= «Байесовская эпистемология : Философская теория, которая утверждает, что эпистемический статус предложения (т.е. насколько хорошо оно доказано или хорошо установлено) лучше всего измеряется вероятностью и что правильный способ пересмотра этой вероятности определяется байесовской кондиционализацией или чем-то подобным. Байесовский эпистемолог будет использовать вероятность для определения и исследования взаимосвязи между такими понятиями, как эпистемический статус, поддержка или объяснительная сила».

Пусть набор терминов быть:

Тогда набор документов выглядит следующим образом:

где

Пусть запрос быть («вероятность» И «принятие решения»):

Затем, чтобы получить соответствующие документы:

  1. Во-первых, следующие наборы и документов получены (получены): Где соответствует документам, содержащим термин «вероятность» и содержат термин «принятие решения».
  2. Наконец, следующие документы извлекаются в ответ на : Где запрос ищет документы, содержащиеся в обоих наборах с помощью оператора пересечения.

Это означает, что исходный документ это ответ на .

Если существует более одного документа с одинаковым представлением (то же самое подмножество индексных терминов). ), каждый такой документ извлекается. Такие документы в БИР неотличимы (иными словами, эквивалентны).

Преимущества

[ редактировать ]
  • Чистый формализм
  • Легко реализовать
  • Интуитивная концепция
  • Если результирующий набор документов либо слишком мал, либо слишком велик, сразу понятно, какие операторы будут производить соответственно больший или меньший набор.
  • Это дает (экспертным) пользователям ощущение контроля над системой. Сразу понятно, почему документ был получен по запросу.

Недостатки

[ редактировать ]
  • Точное соответствие может привести к получению слишком малого или слишком большого количества документов.
  • Трудно перевести запрос в логическое выражение
  • Все термины имеют одинаковый вес
  • Больше похоже на поиск данных, чем на поиск информации
  • Поиск на основе бинарных критериев принятия решения без понятия частичного совпадения.
  • Ранжирование документов не предусмотрено (отсутствие оценочной шкалы).
  • Информацию необходимо преобразовать в логическое выражение, что большинству пользователей кажется неудобным.
  • Логические запросы, сформулированные пользователями, чаще всего слишком упрощены.
  • Модель часто возвращает либо слишком мало, либо слишком много документов в ответ на запрос пользователя.

Структуры данных и алгоритмы

[ редактировать ]

С чисто формальной математической точки зрения BIR прост. Однако с практической точки зрения необходимо решить несколько дополнительных проблем, связанных с алгоритмами и структурами данных, таких как, например, выбор терминов (ручной или автоматический выбор или оба), стемминг , хеш-таблицы , инвертированная файловая структура. , и так далее. [3]

Хэш-наборы

[ редактировать ]

Другая возможность — использовать хэш-наборы . Каждый документ представлен хеш-таблицей, которая содержит каждый термин этого документа. Поскольку размер хеш-таблицы увеличивается и уменьшается в реальном времени при добавлении и удалении термов, каждый документ будет занимать гораздо меньше места в памяти. Однако при этом будет наблюдаться снижение производительности, поскольку операции более сложны, чем с битовыми векторами . В худшем случае производительность может ухудшиться с O( n ) до O( n 2 ). В среднем, замедление производительности будет не намного сильнее, чем у битовых векторов, а использование пространства будет гораздо более эффективным.

Файл подписи

[ редактировать ]

Каждый документ можно суммировать с помощью фильтра Блума, представляющего набор слов в этом документе, хранящихся в битовой строке фиксированной длины, называемой подписью. Файл подписи содержит одну такую ​​битовую строку наложенного кода для каждого документа в коллекции. Каждый запрос также может быть суммирован с помощью фильтра Блума, представляющего набор слов в запросе, хранящихся в битовой строке той же фиксированной длины. Битовая строка запроса проверяется на соответствие каждой сигнатуре. [4] [5] [6]

Подходящий файл подписи используется в BitFunnel .

Инвертированный файл

[ редактировать ]

Инвертированный индексный файл состоит из двух частей: словарь, содержащий все термины, используемые в сборнике, и для каждого отдельного термина инвертированный индекс, в котором перечислены все документы, в которых этот термин упоминается. [4] [5]

  1. ^ Ланкастер, ФРВ; Файен, Э.Г. (1973), Информационный поиск в режиме онлайн , Melville Publishing Co., Лос-Анджелес, Калифорния
  2. ^ «Информационный поиск» . МТИ Пресс . Проверено 9 декабря 2023 г.
  3. ^ Вартик, Стивен (1992). «Бульевы операции». Структуры и алгоритмы информационного поиска . Прентис-Холл, Inc. ISBN  0-13-463837-9 . Архивировано из оригинала 28 сентября 2013 г.
  4. ^ Jump up to: а б Джастин Зобель; Алистер Моффат; и Котагири Рамамоханарао. «Инвертированные файлы и файлы сигнатур для индексации текста» .
  5. ^ Jump up to: а б Боб Гудвин; и др. «BitFunnel: новый взгляд на сигнатуры для поиска» . 2017.
  6. ^ Ричард Стартин. «Побитовые подписи и фильтры Блума» .
  • Лашкари, АХ; Махдави, Ф.; Гоми, В. (2009), «Булева модель поиска информации для поисковых систем», Международная конференция 2009 г. по управлению информацией и инженерии , стр. 385–389, doi : 10.1109/ICIME.2009.101 , ISBN  978-0-7695-3595-1 , S2CID   18147603
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d653564faddaf2db8ef601d946e30a62__1720533660
URL1:https://arc.ask3.ru/arc/aa/d6/62/d653564faddaf2db8ef601d946e30a62.html
Заголовок, (Title) документа по адресу, URL1:
Boolean model of information retrieval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)