Jump to content

Булева модель поиска информации

(Стандартная) булева модель поиска информации ( BIR ). [1] — это классическая модель информационного поиска (ИР) и в то же время первая и наиболее распространенная. [2] BIR основан на булевой логике и классической теории множеств , поскольку и документы, в которых осуществляется поиск, и запрос пользователя рассматриваются как наборы терминов ( модель «мешка слов» ). Поиск основан на том, содержат ли документы условия запроса и удовлетворяют ли они логическим условиям, описанным запросом.

Определения [ править ]

Индексный термин — это слово или выражение , которое может иметь основу , описывая или характеризуя документ, например ключевое слово, указанное для журнальной статьи. Позволять

быть набором всех таких индексных термов.

Документ это любое подмножество . Позволять

быть комплектом всех документов.

Запрос это логическое выражение в нормальной форме:

где верно для когда . (Эквивалентно, можно выразить в дизъюнктивной нормальной форме .)

Мы стремимся найти комплект документов, удовлетворяющий . Эта операция называется поиском и состоит из следующих двух шагов:

1. Для каждого в , найдите набор документов, удовлетворяющих :
2. Тогда набор документов, удовлетворяющих Q, определяется следующим образом:

Пример [ править ]

Пусть набор оригинальных (реальных) документов будет, например,

где

= «Принцип Байеса: принцип, согласно которому при оценке параметра следует изначально предположить, что каждое возможное значение имеет равную вероятность (равномерное априорное распределение)».

= « Байесовская теория принятия решений : математическая теория принятия решений, которая предполагает функции полезности и вероятности и согласно которой выбираемое действие является действием Байеса, то есть действием с наивысшей субъективной ожидаемой полезностью. Если бы у кого-то было неограниченное время и расчеты власть, с которой можно принимать любое решение, эта процедура была бы лучшим способом принятия любого решения».

= «Байесовская эпистемология : Философская теория, которая утверждает, что эпистемический статус предложения (т.е. насколько хорошо оно доказано или хорошо установлено) лучше всего измеряется вероятностью и что правильный способ пересмотра этой вероятности определяется байесовской кондиционализацией или чем-то подобным. Байесовский эпистемолог будет использовать вероятность для определения и исследования взаимосвязи между такими понятиями, как эпистемический статус, поддержка или объяснительная сила».

Пусть набор терминов быть:

Тогда набор документов выглядит следующим образом:

где

Пусть запрос быть:

Затем, чтобы получить соответствующие документы:

  1. Во-первых, следующие наборы и документов получены (получены):
  2. Наконец, следующие документы извлекаются в ответ на

Это означает, что исходный документ (соответствует ) это ответ на .

Очевидно, что если существует более одного документа с одинаковым представлением, извлекается каждый такой документ. Такие документы в БИР неотличимы (иными словами, эквивалентны).

Преимущества [ править ]

  • Чистый формализм
  • Легко реализовать
  • Интуитивная концепция
  • Если результирующий набор документов либо слишком мал, либо слишком велик, сразу понятно, какие операторы будут производить соответственно больший или меньший набор.
  • Это дает (экспертным) пользователям ощущение контроля над системой. Сразу понятно, почему документ был получен по запросу.

Недостатки [ править ]

  • Точное соответствие может привести к получению слишком малого или слишком большого количества документов.
  • Трудно перевести запрос в логическое выражение
  • Все термины имеют одинаковый вес
  • Больше похоже на поиск данных, чем на поиск информации
  • Поиск на основе бинарных критериев принятия решения без понятия частичного совпадения.
  • Ранжирование документов не предусмотрено (отсутствие оценочной шкалы).
  • Информацию необходимо преобразовать в логическое выражение, что большинству пользователей кажется неудобным.
  • Логические запросы, сформулированные пользователями, чаще всего слишком упрощены.
  • Модель часто возвращает либо слишком мало, либо слишком много документов в ответ на запрос пользователя.

Структуры данных и алгоритмы [ править ]

С чисто формальной математической точки зрения BIR прост. Однако с практической точки зрения необходимо решить несколько дополнительных проблем, связанных с алгоритмами и структурами данных, таких как, например, выбор терминов (ручной или автоматический выбор или оба), стемминг , хеш-таблицы , инвертированная файловая структура. , и так далее. [3]

Хэш-наборы [ править ]

Другая возможность — использовать хэш-наборы . Каждый документ представлен хеш-таблицей, которая содержит каждый термин этого документа. Поскольку размер хеш-таблицы увеличивается и уменьшается в реальном времени при добавлении и удалении термов, каждый документ будет занимать гораздо меньше места в памяти. Однако при этом будет наблюдаться снижение производительности, поскольку операции более сложны, чем с битовыми векторами . В худшем случае производительность может ухудшиться с O( n ) до O( n 2 ). В среднем, замедление производительности будет не намного сильнее, чем у битовых векторов, а использование пространства будет гораздо более эффективным.

Файл подписи [ править ]

Каждый документ можно суммировать с помощью фильтра Блума, представляющего набор слов в этом документе, хранящихся в битовой строке фиксированной длины, называемой подписью.Файл подписи содержит одну такую ​​битовую строку наложенного кода для каждого документа в коллекции.Каждый запрос также может быть суммирован с помощью фильтра Блума, представляющего набор слов в запросе, хранящихся в битовой строке той же фиксированной длины.Битовая строка запроса проверяется на соответствие каждой сигнатуре. [4] [5] [6]

Подходящий файл подписи используется в BitFunnel .

Инвертированный файл [ править ]

Инвертированный индексный файл состоит из двух частей:словарь, содержащий все термины, используемые в сборнике,и для каждого отдельного термина инвертированный индекс, в котором перечислены все документы, в которых этот термин упоминается. [4] [5]

Ссылки [ править ]

  1. ^ Ланкастер, ФРВ; Файен, Э.Г. (1973), Поиск информации в режиме онлайн , Melville Publishing Co., Лос-Анджелес, Калифорния
  2. ^ «Информационный поиск» . МТИ Пресс . Проверено 9 декабря 2023 г.
  3. ^ Вартик, Стивен (1992). «Булевы операции». Структуры и алгоритмы информационного поиска . Прентис-Холл, Inc. ISBN  0-13-463837-9 . Архивировано из оригинала 28 сентября 2013 г.
  4. ^ Jump up to: Перейти обратно: а б Джастин Зобель; Алистер Моффат; и Котагири Рамамоханарао. «Инвертированные файлы и файлы сигнатур для индексации текста» .
  5. ^ Jump up to: Перейти обратно: а б Боб Гудвин; и др. «BitFunnel: новый взгляд на сигнатуры для поиска» .2017.
  6. ^ Ричард Стартин. «Побитовые подписи и фильтры Блума» .
  • Лашкари, АХ; Махдави, Ф.; Гоми, В. (2009), «Булева модель поиска информации для поисковых систем», Международная конференция 2009 г. по управлению информацией и инженерии , стр. 385–389, doi : 10.1109/ICIME.2009.101 , ISBN  978-0-7695-3595-1 , S2CID   18147603
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d3347a0f400c1e5478efbe7ee28721cf__1702079340
URL1:https://arc.ask3.ru/arc/aa/d3/cf/d3347a0f400c1e5478efbe7ee28721cf.html
Заголовок, (Title) документа по адресу, URL1:
Boolean model of information retrieval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)