Булева модель поиска информации
![]() | Эта статья может быть слишком технической для понимания большинства читателей . ( июнь 2018 г. ) |
(Стандартная) булева модель поиска информации ( BIR ). [1] — это классическая модель информационного поиска (ПИ) и в то же время первая и наиболее распространенная. [2] BIR основан на булевой логике и классической теории множеств , поскольку и документы, в которых осуществляется поиск, и запрос пользователя рассматриваются как наборы терминов ( модель «мешка слов» ). Поиск основан на том, содержат ли документы условия запроса и удовлетворяют ли они логическим условиям, описанным в запросе.
Определения
[ редактировать ]Индексный термин — это слово или выражение , которое может иметь основу , описывая или характеризуя документ, например ключевое слово, указанное для журнальной статьи. Позволять быть набором всех таких индексных термов.
Документ – это любое подмножество . Позволять быть комплектом всех документов.
представляет собой серию слов или небольших фраз (индексных терминов). Каждое из этих слов или небольших фраз названо , где — номер термина в серии/списке. Вы можете подумать о как «Условия» и как «индексный термин n ».
Слова или небольшие фразы (индексные термины ) могут существовать в документах. Эти документы затем образуют серию/список. где каждый отдельный документ называется . Эти документы ( ) может содержать слова или небольшие фразы (индексные термины ) такой как может содержать условия и от . Пример этого можно найти в следующем разделе.
Индексные термины обычно представляют собой слова, которые имеют для них большее значение и соответствуют тому, о чем может говорить содержание статьи или документа. Такие термины, как «the» и «like», будут встречаться почти во всех документах, тогда как «байесовский» будет составлять лишь небольшую часть документов. Поэтому более редкие термины, такие как «байесовский», являются лучшим выбором для выбора в наборы. Это относится к энтропии (теории информации) . Существует несколько типов операций, которые можно применять к терминам индекса, используемым в запросах, чтобы сделать их более общими и релевантными. Одним из таких является Стемминг .
Запрос — это логическое выражение в нормальной форме: где верно для когда . (Эквивалентно, можно выразить в дизъюнктивной нормальной форме .)
Любой запросы представляют собой набор индексных терминов ( или ) выбрал из набора терминов, которые объединяются с помощью логических операторов для формирования набора условий.
Эти условия затем применяются к множеству документов, содержащих одинаковые индексные термины ( ) из набора .
Мы стремимся найти комплект документов, удовлетворяющий . Эта операция называется поиском и состоит из следующих двух шагов:
- 1. Для каждого в , найдите набор документов, удовлетворяющих : 2. Тогда набор документов, удовлетворяющих Q, определяется следующим образом: Где означает ИЛИ и означает И как логические операторы.
Пример
[ редактировать ]Пусть набор оригинальных (реальных) документов будет, например,
где
= «Принцип Байеса: принцип, согласно которому при оценке параметра следует изначально предположить, что каждое возможное значение имеет равную вероятность (равномерное априорное распределение)».
= « Байесовская теория принятия решений : математическая теория принятия решений, которая предполагает функции полезности и вероятности и согласно которой выбираемое действие является действием Байеса, то есть действием с наивысшей субъективной ожидаемой полезностью. Если бы у кого-то было неограниченное время и расчеты власть, с которой можно принимать любое решение, эта процедура была бы лучшим способом принятия любого решения».
= «Байесовская эпистемология : Философская теория, которая утверждает, что эпистемический статус предложения (т.е. насколько хорошо оно доказано или хорошо установлено) лучше всего измеряется вероятностью и что правильный способ пересмотра этой вероятности определяется байесовской кондиционализацией или чем-то подобным. Байесовский эпистемолог будет использовать вероятность для определения и исследования взаимосвязи между такими понятиями, как эпистемический статус, поддержка или объяснительная сила».
Пусть набор терминов быть:
Тогда набор документов выглядит следующим образом:
где
Пусть запрос быть («вероятность» И «принятие решения»):
Затем, чтобы получить соответствующие документы:
- Во-первых, следующие наборы и документов получены (получены): Где соответствует документам, содержащим термин «вероятность» и содержат термин «принятие решения».
- Наконец, следующие документы извлекаются в ответ на : Где запрос ищет документы, содержащиеся в обоих наборах с помощью оператора пересечения.
Это означает, что исходный документ это ответ на .
Если существует более одного документа с одинаковым представлением (то же самое подмножество индексных терминов). ), каждый такой документ извлекается. Такие документы в БИР неотличимы (иными словами, эквивалентны).
Преимущества
[ редактировать ]- Чистый формализм
- Легко реализовать
- Интуитивная концепция
- Если результирующий набор документов либо слишком мал, либо слишком велик, сразу понятно, какие операторы будут производить соответственно больший или меньший набор.
- Это дает (экспертным) пользователям ощущение контроля над системой. Сразу понятно, почему документ был получен по запросу.
Недостатки
[ редактировать ]- Точное соответствие может привести к получению слишком малого или слишком большого количества документов.
- Трудно перевести запрос в логическое выражение
- Все термины имеют одинаковый вес
- Больше похоже на поиск данных, чем на поиск информации
- Поиск на основе бинарных критериев принятия решения без понятия частичного совпадения.
- Ранжирование документов не предусмотрено (отсутствие оценочной шкалы).
- Информацию необходимо преобразовать в логическое выражение, что большинству пользователей кажется неудобным.
- Логические запросы, сформулированные пользователями, чаще всего слишком упрощены.
- Модель часто возвращает либо слишком мало, либо слишком много документов в ответ на запрос пользователя.
Структуры данных и алгоритмы
[ редактировать ]С чисто формальной математической точки зрения BIR прост. Однако с практической точки зрения необходимо решить несколько дополнительных проблем, связанных с алгоритмами и структурами данных, таких как, например, выбор терминов (ручной или автоматический выбор или оба), стемминг , хеш-таблицы , инвертированная файловая структура. , и так далее. [3]
Хэш-наборы
[ редактировать ]Другая возможность — использовать хэш-наборы . Каждый документ представлен хеш-таблицей, которая содержит каждый термин этого документа. Поскольку размер хеш-таблицы увеличивается и уменьшается в реальном времени при добавлении и удалении термов, каждый документ будет занимать гораздо меньше места в памяти. Однако при этом будет наблюдаться снижение производительности, поскольку операции более сложны, чем с битовыми векторами . В худшем случае производительность может ухудшиться с O( n ) до O( n 2 ). В среднем, замедление производительности будет не намного сильнее, чем у битовых векторов, а использование пространства будет гораздо более эффективным.
Файл подписи
[ редактировать ]Каждый документ можно суммировать с помощью фильтра Блума, представляющего набор слов в этом документе, хранящихся в битовой строке фиксированной длины, называемой подписью. Файл подписи содержит одну такую битовую строку наложенного кода для каждого документа в коллекции. Каждый запрос также может быть суммирован с помощью фильтра Блума, представляющего набор слов в запросе, хранящихся в битовой строке той же фиксированной длины. Битовая строка запроса проверяется на соответствие каждой сигнатуре. [4] [5] [6]
Подходящий файл подписи используется в BitFunnel .
Инвертированный файл
[ редактировать ]Инвертированный индексный файл состоит из двух частей: словарь, содержащий все термины, используемые в сборнике, и для каждого отдельного термина инвертированный индекс, в котором перечислены все документы, в которых этот термин упоминается. [4] [5]
Ссылки
[ редактировать ]- ^ Ланкастер, ФРВ; Файен, Э.Г. (1973), Информационный поиск в режиме онлайн , Melville Publishing Co., Лос-Анджелес, Калифорния
- ^ «Информационный поиск» . МТИ Пресс . Проверено 9 декабря 2023 г.
- ^ Вартик, Стивен (1992). «Бульевы операции». Структуры и алгоритмы информационного поиска . Прентис-Холл, Inc. ISBN 0-13-463837-9 . Архивировано из оригинала 28 сентября 2013 г.
- ^ Jump up to: а б Джастин Зобель; Алистер Моффат; и Котагири Рамамоханарао. «Инвертированные файлы и файлы сигнатур для индексации текста» .
- ^ Jump up to: а б Боб Гудвин; и др. «BitFunnel: новый взгляд на сигнатуры для поиска» . 2017.
- ^ Ричард Стартин. «Побитовые подписи и фильтры Блума» .
- Лашкари, АХ; Махдави, Ф.; Гоми, В. (2009), «Булева модель поиска информации для поисковых систем», Международная конференция 2009 г. по управлению информацией и инженерии , стр. 385–389, doi : 10.1109/ICIME.2009.101 , ISBN 978-0-7695-3595-1 , S2CID 18147603