Расширенная логическая модель

Расширенная логическая модель была описана в статье Communications of the ACM, опубликованной в 1983 году, Джерардом Солтоном, Эдвардом А. Фоксом и Гарри Ву. Целью расширенной логической модели является преодоление недостатков булевой модели, которая использовалась при поиске информации . Булева модель не учитывает веса терминов в запросах, а набор результатов логического запроса часто либо слишком мал, либо слишком велик. Идея расширенной модели состоит в том, чтобы использовать частичное сопоставление и веса термов, как в модели векторного пространства. Он сочетает в себе характеристики модели векторного пространства со свойствами булевой алгебры и ранжирует сходство между запросами и документами. Таким образом, документ может быть в некоторой степени релевантным, если он соответствует некоторым запрошенным условиям и будет возвращен в результате, тогда как в стандартной логической модели это не так. ^[1]

Таким образом, расширенную булеву модель можно рассматривать как обобщение как булевой модели, так и модели векторного пространства; эти два случая являются особыми случаями, если используются подходящие настройки и определения. Кроме того, исследования показали, что эффективность повышается по сравнению с обработкой логических запросов. Другое исследование показало, что обратная связь по релевантности и расширение запроса могут быть интегрированы с расширенной обработкой логических запросов.

Определения [ править ]

В расширенной логической модели документ представляется в виде вектора (аналогично в векторной модели). Каждое i измерение соответствует отдельному термину, связанному с документом.

Вес термина $K x,$ связанного с документом $d j,$ измеряется его нормализованной частотой термина и может быть определен как:

$w_{x,j}=f_{x,j}*{\frac {Idf_{x}}{max_{i}Idf_{i}}}$

где $Idf x$ — обратная частота документов , а $f x,j$ — частота терминов для термина x в документе j.

Вектор весов, связанный с документом $d j,$ можно представить как:

$\mathbf {v} _{d_{j}}=[w_{1,j},w_{2,j},\ldots ,w_{i,j}]$

Пример двух измерений [ править ]

Рисунок 1: Сходство

q = (K x \lor K y)

с документами

d j

и

d j +1

.

Рисунок 2: Сходство

q = (K x \land K y)

с документами

d j

и

d j +1

.

Если рассматривать пространство, состоящее только из двух термов $K x$ и $K y$ , соответствующие веса термов равны $w 1$ и $w 2$ . ^[2] Таким образом, для запроса $q или = (K x \lor K y)$ мы можем вычислить сходство по следующей формуле:

$sim(q_{or},d)={\sqrt {\frac {w_{1}^{2}+w_{2}^{2}}{2}}}$

Для запроса $q и = (K x \land K y)$ мы можем использовать:

$sim(q_{and},d)=1-{\sqrt {\frac {(1-w_{1})^{2}+(1-w_{2})^{2}}{2}}}$

идеи и P Обобщение - нормы

Мы можем обобщить предыдущий пример расширенной двумерной логической модели на более t-мерное пространство, используя евклидовы расстояния.

Это можно сделать с помощью P-норм , которые расширяют понятие расстояния, включив в него p-расстояния, где $1 \leq p \leq \infty$ — новый параметр. ^[3]

Обобщенный конъюнктивный запрос задается следующим образом:

q_{or}=k_{1}\lor ^{p}k_{2}\lor ^{p}....\lor ^{p}k_{t}

Сходство $q_{or}$ и $d_{j}$ можно определить как:

: $sim(q_{or},d_{j})={\sqrt[{p}]{\frac {w_{1}^{p}+w_{2}^{p}+....+w_{t}^{p}}{t}}}$

Обобщенный дизъюнктивный запрос задается следующим образом:

q_{and}=k_{1}\land ^{p}k_{2}\land ^{p}....\land ^{p}k_{t}

Сходство $q_{and}$ и $d_{j}$ можно определить как:

sim(q_{and},d_{j})=1-{\sqrt[{p}]{\frac {(1-w_{1})^{p}+(1-w_{2})^{p}+....+(1-w_{t})^{p}}{t}}}

Примеры [ править ]

Рассмотрим запрос $q знак равно (K 1 \land K 2) \lor K 3$ . Сходство между запросом $q$ и документом $d$ можно вычислить по формуле:

$sim(q,d)={\sqrt[{p}]{\frac {(1-{\sqrt[{p}]{({\frac {(1-w_{1})^{p}+(1-w_{2})^{p}}{2}}}}))^{p}+w_{3}^{p}}{2}}}$

со стандартной логической моделью сравнению по Улучшения

Ли и Фокс ^[4] сравнили стандартную и расширенную логические модели с тремя наборами тестов: CISI, CACM и INSPEC.Используя P-нормы, они получили среднее улучшение точности на 79%, 106% и 210% по сравнению со стандартной моделью для коллекций CISI, CACM и INSPEC соответственно.
Модель P-нормы требует больших вычислительных затрат из-за количества операций возведения в степень, но она дает гораздо лучшие результаты, чем стандартная модель и даже методы нечеткого поиска . Стандартная булева модель по-прежнему остается наиболее эффективной.

Дальнейшее чтение [ править ]

Методы адаптивной обратной связи в расширенной логической модели доктора Джонгпилла Чоя
Интерполяция расширенной модели логического поиска
Фокс, Э.; Бетрабет, С.; Кошик, М.; Ли, В. (1992), Информационный поиск: алгоритмы и структуры данных; Расширенная логическая модель , Prentice-Hall, Inc., заархивировано из оригинала 28 сентября 2013 г. , получено 9 сентября 2017 г.
Скорковска, Люси; Ирсинг, Павел (2009), «Эксперименты с автоматической формулировкой запроса в расширенной логической модели», Текст, речь и диалог , Конспекты лекций по информатике, том. 5729, Springer Berlin/Heidelberg, стр. 371–378, doi : 10.1007/978-3-642-04208-9_51 , hdl : 11025/16985 , ISBN 978-3-642-04207-2

См. также [ править ]

Поиск информации

Ссылки [ править ]

^ Солтон, Джерард; Фокс, Эдвард А.; Ву, Гарри (1983), «Расширенный поиск логической информации», Communications of ACM , 26 (11), Communications of ACM, Volume 26, Issue 11: 1022–1036, doi : 10.1145/182.358466 , hdl : 1813/6351 , S2CID 207180535
^ «Лушэн Ван» . Архивировано из оригинала 27 сентября 2011 г. Проверено 1 декабря 2009 г.
^ Гарсия, доктор Э., Расширенная логическая модель — взвешенные запросы: веса терминов, запросы p-нормы и мультиконцептуальные типы. Логическое или расширенное? И это запрос
^ Ли, туалет; Фокс, Э.А. (1988), Экспериментальное сравнение схем интерпретации логических запросов (PDF)

[1] Солтон, Джерард; Фокс, Эдвард А.; Ву, Гарри (1983), «Расширенный поиск логической информации», Communications of ACM , 26 (11), Communications of ACM, Volume 26, Issue 11: 1022–1036, doi : 10.1145/182.358466 , hdl : 1813/6351 , S2CID 207180535

[2] «Лушэн Ван» . Архивировано из оригинала 27 сентября 2011 г. Проверено 1 декабря 2009 г.

[3] Гарсия, доктор Э., Расширенная логическая модель — взвешенные запросы: веса терминов, запросы p-нормы и мультиконцептуальные типы. Логическое или расширенное? И это запрос

[4] Ли, туалет; Фокс, Э.А. (1988), Экспериментальное сравнение схем интерпретации логических запросов (PDF)

[1]

[2]

[3]

[4]