Jump to content

Нечеткий поиск

Методы нечеткого поиска основаны на расширенной логической модели и теории нечетких множеств . Существует две классические модели нечеткого поиска: смешанный минимум и максимум (МММ) и модель Пейса. Обе модели не предоставляют способа оценки весов запросов, однако это учитывается алгоритмом P-норм .

Смешанная модель минимума и максимума (МММ) [ править ]

В теории нечетких множеств элемент имеет различную степень принадлежности, скажем d A , к данному множеству A вместо традиционного выбора членства (является элементом/не является элементом).
В МММ [1] с каждым индексным термином связано нечеткое множество. Вес документа по отношению к индексному термину A считается степенью членства документа в нечетком множестве, связанном с A . Степень принадлежности объединения и пересечения в теории нечетких множеств определяется следующим образом:

В соответствии с этим документы, которые должны быть получены по запросу формы A или B связанном с объединением двух множеств A и B. , должны находиться в нечетком множестве , Аналогично, документы, которые должны быть получены по запросу формы A и B , должны находиться в нечетком множестве, связанном с пересечением двух наборов. Следовательно, можно определить сходство документа с запросом or как max(d A , d B ) и сходство документа с запросом and как min(d A , d B ) . Модель MMM пытается смягчить логические операторы, рассматривая сходство запроса и документа как линейную комбинацию минимального и максимального веса документа.

Дан документ D с весами индексных терминов d A1 , d A2 , ..., d An для терминов A 1 , A 2 , ..., An и запросы:

Q или = (A 1 или A 2 или ... или A n )
Q и = (А 1 и А 2 и ... и А н )

сходство запроса и документа в модели МММ вычисляется следующим образом:

SlM(Q или , D) = C or1 * max(d A1 , d A2 , ..., d An ) + C or2 * min(d A1 , d A2 , ..., d An )
SlM(Q и , D) = C and1 * min(d A1 , d A2 , ..., d An ) + C and2 * max(d A1 , d A2 ..., d An )

где C or1 , C or2 — коэффициенты «мягкости» для оператора или , а C and1 , C и 2 — коэффициенты мягкости для оператора и . Поскольку мы хотели бы придать максимальную важность веса документа при рассмотрении запроса или и минимальную большую важность при рассмотрении запроса и , обычно мы имеем C or1 > C or2 и C and1 > C and2 . Для простоты обычно предполагается, что C or1 = 1 - C or2 и C and1 = 1 - C and2 .

Ли и Фокс [2] эксперименты показывают, что наилучшие результаты обычно достигаются при C и 1 в диапазоне [0,5, 0,8] и при C or1 > 0,2. В целом, вычислительные затраты MMM невелики, а эффективность поиска намного выше, чем при использовании стандартной логической модели .

Модель темпа [ править ]

Модель Пейса [3] является общим расширением модели МММ. По сравнению с моделью MMM, которая учитывает только минимальный и максимальный веса для терминов индекса, модель Пейса включает все веса терминов при расчете сходства:

где r — постоянный коэффициент, а w di расположен в порядке возрастания для запросов и и в порядке убывания для запросов или . Когда n = 2, модель Пейса демонстрирует то же поведение, что и модель МММ.

Эксперименты Ли и Фокса [2] показали, что установка r на 1,0 для запросов и и 0,7 для запросов или обеспечивает хорошую эффективность поиска. Вычислительные затраты для этой модели выше, чем для модели МММ. Это связано с тем, что модель MMM требует только определения минимального или максимального набора весов терминов каждый раз, когда and или or рассматривается предложение , что можно сделать за O(n) . Модель Пейса требует, чтобы веса терминов были отсортированы в порядке возрастания или убывания, в зависимости от того, and ли предложение или предложение or рассматривается . Для этого требуется как минимум алгоритм сортировки 0(n log n) . Также необходимо много вычислений с плавающей запятой.

со стандартной логической моделью сравнению по Улучшения

Ли и Фокс [2] сравнил стандартную логическую модель с моделями MMM и Paice с тремя наборами тестов: CISI, CACM и INSPEC. Ниже представлены результаты улучшения средней средней точности:

СНГИ CACM ИНСПЕК
М-М-М 68% 109% 195%
Пейс 77% 104% 206%

Это очень хорошие улучшения по сравнению со стандартной моделью. МММ очень близок к результатам Пейса и P-нормы, что указывает на то, что это может быть очень хороший метод и наиболее эффективный из трех.

Последние работы [ править ]

В 2005 году Канг и др. . [4] разработали нечеткую систему поиска, индексируемую идентификацией понятий.

Если мы посмотрим на документы с использованием чистого подхода Tf-idf , даже исключив стоп-слова, найдутся слова, более соответствующие теме документа, чем другие, и они будут иметь одинаковый вес, поскольку имеют одинаковую частоту терминов. Если мы примем во внимание намерения пользователя в отношении запроса, мы сможем лучше взвесить условия документа. Каждый термин можно идентифицировать как понятие в определенной лексической цепочке, которая передает важность этого понятия для данного документа.
Они сообщают об улучшениях по сравнению с Paice и P-norm по средней точности и полноте для пяти наиболее популярных документов.

Zadrozny [5] вновь обратился к нечеткой модели поиска информации. Он далее расширяет нечеткую расширенную булевую модель следующим образом:

  • принятие лингвистических терминов в качестве весов важности ключевых слов также в документах
  • принимая во внимание неопределенность относительно представления документов и запросов
  • интерпретация лингвистических терминов при представлении документов и запросов, а также их сопоставление с точки зрения нечеткой логики Заде (исчисление лингвистических высказываний)
  • рассмотрение некоторых прагматических аспектов предлагаемой модели, в частности методов индексации документов и запросов.

Предложенная модель позволяет уловить как неточность, так и неопределенность, связанную с представлением и поиском текстовой информации.

См. также [ править ]

Дальнейшее чтение [ править ]

  • Фокс, Э.; С. Бетрабет; М. Кошик; В. Ли (1992), Информационный поиск: алгоритмы и структуры данных; Расширенная логическая модель , Prentice-Hall, Inc., заархивировано из оригинала 28 сентября 2013 г. , получено 9 сентября 2017 г.

Ссылки [ править ]

  1. ^ Фокс, Э.А.; С. Шарат (1986), Сравнение двух методов мягкой логической интерпретации при поиске информации , Технический отчет TR-86-1, Технологический институт Вирджинии, факультет компьютерных наук
  2. Перейти обратно: Перейти обратно: а б с Ли, туалет; Э.А. Фокс (1988), Экспериментальное сравнение схем интерпретации логических запросов
  3. ^ Пейс, CD (1984), Мягкая оценка логических поисковых запросов в системах информационного поиска , Информационные технологии, Res. Дев. Приложения, 3(1), 33-42
  4. ^ Кан, Бо Ён; Дэ-Вон Ким; Хэ-Юнг Ким (2005), «Поиск нечеткой информации, индексируемый посредством идентификации понятий», Текст, речь и диалог , Конспекты лекций по информатике, том. 3658, Springer Berlin/Heidelberg, стр. 179–186, doi : 10.1007/11551874_23 , ISBN  978-3-540-28789-6
  5. ^ Задрозный, Славомир; Новацка, Катажина (2009), «Пересмотр модели нечеткого поиска информации», Fuzzy Sets and Systems , 160 (15), Elsevier North-Holland, Inc.: 2173–2191, doi : 10.1016/j.fss.2009.02.012
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 80bd5fc0027126e64294523cce589d68__1715763600
URL1:https://arc.ask3.ru/arc/aa/80/68/80bd5fc0027126e64294523cce589d68.html
Заголовок, (Title) документа по адресу, URL1:
Fuzzy retrieval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)