Jump to content

Алгоритм Роккио

Алгоритм Роккио основан на методе обратной связи по релевантности , обнаруженном в системах информационного поиска , который произошел от системы информационного поиска SMART, разработанной между 1960 и 1964 годами. Как и многие другие поисковые системы, алгоритм Роккио был разработан с использованием модели векторного пространства . Его основополагающее предположение заключается в том, что большинство пользователей имеют общее представление о том, какие документы следует обозначить как релевантные или нерелевантные. [1] Поэтому поисковый запрос пользователя пересматривается и включает в себя произвольный процент релевантных и нерелевантных документов в целях повышения поисковой системы и запоминаемости , возможно, также точности. Количество релевантных и нерелевантных документов, разрешенных для ввода в запрос, определяется весами переменных a, b, c, перечисленных ниже в разделе «Алгоритм» . [1]

Алгоритм

[ редактировать ]

Формула : и определения переменных для обратной связи по релевантности Роккио следующие [1]

Переменная Ценить
Модифицированный вектор запроса
Исходный вектор запроса
Вектор связанного документа
Вектор несвязанных документов
Исходный вес запроса
Сопутствующие документы Вес
Вес несвязанных документов
Комплект сопутствующих документов
Набор несвязанных документов

Как показано в формуле, связанные веса (a, b, c) отвечают за формирование модифицированного вектора в направлении ближе или дальше от исходного запроса, связанных и несвязанных документов. В частности, значения b и c должны увеличиваться или уменьшаться пропорционально набору документов, классифицированных пользователем. Если пользователь решает, что измененный запрос не должен содержать термины ни из исходного запроса, ни из связанных документов, ни из несвязанных документов, то соответствующее значение веса (a, b, c) для категории должно быть установлено равным 0.

В более поздней части алгоритма переменные , и представлены как наборы векторов, содержащих координаты связанных и несвязанных документов. Хотя и сами по себе не являются векторами, и — векторы, используемые для перебора двух наборов и формирования векторных сумм . Эти суммы нормализуются (делятся) на размер соответствующего набора документов ( , ).

Чтобы визуализировать изменения, происходящие с модифицированным вектором, обратитесь к изображению ниже. [1] По мере увеличения или уменьшения весов для определенной категории документов координаты модифицированного вектора начинают перемещаться либо ближе, либо дальше от центроида коллекции документов. Таким образом, если вес для связанных документов увеличивается, то координаты измененных векторов будут отражать близость к центроиду связанных документов.

Временная сложность

[ редактировать ]
Переменная Ценить
Маркированный набор документов
Среднее количество токенов на документ
Набор классов
Словарь/набор терминов
Количество токенов в документе
Количество типов в документе

Временная сложность обучения и тестирования алгоритма указана ниже, после чего следует определение каждой переменной . Обратите внимание, что на этапе тестирования временная сложность может быть уменьшена до расчета евклидова расстояния класса между центроидом и соответствующим документом. Как показано: .

Обучение =
Тестирование = [1]

Использование

[ редактировать ]
Классификация Роккьо

Хотя ранжирование документов как нерелевантных имеет свои преимущества, соответствующее ранжирование документов приведет к тому, что пользователю станут доступны более точные документы. Следовательно, традиционные значения весов алгоритма (a, b, c) в классификации Роккио обычно составляют около a = 1, b = 0,8 и c = 0,1. Современные системы поиска информации перешли к исключению несвязанных документов, установив c = 0 и, таким образом, учитывая только связанные документы. Хотя не все поисковые системы устранили необходимость в несвязанных документах, большинство из них ограничили влияние модифицированного запроса, учитывая только самые сильные несвязанные документы в набор.

Ограничения

[ редактировать ]

Алгоритм Роккио часто не может классифицировать мультимодальные классы и отношения. Например, страна Бирма была переименована в Мьянму в 1989 году. Таким образом, два запроса «Бирма» и «Мьянма» будут располагаться гораздо дальше друг от друга в модели векторного пространства , хотя оба они имеют схожее происхождение. [1]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д и ж Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце: Введение в поиск информации , страницы 163–167. Издательство Кембриджского университета, 2009.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6f9a5df341d5336d320c419a750c1cd1__1699338780
URL1:https://arc.ask3.ru/arc/aa/6f/d1/6f9a5df341d5336d320c419a750c1cd1.html
Заголовок, (Title) документа по адресу, URL1:
Rocchio algorithm - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)