Jump to content

Рейтинг СВМ

В машинном обучении ранжирующая SVM — это вариант машинного алгоритма опорных векторов , который используется для решения определенных ранжирования задач (посредством обучения ранжированию ). Алгоритм ранжирования SVM был опубликован Торстеном Йоахимсом в 2002 году. [1] Первоначальной целью алгоритма было повышение производительности поисковой системы в Интернете . Однако было обнаружено, что ранжирование SVM также можно использовать для решения других задач, таких как Rank SIFT . [2]

Описание

[ редактировать ]

Алгоритм ранжирования SVM — это обучающаяся функция поиска, которая использует методы парного ранжирования для адаптивной сортировки результатов в зависимости от того, насколько они «релевантны» для конкретного запроса. Функция ранжирования SVM использует функцию сопоставления для описания соответствия между поисковым запросом и характеристиками каждого из возможных результатов. Эта функция сопоставления проецирует каждую пару данных (например, поисковый запрос и выбранную веб-страницу) в пространство объектов. Эти функции объединяются с соответствующими данными о кликах (которые могут служить показателем того, насколько релевантна страница для конкретного запроса), а затем могут использоваться в качестве обучающих данных для алгоритма ранжирования SVM.

Обычно ранжирование SVM включает в себя три этапа периода обучения:

  1. Он отображает сходство между запросами и страницами, на которые нажимают, в определенное пространство признаков.
  2. Он вычисляет расстояния между любыми двумя векторами, полученными на шаге 1.
  3. Он формирует задачу оптимизации, аналогичную стандартной классификации SVM, и решает эту проблему с помощью обычного решателя SVM.

Метод ранжирования

[ редактировать ]

Предполагать представляет собой набор данных, содержащий элементы . это метод ранжирования, применяемый к . Затем тот в может быть представлен как двоичная матрица. Если ранг выше ранга , то есть , соответствующая позиция этой матрицы устанавливается на значение «1». В противном случае элементу в этой позиции будет присвоено значение «0».

тау Кендалла [3] [4]

[ редактировать ]

Тау Кендалла также относится к коэффициенту ранговой корреляции тау Кендалла , который обычно используется для сравнения двух методов ранжирования для одного и того же набора данных.

Предполагать и два метода ранжирования применяются к набору данных , Тау Кендалла между и можно представить следующим образом:

где количество согласованных пар и – количество несогласованных пар (инверсий). Пара и согласовано, если оба и согласен в том, как они заказывают и . Это противоречит, если они не согласны.

Качество поиска информации [5] [6] [7]

[ редактировать ]

Качество поиска информации обычно оценивается по следующим трем показателям:

  1. Точность
  2. Отзывать
  3. Средняя точность

Для конкретного запроса к базе данных пусть быть набором соответствующих информационных элементов в базе данных и быть набором извлеченных информационных элементов. Тогда приведенные выше три измерения можно представить следующим образом:

где это из .

Позволять и — ожидаемый и предлагаемый методы ранжирования базы данных соответственно, нижняя граница средней точности метода. можно представить следующим образом:

где – количество различных элементов в верхних треугольных частях матриц и и — количество соответствующих элементов в наборе данных.

классификатор СВМ [8]

[ редактировать ]

Предполагать — это элемент набора обучающих данных, где вектор признаков и это метка (которая классифицирует категорию ). Типичный классификатор SVM для такого набора данных можно определить как решение следующей задачи оптимизации.

Решение вышеуказанной задачи оптимизации можно представить как линейную комбинацию векторов признаков. с.

где – коэффициенты, которые необходимо определить.

Ранжирование алгоритма SVM

[ редактировать ]

Функция потерь

[ редактировать ]

Позволять быть тау Кендалла между ожидаемым методом ранжирования и предлагаемый метод , можно доказать, что максимизация помогает минимизировать нижнюю границу средней точности .

  • Функция ожидаемых потерь [9]

Отрицательный может быть выбрана в качестве функции потерь , чтобы минимизировать нижнюю границу средней точности

где это статистическое распределение на определенный запрос .

  • Эмпирическая функция потерь

Поскольку функция ожидаемых потерь неприменима, на практике для обучающих данных выбирается следующая эмпирическая функция потерь.

Сбор данных обучения

[ редактировать ]

Запросы iid применяются к базе данных, и каждый запрос соответствует методу ранжирования. Набор обучающих данных имеет элементы. Каждый элемент содержит запрос и соответствующий метод ранжирования.

Пространство функций

[ редактировать ]
Маркированные точки в пространстве объектов

Функция сопоставления [10] [11] требуется для сопоставления каждого запроса и элемента базы данных с пространством объектов. Затем каждой точке пространства признаков присваивается определенный ранг с помощью метода ранжирования.

Проблема оптимизации

[ редактировать ]

Точки, сгенерированные обучающими данными, находятся в пространстве признаков, которое также несет информацию о ранге (метки). Эти помеченные точки можно использовать для поиска границы (классификатора), определяющей их порядок. В линейном случае такой границей (классификатором) является вектор.

Предполагать и являются двумя элементами в базе данных и обозначают если ранг выше, чем в определенном методе ранжирования . Пусть вектор быть кандидатом в линейный классификатор в пространстве признаков. Тогда проблема ранжирования может быть преобразована в следующую проблему классификации SVM. Обратите внимание, что один метод ранжирования соответствует одному запросу.

Вышеупомянутая задача оптимизации идентична классической задаче классификации SVM, поэтому этот алгоритм называется Ranking-SVM.

W-кандидат
Не лучший кандидат

Функция поиска

[ редактировать ]

Оптимальный вектор полученный по обучающей выборке, равен

Таким образом, поисковая функция может быть сформирована на основе такого оптимального классификатора.
Для нового запроса , функция поиска сначала проецирует все элементы базы данных в пространство признаков. Затем он упорядочивает эти характерные точки по значениям их внутренних произведений с оптимальным вектором. А ранг каждой характерной точки — это ранг соответствующего элемента базы данных для запроса. .

Применение ранжирования SVM

[ редактировать ]

SVM ранжирования можно применять для ранжирования страниц в соответствии с запросом. Алгоритм можно обучить с использованием данных о кликах, которые состоят из следующих трех частей:

  1. Запрос.
  2. Текущий рейтинг результатов поиска
  3. Результаты поиска, на которые нажал пользователь

Комбинация 2 и 3 не может обеспечить полный порядок обучающих данных, необходимый для применения полного алгоритма SVM. Вместо этого он предоставляет часть ранжирующей информации обучающих данных. Поэтому алгоритм можно немного пересмотреть следующим образом.

Метод не предоставляет информацию о ранжировании всего набора данных, это подмножество метода полного ранжирования. Таким образом, условие задачи оптимизации становится более мягким по сравнению с исходным Ranking-SVM.

  1. ^ Йоахимс, Т. (2002), «Оптимизация поисковых систем с использованием данных о кликах», Материалы конференции ACM по обнаружению знаний и интеллектуальному анализу данных.
  2. ^ Бинг Ли; Ронг Сяо; Живэй Ли; Руй Цай; Бао-Лян Лу; Лей Чжан; «Ранг-SIFT: учимся ранжировать повторяющиеся местные точки интереса», Компьютерное зрение и распознавание образов (CVPR) , 2011 г.
  3. ^ М. Кемени. Методы ранговой корреляции, Хафнер , 1955 г.
  4. ^ А. Муд, Ф. Грейбилл и Д. Боес. Введение в теорию статистики . МакГроу-Хилл, 3-е издание, 1974 г.
  5. ^ Дж. Кемени и Л. Снелл. Математические модели в социальных науках. Джинн и компания, 1962 г.
  6. ^ Ю. Яо. «Измерение эффективности поиска на основе предпочтений пользователя в отношении документов». Журнал Американского общества информатики , 46(2): 133–145, 1995.
  7. ^ Р. Баеза-Йейтс и Б. Рибейро-Нето. Современный информационный поиск . Аддисон-Уэсли-Лонгман, Харлоу, Великобритания, май 1999 г.
  8. ^ К. Кортес и В. Н. Вапник. «Сети опорных векторов». Журнал машинного обучения , 20: 273–297, 1995.
  9. ^ В. Вапник. Статистическая теория обучения . УАЙЛИ, Чичестер, Великобритания, 1998 г.
  10. ^ Н. Фур. «Оптимальные полиномиальные поисковые функции на основе принципа вероятностного ранжирования». ACM TRANSACTIONS по информационным системам , 7 (3): 183–204.
  11. ^ Н. Фур, С. Хартманн, Г. Люстиг, М. Швантнер, К. Церас и Г. Кнорц. «Air/x – основанная на правилах многоступенчатая система индексирования для больших предметных областей». В РИАО, 1991 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f8c1d6559be59423325a4ed083cd1544__1702270500
URL1:https://arc.ask3.ru/arc/aa/f8/44/f8c1d6559be59423325a4ed083cd1544.html
Заголовок, (Title) документа по адресу, URL1:
Ranking SVM - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)