Jump to content

Меры оценки (поиск информации)

(Перенаправлено с Precision at k )

Меры оценки для системы информационного поиска (IR) позволяют оценить, насколько хорошо индекс, поисковая система или база данных возвращают результаты из набора ресурсов, которые удовлетворяют запросу пользователя. Поэтому они имеют основополагающее значение для успеха информационных систем и цифровых платформ.

Наиболее важным фактором в определении эффективности системы для пользователей является общая релевантность результатов, полученных в ответ на запрос. [1] Успех системы IR можно оценивать по ряду критериев, включая актуальность, скорость, удовлетворенность пользователей, удобство использования, эффективность и надежность. [2] Меры оценки могут быть классифицированы по-разному, включая оффлайн или онлайн, на основе пользователей или систем, и включают такие методы, как наблюдаемое поведение пользователей, наборы тестов, точность и полнота, а также оценки из подготовленных наборов эталонных тестов.

Оценка системы поиска информации должна также включать проверку используемых показателей, т.е. оценку того, насколько хорошо они измеряют то, для чего предназначены, и насколько хорошо система соответствует предполагаемому варианту использования. [3] Измерения обычно используются в двух случаях: онлайн-экспериментирование, при котором оценивается взаимодействие пользователей с поисковой системой, и офлайн-оценка, при которой измеряется эффективность системы поиска информации на статической автономной коллекции.

Методы индексирования и классификации, помогающие в поиске информации, имеют долгую историю, восходящую к самым ранним библиотекам и коллекциям, однако систематическая оценка их эффективности началась всерьез в 1950-х годах, когда быстрое расширение исследовательской деятельности в армии, правительстве и образовании, а также введение компьютеризированные каталоги. В то время действовало множество различных систем индексации, классификации и каталогизации, производство которых было дорогостоящим, и было неясно, какая из них наиболее эффективна. [4]

Сирил Клевердон , библиотекарь Колледжа аэронавтики в Крэнфилде, Англия, начал серию экспериментов с методами индексирования и поиска печатных материалов в рамках так называемой парадигмы Крэнфилда или тестов Крэнфилда, которые на многие годы установили стандарт для показателей оценки IR. [4] Клевердон разработал тест под названием «поиск известных элементов», чтобы проверить, возвращает ли система IR документы, которые, как известно, являются релевантными или правильными для данного поиска. Эксперименты Клевердона установили ряд ключевых аспектов, необходимых для оценки IR: набор тестов, набор запросов и набор заранее определенных релевантных элементов, которые в совокупности будут определять точность и отзыв.

Подход Клевердона лег в основу успешной серии конференций по текстовому поиску , которая началась в 1992 году.

Приложения

[ редактировать ]

Оценка IR-систем имеет решающее значение для успеха любой поисковой системы, включая поиск в Интернете, на веб-сайтах, в базах данных и библиотечных каталогах. Оценочные меры используются в исследованиях поведения информации , тестировании удобства использования , бизнес-затратах и ​​оценках эффективности. Измерение эффективности систем IR было основным направлением исследований IR, основанных на наборах тестов в сочетании с мерами оценки. [5] Был организован ряд научных конференций, посвященных конкретно мерам оценки, включая Конференцию по текстовому поиску (TREC), Конференцию и лаборатории Форума по оценке (CLEF) и NTCIR.

Онлайн-меры

[ редактировать ]

Онлайн-метрики обычно создаются на основе журналов поиска. Метрики часто используются для определения успеха A/B-теста .

Уровень прерывания сеанса

[ редактировать ]

Коэффициент прерывания сеансов – это процент сеансов поиска, которые не привели к клику.

Рейтинг кликов

[ редактировать ]

Рейтинг кликов (CTR) — это соотношение пользователей, которые нажимают на определенную ссылку, к общему числу пользователей, просматривающих страницу, электронное письмо или рекламу. Он обычно используется для измерения успеха рекламной кампании в Интернете для конкретного веб-сайта, а также эффективности кампаний по электронной почте. [6]

Процент успешных сеансов

[ редактировать ]

Показатель успешности сеансов измеряет долю пользовательских сеансов, которые привели к успеху. Определение «успеха» часто зависит от контекста, но для поиска успешный результат часто измеряется с использованием времени пребывания в качестве основного фактора наряду с вторичным взаимодействием с пользователем, например, пользователь, копирующий URL-адрес результата, считается успешным результатом, как и копирование. /вставка из фрагмента.

Нулевой процент результатов

[ редактировать ]

Доля нулевых результатов ( ZRR ) — это доля страниц результатов поисковой системы (SERP), которые вернулись с нулевыми результатами. Метрика либо указывает на проблему с отзывом , либо на то, что искомая информация отсутствует в индексе.

Офлайн-метрики

[ редактировать ]

Офлайн-метрики обычно создаются на основе оценок релевантности, на которых судьи оценивают качество результатов поиска. Для оценки каждого документа, возвращаемого в ответ на запрос, можно использовать как двоичную (релевантную/нерелевантную), так и многоуровневую (например, релевантность от 0 до 5) шкалу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности. Например, в запросе «марс» есть двусмысленность: судья не знает, ищет ли пользователь планету Марс , марсианскую шоколадку, певца Бруно Марса или римское божество Марс .

Точность

[ редактировать ]

Точность — это доля полученных документов, которая соответствует информационным потребностям пользователя.

В бинарной классификации точность аналогична положительной прогностической ценности . Precision учитывает все полученные документы. Его также можно оценить, учитывая только самые верхние результаты, возвращаемые системой с помощью Precision@k .

Обратите внимание, что значение и использование слова «точность» в области поиска информации отличаются от определения точности и точности в других отраслях науки и статистики .

Отзывать

[ редактировать ]

Отзыв — это доля документов, имеющих отношение к запросу, которые были успешно получены.

В бинарной классификации воспоминания часто называют чувствительностью . Таким образом, это можно рассматривать как вероятность того, что соответствующий документ будет получен по запросу .

Достичь 100% отзыва тривиально, возвращая все документы в ответ на любой запрос. Следовательно, одного лишь отзыва недостаточно, необходимо также измерить количество нерелевантных документов, например, путем расчета точности.

Выпадать

[ редактировать ]

Доля извлеченных нерелевантных документов из всех доступных нерелевантных документов:

В бинарной классификации выпадение противоположно специфичности и равно . Ее можно рассматривать как вероятность того, что по запросу будет получен нерелевантный документ .

Достичь выпадения в 0% тривиально, возвращая ноль документов в ответ на любой запрос.

F-оценка / F-мера

[ редактировать ]

Средневзвешенное гармоническое значение точности и полноты, традиционная F-мера или сбалансированная F-оценка:

Это также известно как мерой, потому что полнота и точность имеют одинаковый вес.

Общая формула неотрицательного действительного числа является:

Двумя другими часто используемыми F-мерами являются мера, вес которой в два раза превышает точность, а мера, которая оценивает точность в два раза больше, чем полноту.

F-мера была выведена ван Рейсбергеном (1979) так, что "измеряет эффективность поиска по отношению к пользователю, который прикрепляет запомнить в раз важнее, чем точность». Он основан на показателе эффективности ван Рейсбергена. . Их отношения таковы:

где

Поскольку F-мера объединяет информацию о точности и полноте, это способ представить общую производительность без представления двух чисел.

Средняя точность

[ редактировать ]

Точность и полнота — это однозначные метрики, основанные на всем списке документов, возвращаемых системой. Для систем, возвращающих ранжированную последовательность документов, желательно также учитывать порядок представления возвращаемых документов. Вычислив точность и полноту в каждой позиции в ранжированной последовательности документов, можно построить кривую точности и полноты, отображающую точность как функция воспоминания . Средняя точность вычисляет среднее значение за интервал от к : [7]

Это область под кривой точности отзыва.На практике этот интеграл заменяется конечной суммой по каждой позиции в ранжированной последовательности документов:

где — ранг в последовательности извлеченных документов, количество полученных документов, это точность на отсечке в списке и это изменение отзыва предметов к . [7]

Эта конечная сумма эквивалентна:

где – индикаторная функция, равная 1, если предмет ранга является соответствующим документом, в противном случае — нулем. [8] Обратите внимание, что среднее значение превышает релевантные документы в топ-k извлеченных документах, а релевантные неполученные документы получают нулевую оценку точности.

Некоторые авторы предпочитают интерполировать функция для уменьшения влияния «покачиваний» на кривой. [9] [10] Например, задача классов визуальных объектов PASCAL (тест для обнаружения объектов компьютерного зрения) до 2010 года. [11] вычислил среднюю точность путем усреднения точности по набору равномерно расположенных уровней отзыва {0, 0,1, 0,2,... 1,0}: [9] [10]

где — это интерполированная точность, которая обеспечивает максимальную точность для всех вызовов, превышающих :

.

Альтернативой является получение аналитического функция, предполагая конкретное параметрическое распределение для основных значений решения. Например, можно получить бинормальную кривую точности-памяти, если предположить, что значения решений в обоих классах следуют распределению Гаусса. [12]

Минимально достижимая AveP для данной задачи классификации определяется следующим образом:

[13]

Точность при k

[ редактировать ]

Для современного поиска информации (в масштабе Интернета) отзыв больше не является значимым показателем, поскольку многие запросы содержат тысячи соответствующих документов, и лишь немногие пользователи будут заинтересованы в их чтении. Точность в k документах (P@k) по-прежнему является полезным показателем (например, P@10 или «Точность в 10» соответствует количеству релевантных результатов среди первых 10 извлеченных документов), но не учитывает позиции соответствующие документы среди лучших k. [14] Еще одним недостатком является то, что по запросу с меньшим количеством релевантных результатов, чем k, даже идеальная система будет иметь оценку меньше 1. [15] Проще оценивать вручную, поскольку необходимо изучить только первые k результатов, чтобы определить, релевантны они или нет.

R-точность

[ редактировать ]

R-точность требует знания всех документов, имеющих отношение к запросу. Количество соответствующих документов, , используется в качестве порогового значения для расчета и варьируется от запроса к запросу. Например, если в корпусе 15 документов, относящихся к «красному» (R = 15), R-точность для «красного» просматривает 15 первых возвращенных документов и подсчитывает количество релевантных. превращает это в долю релевантности: . [16]

Обратите внимание, что R-Precision эквивалентна точности как на -я позиция (P@ ) и отзыв в -я позиция. [15]

Эмпирически этот показатель часто сильно коррелирует со средней средней точностью. [15]

Средняя средняя точность

[ редактировать ]

Средняя средняя точность (MAP) для набора запросов — это среднее значение средних показателей точности для каждого запроса.

где Q — количество запросов.

Дисконтированная совокупная прибыль

[ редактировать ]

DCG использует градуированную шкалу релевантности документов из набора результатов, чтобы оценить полезность или выгоду документа на основе его положения в списке результатов. Идея DCG заключается в том, что высокорелевантные документы, находящиеся ниже в списке результатов поиска, должны наказываться, поскольку значение градационной релевантности уменьшается логарифмически пропорционально положению результата.

DCG накапливается на определенной позиции ранга. определяется как:

Поскольку размер набора результатов может различаться в зависимости от разных запросов или систем, для сравнения производительности нормализованная версия DCG использует идеальный DCG. С этой целью он сортирует документы списка результатов по релевантности, создавая идеальную DCG в позиции p ( ), что нормализует оценку:

Значения nDCG для всех запросов можно усреднить, чтобы получить оценку средней производительности алгоритма ранжирования. Обратите внимание, что в идеальном алгоритме ранжирования будет таким же, как производя nDCG 1,0. Все вычисления nDCG тогда представляют собой относительные значения в интервале от 0,0 до 1,0 и поэтому сопоставимы между запросами.

Другие меры

[ редактировать ]

Визуализация

[ редактировать ]

Визуализация производительности поиска информации включает в себя:

Нерелевантные меры

[ редактировать ]

Запросов за раз

[ редактировать ]

Измерение количества запросов, выполняемых в поисковой системе за (месяц/день/час/минуту/секунду), позволяет отслеживать использование поисковой системы. Его можно использовать для диагностики, чтобы указать на неожиданный всплеск запросов, или просто в качестве базового уровня при сравнении с другими показателями, такими как задержка запроса. Например, резкий рост трафика запросов можно использовать для объяснения резкого увеличения задержки запросов.

См. также

[ редактировать ]
  1. ^ Картеретт, Бен; Вурхис, Эллен М. (2011), Лупу, Михай; Майер, Катя; Тейт, Джон; Трипп, Энтони Дж. (ред.), «Обзор оценки информационного поиска» , «Текущие проблемы поиска патентной информации» , Берлин, Гейдельберг: Springer, стр. 69–85, doi : 10.1007/978-3-642-19231-9_3 , ISBN  978-3-642-19231-9 , получено 9 декабря 2022 г.
  2. ^ Клаф, П.; Сандерсон, М. (15 июня 2013 г.). «Оценка производительности информационно-поисковых систем с использованием тестовых коллекций» . Информационные исследования . Проверено 9 декабря 2022 г.
  3. ^ Карлгрен, Юсси (2019). «Принятие эталонов систематической оценки в оперативных условиях» (PDF) . Информационный поиск в меняющемся мире . Проверено 27 июня 2022 г.
  4. ^ Jump up to: а б Харман, Донна (2011). Информационно-поисковая оценка . Обобщающие лекции по информационным концепциям, поиску и услугам. Чам, Швейцария: Springer. дои : 10.1007/978-3-031-02276-0 . ISBN  978-3-031-02276-0 . S2CID   207318946 .
  5. ^ Сандерсон, Марк (2010). «Оценка информационно-поисковых систем на основе набора тестов» . Основы и тенденции в области информационного поиска . 4 (4): 247–375. дои : 10.1561/1500000009 . ISSN   1554-0669 .
  6. ^ Словарь Американской ассоциации маркетинга . [1] Проверено 2 ноября 2012 г. Совет по стандартам подотчетности в маркетинге (MASB) одобряет это определение в рамках своего текущего проекта «Общий язык в маркетинге» . Архивировано 5 апреля 2019 г. на Wayback Machine .
  7. ^ Jump up to: а б Чжу, Му (2004). «Напоминание, точность и средняя точность» (PDF) . Архивировано из оригинала (PDF) 4 мая 2011 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  8. ^ Терпин, Эндрю; Шолер, Фальк (2006). «Производительность пользователя и показатели точности для простых задач поиска» . Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . Нью-Йорк, штат Нью-Йорк: ACM. стр. 11–18 . CiteSeerX   10.1.1.533.4100 . дои : 10.1145/1148170.1148176 . ISBN  978-1-59593-369-0 . S2CID   9810253 .
  9. ^ Jump up to: а б Эверингем, Марк; Ван Гул, Люк; Уильямс, Кристофер К.И.; Винн, Джон; Зиссерман, Эндрю (июнь 2010 г.). «Проблема классов визуальных объектов (VOC) PASCAL» (PDF) . Международный журнал компьютерного зрения . 88 (2): 303–338. дои : 10.1007/s11263-009-0275-4 . hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID   4246903 . Архивировано из оригинала (PDF) 20 ноября 2011 г. Проверено 29 августа 2011 г.
  10. ^ Jump up to: а б Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (2008). Введение в поиск информации . Издательство Кембриджского университета.
  11. ^ «Комплект разработки классов визуальных объектов PASCAL Challenge 2012 (VOC2012)» . хост.robots.ox.ac.uk . Проверено 23 марта 2019 г.
  12. ^ К. Х. Бродерсен, К. С. Онг, К. Е. Стефан, Дж. М. Буманн (2010). Бинормальное предположение о кривых точного отзыва. Архивировано 8 декабря 2012 года в Wayback Machine . Материалы 20-й Международной конференции по распознаванию образов , 4263-4266.
  13. ^ Бойд К., Дэвис Дж., Пейдж Д. и Коста В.С. (2012). Недостижимая область в пространстве точного отзыва и ее влияние на эмпирическую оценку. Материалы... Международной конференции по машинному обучению. Международная конференция по машинному обучению, 2012, 349 .
  14. ^ Калерво, Ярвелин (2017). «Методы оценки IR для поиска особо важных документов» (PDF) . Форум ACM SIGIR . 51, 2 : 243–250.
  15. ^ Jump up to: а б с Кристофер Д. Мэннинг; Прабхакар Рагхаван и Хинрих Шютце (2009). «Глава 8: Оценка при поиске информации» (PDF) . Проверено 14 июня 2015 г. Часть введения в поиск информации [2]
  16. ^ Jump up to: а б с д и http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf [ пустой URL PDF ]
  17. ^ К. Лиома; Дж. Г. Симонсен; Б. Ларсен (2017). «Меры оценки релевантности и достоверности в рейтинговых списках» (PDF) . Материалы Международной конференции ACM SIGIR по теории поиска информации , 91-98.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c28ac07c2f3f74523dd27a89aeaf575b__1717618020
URL1:https://arc.ask3.ru/arc/aa/c2/5b/c28ac07c2f3f74523dd27a89aeaf575b.html
Заголовок, (Title) документа по адресу, URL1:
Evaluation measures (information retrieval) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)