Меры оценки (поиск информации)

Меры оценки для системы информационного поиска (IR) позволяют оценить, насколько хорошо индекс, поисковая система или база данных возвращают результаты из набора ресурсов, которые удовлетворяют запросу пользователя. Поэтому они имеют основополагающее значение для успеха информационных систем и цифровых платформ.

Наиболее важным фактором в определении эффективности системы для пользователей является общая релевантность результатов, полученных в ответ на запрос. ^[1] Успех системы IR можно оценивать по ряду критериев, включая актуальность, скорость, удовлетворенность пользователей, удобство использования, эффективность и надежность. ^[2] Меры оценки могут быть классифицированы по-разному, включая оффлайн или онлайн, на основе пользователей или систем, и включают такие методы, как наблюдаемое поведение пользователей, наборы тестов, точность и полнота, а также оценки из подготовленных наборов эталонных тестов.

Оценка системы поиска информации должна также включать проверку используемых показателей, т.е. оценку того, насколько хорошо они измеряют то, для чего предназначены, и насколько хорошо система соответствует предполагаемому варианту использования. ^[3] Измерения обычно используются в двух случаях: онлайн-экспериментирование, при котором оценивается взаимодействие пользователей с поисковой системой, и офлайн-оценка, при которой измеряется эффективность системы поиска информации на статической автономной коллекции.

Предыстория [ править ]

Методы индексирования и классификации, помогающие в поиске информации, имеют долгую историю, восходящую к самым ранним библиотекам и коллекциям, однако систематическая оценка их эффективности началась всерьез в 1950-х годах, когда быстрое расширение исследовательской деятельности в армии, правительстве и образовании, а также введение компьютеризированные каталоги. В то время действовало множество различных систем индексации, классификации и каталогизации, производство которых было дорогостоящим, и было неясно, какая из них наиболее эффективна. ^[4]

Сирил Клевердон , библиотекарь Колледжа аэронавтики в Крэнфилде, Англия, начал серию экспериментов с методами индексирования и поиска печатных материалов в рамках так называемой парадигмы Крэнфилда или тестов Крэнфилда, которые на многие годы установили стандарт для показателей оценки IR. ^[4]Клевердон разработал тест под названием «поиск известных элементов», чтобы проверить, возвращает ли система IR документы, которые, как известно, являются релевантными или правильными для данного поиска. Эксперименты Клевердона установили ряд ключевых аспектов, необходимых для оценки IR: набор тестов, набор запросов и набор заранее определенных релевантных элементов, которые в совокупности будут определять точность и отзыв.

Подход Клевердона лег в основу успешной серии конференций по текстовому поиску , которая началась в 1992 году.

Приложения [ править ]

Оценка IR-систем имеет решающее значение для успеха любой поисковой системы, включая поиск в Интернете, на веб-сайтах, в базах данных и библиотечных каталогах. Оценочные меры используются в исследованиях поведения информации , тестировании удобства использования , бизнес-затратах и оценках эффективности. Измерение эффективности систем IR было основным направлением исследований IR, основанных на наборах тестов в сочетании с мерами оценки. ^[5] Был организован ряд научных конференций, посвященных конкретно мерам оценки, включая Конференцию по текстовому поиску (TREC), Конференцию и лаборатории Форума по оценке (CLEF) и NTCIR.

Онлайн-меры [ править ]

Онлайн-метрики обычно создаются на основе журналов поиска. Метрики часто используются для определения успеха A/B-теста .

Уровень прерывания сеансов [ править ]

Коэффициент прерывания сеансов – это процент сеансов поиска, которые не привели к клику.

Рейтинг кликов [ изменить ]

Рейтинг кликов (CTR) — это соотношение пользователей, которые нажимают на определенную ссылку, к общему числу пользователей, просматривающих страницу, электронное письмо или рекламу. Он обычно используется для измерения успеха рекламной кампании в Интернете для конкретного веб-сайта, а также эффективности кампаний по электронной почте. ^[6]

Уровень успешности сеанса [ править ]

Показатель успешности сеансов измеряет долю пользовательских сеансов, которые привели к успеху. Определение «успеха» часто зависит от контекста, но для поиска успешный результат часто измеряется с использованием времени пребывания в качестве основного фактора наряду с вторичным взаимодействием с пользователем, например, пользователь, копирующий URL-адрес результата, считается успешным результатом, как и копирование. /вставка из фрагмента.

Нулевой результат [ править ]

Доля нулевых результатов ( ZRR ) — это доля страниц результатов поисковой системы (SERP), которые вернулись с нулевыми результатами. Метрика либо указывает на проблему с отзывом , либо на то, что искомая информация отсутствует в индексе.

Офлайн-метрики [ править ]

Офлайн-метрики обычно создаются на основе оценок релевантности, на которых судьи оценивают качество результатов поиска. Для оценки каждого документа, возвращаемого в ответ на запрос, можно использовать как двоичную (релевантную/нерелевантную), так и многоуровневую (например, релевантность от 0 до 5) шкалу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности. Например, в запросе «марс» есть двусмысленность: судья не знает, ищет ли пользователь планету Марс , марсианскую шоколадку, певца Бруно Марса или римское божество Марс .

Точность [ править ]

Точность — это доля полученных документов, которая соответствует информационным потребностям пользователя.

{\mbox{precision}}={\frac {|\{{\mbox{relevant documents}}\}\cap \{{\mbox{retrieved documents}}\}|}{|\{{\mbox{retrieved documents}}\}|}}

В бинарной классификации точность аналогична положительной прогностической ценности . Precision учитывает все полученные документы. Его также можно оценить, учитывая только самые верхние результаты, возвращаемые системой с помощью Precision@k .

Обратите внимание, что значение и использование слова «точность» в области поиска информации отличаются от определения точности и точности в других отраслях науки и статистики .

Напомним [ править ]

Отзыв — это доля документов, имеющих отношение к запросу, которые были успешно получены.

{\mbox{recall}}={\frac {|\{{\mbox{relevant documents}}\}\cap \{{\mbox{retrieved documents}}\}|}{|\{{\mbox{relevant documents}}\}|}}

В бинарной классификации воспоминания часто называют чувствительностью . Таким образом, это можно рассматривать как вероятность того, что соответствующий документ будет получен по запросу .

Достичь 100% отзыва тривиально, возвращая все документы в ответ на любой запрос. Следовательно, одного лишь отзыва недостаточно, необходимо также измерить количество нерелевантных документов, например, путем расчета точности.

Выпадение [ править ]

Доля извлеченных нерелевантных документов из всех доступных нерелевантных документов:

{\mbox{fall-out}}={\frac {|\{{\mbox{non-relevant documents}}\}\cap \{{\mbox{retrieved documents}}\}|}{|\{{\mbox{non-relevant documents}}\}|}}

В бинарной классификации выпадение противоположно специфичности и равно $(1-{\mbox{specificity}})$ . Ее можно рассматривать как вероятность того, что по запросу будет получен нерелевантный документ .

Достичь выпадения в 0% тривиально, возвращая ноль документов в ответ на любой запрос.

F-оценка / F-мера [ править ]

Средневзвешенное гармоническое значение точности и полноты, традиционная F-мера или сбалансированная F-оценка:

F={\frac {2\cdot \mathrm {precision} \cdot \mathrm {recall} }{(\mathrm {precision} +\mathrm {recall} )}}

Это также известно как $F_{1}$ мерой, потому что полнота и точность имеют одинаковый вес.

Общая формула неотрицательного действительного числа $\beta$ является:

F_{\beta }={\frac {(1+\beta ^{2})\cdot (\mathrm {precision} \cdot \mathrm {recall} )}{(\beta ^{2}\cdot \mathrm {precision} +\mathrm {recall} )}}\,

Двумя другими часто используемыми F-мерами являются $F_{2}$ мера, вес которой в два раза превышает точность, а $F_{0.5}$ мера, которая оценивает точность в два раза больше, чем полноту.

F-мера была выведена ван Рейсбергеном (1979) так, что $F_{\beta }$ "измеряет эффективность поиска по отношению к пользователю, который прикрепляет $\beta$ запомнить в раз важнее, чем точность». Он основан на показателе эффективности ван Рейсбергена. $E=1-{\frac {1}{{\frac {\alpha }{P}}+{\frac {1-\alpha }{R}}}}$ . Их отношения таковы:

F_{\beta }=1-E

где

\alpha ={\frac {1}{1+\beta ^{2}}}

Поскольку F-мера объединяет информацию как о точности, так и об полноте, это способ представить общую производительность без представления двух чисел.

Средняя точность [ править ]

Точность и полнота — это однозначные метрики, основанные на всем списке документов, возвращаемых системой. Для систем, возвращающих ранжированную последовательность документов, желательно также учитывать порядок представления возвращаемых документов. Вычислив точность и полноту в каждой позиции в ранжированной последовательности документов, можно построить кривую точности и полноты, отображающую точность $p(r)$ как функция воспоминания $r$ . Средняя точность вычисляет среднее значение $p(r)$ за интервал от $r=0$ к $r=1$ : ^[7]

\operatorname {AveP} =\int _{0}^{1}p(r)dr

Это область под кривой точности отзыва. На практике этот интеграл заменяется конечной суммой по каждой позиции в ранжированной последовательности документов:

\operatorname {AveP} =\sum _{k=1}^{n}P(k)\Delta r(k)

где $k$ — ранг в последовательности извлеченных документов, $n$ количество полученных документов, $P(k)$ это точность на отсечке $k$ в списке и $\Delta r(k)$ это изменение отзыва предметов $k-1$ к $k$ . ^[7]

Эта конечная сумма эквивалентна:

\operatorname {AveP} ={\frac {\sum _{k=1}^{n}P(k)\times \operatorname {rel} (k)}{\mbox{total number of relevant documents}}}\!

где $\operatorname {rel} (k)$ – индикаторная функция, равная 1, если предмет ранга $k$ является соответствующим документом, в противном случае — нулем. ^[8] Обратите внимание, что среднее значение превышает релевантные документы в топ-k извлеченных документах, а релевантные неполученные документы получают нулевую оценку точности.

Некоторые авторы предпочитают интерполировать $p(r)$ функция для уменьшения влияния «покачиваний» на кривой. ^[9]^[10] Например, задача классов визуальных объектов PASCAL (тест для обнаружения объектов компьютерного зрения) до 2010 года. ^[11] вычислил среднюю точность путем усреднения точности по набору равномерно расположенных уровней отзыва {0, 0,1, 0,2,... 1,0}: ^[9]^[10]

\operatorname {AveP} ={\frac {1}{11}}\sum _{r\in \{0,0.1,\ldots ,1.0\}}p_{\operatorname {interp} }(r)

где $p_{\operatorname {interp} }(r)$ — это интерполированная точность, которая обеспечивает максимальную точность для всех вызовов, превышающих $r$ :

p_{\operatorname {interp} }(r)=\operatorname {max} _{{\tilde {r}}:{\tilde {r}}\geq r}p({\tilde {r}})

.

Альтернативой является получение аналитического $p(r)$ функция, предполагая конкретное параметрическое распределение для основных значений решения. Например, можно получить бинормальную кривую точности-памяти, если предположить, что значения решений в обоих классах следуют распределению Гаусса. ^[12]

Минимально достижимая AveP для данной задачи классификации определяется следующим образом:

${\frac {1}{n_{pos}}}\sum _{k=1}^{n_{pos}}{\frac {k}{k+n_{neg}}}$ ^[13]

Точность при k [ править ]

Для современного поиска информации (в масштабе Интернета) отзыв больше не является значимым показателем, поскольку многие запросы содержат тысячи соответствующих документов, и лишь немногие пользователи будут заинтересованы в их прочтении. Точность в k документах (P@k) по-прежнему является полезным показателем (например, P@10 или «Точность в 10» соответствует количеству релевантных результатов среди первых 10 извлеченных документов), но не учитывает позиции соответствующие документы среди лучших k. ^[14] Еще одним недостатком является то, что по запросу с меньшим количеством релевантных результатов, чем k, даже идеальная система будет иметь оценку меньше 1. ^[15] Проще оценивать вручную, поскольку необходимо изучить только первые k результатов, чтобы определить, релевантны они или нет.

R-точность [ править ]

R-точность требует знания всех документов, имеющих отношение к запросу. Количество соответствующих документов, $R$ , используется в качестве порогового значения для вычислений и варьируется от запроса к запросу. Например, если в корпусе 15 документов, относящихся к «красному» (R = 15), R-точность для «красного» просматривает 15 первых возвращенных документов и подсчитывает количество релевантных. $r$ превращает это в долю релевантности: $r/R=r/15$ . ^[16]

Обратите внимание, что R-Precision эквивалентна точности как на $R$ -я позиция (P@ $R$ ) и отзыв в $R$ -я позиция. ^[15]

Эмпирически этот показатель часто сильно коррелирует со средней средней точностью. ^[15]

Средняя точность [ править ]

Средняя средняя точность (MAP) для набора запросов — это среднее значение средних показателей точности для каждого запроса.

\operatorname {MAP} ={\frac {\sum _{q=1}^{Q}\operatorname {AveP(q)} }{Q}}\!

где Q — количество запросов.

Дисконтированная прибыль совокупная

DCG использует градуированную шкалу релевантности документов из набора результатов, чтобы оценить полезность или выгоду документа на основе его положения в списке результатов. Предпосылка DCG заключается в том, что высокорелевантные документы, находящиеся ниже в списке результатов поиска, должны наказываться, поскольку значение оценочной релевантности уменьшается логарифмически пропорционально положению результата.

DCG накапливается на определенной позиции ранга. $p$ определяется как:

\mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}.

Поскольку размер набора результатов может различаться в зависимости от разных запросов или систем, для сравнения производительности нормализованная версия DCG использует идеальный DCG. С этой целью он сортирует документы списка результатов по релевантности, создавая идеальную DCG в позиции p ( $IDCG_{p}$ ), что нормализует оценку:

\mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG{p}}}.

Значения nDCG для всех запросов можно усреднить, чтобы получить оценку средней производительности алгоритма ранжирования. Обратите внимание, что в идеальном алгоритме ранжирования $DCG_{p}$ будет таким же, как $IDCG_{p}$ производя nDCG 1,0. Все вычисления nDCG тогда представляют собой относительные значения в интервале от 0,0 до 1,0 и поэтому сопоставимы между запросами.

Другие меры

Средний обратный ранг
bpref — основанная на суммировании мера того, сколько релевантных документов ранжируется перед нерелевантными документами. ^[16]
GMAP — среднее геометрическое средней точности (по теме). ^[16]
Меры, основанные на предельной релевантности и разнообразии документов - см. Релевантность (поиск информации) § Проблемы и альтернативы.
Меры релевантности и достоверности (для фейковых новостей в результатах поиска) ^[17]
Скорость попадания

Визуализация [ править ]

Визуализация производительности поиска информации включает в себя:

Графики, на которых отображается точность по одной оси и полнота по другой. ^[16]
Гистограммы средней точности по различным темам ^[16]
Рабочая характеристика приемника (кривая ROC)
Матрица путаницы

Нерелевантные меры [ править ]

Запросов за раз [ править ]

Измерение количества запросов, выполняемых в поисковой системе за (месяц/день/час/минуту/секунду), позволяет отслеживать использование поисковой системы. Его можно использовать для диагностики, чтобы указать на неожиданный всплеск запросов, или просто в качестве базового показателя при сравнении с другими показателями, такими как задержка запроса. Например, резкий рост трафика запросов можно использовать для объяснения резкого увеличения задержки запросов.

См. также [ править ]

Учимся ранжировать

Ссылки [ править ]

^ Картеретт, Бен; Вурхис, Эллен М. (2011), Лупу, Михай; Майер, Катя; Тейт, Джон; Трипп, Энтони Дж. (ред.), «Обзор оценки информационного поиска» , «Текущие проблемы поиска патентной информации» , Берлин, Гейдельберг: Springer, стр. 69–85, номер документа : 10.1007/978-3-642-19231-9_3 , ISBN 978-3-642-19231-9 , получено 9 декабря 2022 г.
^ Клаф, П.; Сандерсон, М. (15 июня 2013 г.). «Оценка производительности информационно-поисковых систем с использованием тестовых коллекций» . Информационные исследования . Проверено 9 декабря 2022 г.
^ Карлгрен, Юсси (2019). «Принятие эталонов систематической оценки в оперативных условиях» (PDF) . Информационный поиск в меняющемся мире . Проверено 27 июня 2022 г.
^ Перейти обратно: ^а ^б Харман, Донна (2011). Информационно-поисковая оценка . Обобщающие лекции по информационным концепциям, поиску и услугам. Чам, Швейцария: Springer. дои : 10.1007/978-3-031-02276-0 . ISBN 978-3-031-02276-0 . S2CID 207318946 .
^ Сандерсон, Марк (2010). «Оценка информационно-поисковых систем на основе набора тестов» . Основы и тенденции в области информационного поиска . 4 (4): 247–375. дои : 10.1561/1500000009 . ISSN 1554-0669 .
^ Американской ассоциации маркетинга Словарь . [1] Проверено 2 ноября 2012 г. Совет по стандартам подотчетности в маркетинге (MASB) одобряет это определение в рамках своего текущего проекта «Общий язык в маркетинге». Архивировано 5 апреля 2019 г. на Wayback Machine .
^ Перейти обратно: ^а ^б Чжу, Му (2004). «Напоминание, точность и средняя точность» (PDF) . Архивировано из оригинала (PDF) 4 мая 2011 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Терпин, Эндрю; Шолер, Фальк (2006). «Производительность пользователя и показатели точности для простых задач поиска» . Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . Нью-Йорк, штат Нью-Йорк: ACM. стр. 11–18 . CiteSeerX 10.1.1.533.4100 . дои : 10.1145/1148170.1148176 . ISBN 978-1-59593-369-0 . S2CID 9810253 .
^ Перейти обратно: ^а ^б Эверингем, Марк; Ван Гул, Люк; Уильямс, Кристофер К.И.; Винн, Джон; Зиссерман, Эндрю (июнь 2010 г.). «Задача классов визуальных объектов (VOC) PASCAL» (PDF) . Международный журнал компьютерного зрения . 88 (2): 303–338. дои : 10.1007/s11263-009-0275-4 . hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID 4246903 . Архивировано из оригинала (PDF) 20 ноября 2011 г. Проверено 29 августа 2011 г.
^ Перейти обратно: ^а ^б Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (2008). Введение в поиск информации . Издательство Кембриджского университета.
^ «Комплект разработки классов визуальных объектов PASCAL Challenge 2012 (VOC2012)» . хост.robots.ox.ac.uk . Проверено 23 марта 2019 г.
^ К. Х. Бродерсен, К. С. Онг, К. Е. Стефан, Дж. М. Буманн (2010). Бинормальное предположение о кривых точного отзыва. Архивировано 8 декабря 2012 года в Wayback Machine . Материалы 20-й Международной конференции по распознаванию образов , 4263-4266.
^ Бойд К., Дэвис Дж., Пейдж Д. и Коста В.С. (2012). Недостижимая область в пространстве точного отзыва и ее влияние на эмпирическую оценку. Материалы ... Международной конференции по машинному обучению. Международная конференция по машинному обучению, 2012, 349 .
^ Калерво, Ярвелин (2017). «Методы оценки IR для поиска особо важных документов» (PDF) . Форум ACM SIGIR . 51, 2 : 243–250.
^ Перейти обратно: ^а ^б ^с Кристофер Д. Мэннинг; Прабхакар Рагхаван и Хинрих Шютце (2009). «Глава 8: Оценка при поиске информации» (PDF) . Проверено 14 июня 2015 г. Часть введения в поиск информации [2]
^ Перейти обратно: ^а ^б ^с ^д ^Это http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf ^{[ пустой URL PDF ]}
^ К. Лиома; Дж. Г. Симонсен; Б. Ларсен (2017). «Меры оценки релевантности и достоверности в рейтинговых списках» (PDF) . Материалы Международной конференции ACM SIGIR по теории поиска информации , 91-98.

[1] Картеретт, Бен; Вурхис, Эллен М. (2011), Лупу, Михай; Майер, Катя; Тейт, Джон; Трипп, Энтони Дж. (ред.), «Обзор оценки информационного поиска» , «Текущие проблемы поиска патентной информации» , Берлин, Гейдельберг: Springer, стр. 69–85, номер документа : 10.1007/978-3-642-19231-9_3 , ISBN 978-3-642-19231-9 , получено 9 декабря 2022 г.

[2] Клаф, П.; Сандерсон, М. (15 июня 2013 г.). «Оценка производительности информационно-поисковых систем с использованием тестовых коллекций» . Информационные исследования . Проверено 9 декабря 2022 г.

[karlgren2019-3] Карлгрен, Юсси (2019). «Принятие эталонов систематической оценки в оперативных условиях» (PDF) . Информационный поиск в меняющемся мире . Проверено 27 июня 2022 г.

[:0-4] Перейти обратно: ^а ^б Харман, Донна (2011). Информационно-поисковая оценка . Обобщающие лекции по информационным концепциям, поиску и услугам. Чам, Швейцария: Springer. дои : 10.1007/978-3-031-02276-0 . ISBN 978-3-031-02276-0 . S2CID 207318946 .

[5] Сандерсон, Марк (2010). «Оценка информационно-поисковых систем на основе набора тестов» . Основы и тенденции в области информационного поиска . 4 (4): 247–375. дои : 10.1561/1500000009 . ISSN 1554-0669 .

[AMA-6] Американской ассоциации маркетинга Словарь . [1] Проверено 2 ноября 2012 г. Совет по стандартам подотчетности в маркетинге (MASB) одобряет это определение в рамках своего текущего проекта «Общий язык в маркетинге». Архивировано 5 апреля 2019 г. на Wayback Machine .

[zhu2004-7] Перейти обратно: ^а ^б Чжу, Му (2004). «Напоминание, точность и средняя точность» (PDF) . Архивировано из оригинала (PDF) 4 мая 2011 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[Turpin2006-8] Терпин, Эндрю; Шолер, Фальк (2006). «Производительность пользователя и показатели точности для простых задач поиска» . Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . Нью-Йорк, штат Нью-Йорк: ACM. стр. 11–18 . CiteSeerX 10.1.1.533.4100 . дои : 10.1145/1148170.1148176 . ISBN 978-1-59593-369-0 . S2CID 9810253 .

[voc2010-9] Перейти обратно: ^а ^б Эверингем, Марк; Ван Гул, Люк; Уильямс, Кристофер К.И.; Винн, Джон; Зиссерман, Эндрю (июнь 2010 г.). «Задача классов визуальных объектов (VOC) PASCAL» (PDF) . Международный журнал компьютерного зрения . 88 (2): 303–338. дои : 10.1007/s11263-009-0275-4 . hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID 4246903 . Архивировано из оригинала (PDF) 20 ноября 2011 г. Проверено 29 августа 2011 г.

[nlpbook-10] Перейти обратно: ^а ^б Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (2008). Введение в поиск информации . Издательство Кембриджского университета.

[11] «Комплект разработки классов визуальных объектов PASCAL Challenge 2012 (VOC2012)» . хост.robots.ox.ac.uk . Проверено 23 марта 2019 г.

[12] К. Х. Бродерсен, К. С. Онг, К. Е. Стефан, Дж. М. Буманн (2010). Бинормальное предположение о кривых точного отзыва. Архивировано 8 декабря 2012 года в Wayback Machine . Материалы 20-й Международной конференции по распознаванию образов , 4263-4266.

[13] Бойд К., Дэвис Дж., Пейдж Д. и Коста В.С. (2012). Недостижимая область в пространстве точного отзыва и ее влияние на эмпирическую оценку. Материалы ... Международной конференции по машинному обучению. Международная конференция по машинному обучению, 2012, 349 .

[14] Калерво, Ярвелин (2017). «Методы оценки IR для поиска особо важных документов» (PDF) . Форум ACM SIGIR . 51, 2 : 243–250.

[stanford-15] Перейти обратно: ^а ^б ^с Кристофер Д. Мэннинг; Прабхакар Рагхаван и Хинрих Шютце (2009). «Глава 8: Оценка при поиске информации» (PDF) . Проверено 14 июня 2015 г. Часть введения в поиск информации [2]

[trec15-16] Перейти обратно: ^а ^б ^с ^д ^Это http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf ^{[ пустой URL PDF ]}

[ictir17-17] К. Лиома; Дж. Г. Симонсен; Б. Ларсен (2017). «Меры оценки релевантности и достоверности в рейтинговых списках» (PDF) . Материалы Международной конференции ACM SIGIR по теории поиска информации , 91-98.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

v т Это машинного обучения Метрики оценки
Регрессия	МШЭ ЕСТЬ СМАПЕ КАРТА МАССЫ MSPE среднеквадратичное значение RMSE/RMSD р ² МДА БЕЗУМНЫЙ
Классификация	F-оценка П4 Точность Точность Отзывать Каппа МСС АУК РПЦ Чувствительность и специфичность Логарифмическая потеря
Кластеризация	Силуэт Индекс Калинского-Харабаша Дэвис-Булден Индекс Данна Статистика Хопкинса Индекс Жаккара Индекс Рэнда Мера сходства СМК СимХэш
Рейтинг	МРР НДЦГ АП
Компьютерное зрение	ПСНР ДА долг
НЛП	Растерянность СИНИЙ
Метрики, связанные с глубоким обучением	Начальный счет ДОВЕРЯТЬ
Рекомендательная система	Покрытие Внутрисписочное сходство
Сходство	Косинусное подобие Евклидово расстояние Коэффициент корреляции Пирсона
Матрица путаницы

Предыстория [ править ]

Приложения [ править ]

Онлайн-меры [ править ]

Уровень прерывания сеансов [ править ]

Рейтинг кликов [ изменить ]

Уровень успешности сеанса [ править ]

Нулевой результат [ править ]

Офлайн-метрики [ править ]

Точность [ править ]

Напомним [ править ]

Выпадение [ править ]

F-оценка / F-мера [ править ]

Средняя точность [ править ]

Точность при k [ править ]

R-точность [ править ]

Средняя точность [ править ]

Дисконтированная прибыль совокупная ​

Другие меры ​ ​

Визуализация [ править ]

Нерелевантные меры [ править ]

Запросов за раз [ править ]

См. также [ править ]

Ссылки [ править ]

Дисконтированная прибыль совокупная

Другие меры