Оценка Брайера
Оценка Брайера — это строго правильная функция оценки или строго правильное правило оценки , которая измеряет точность вероятностных прогнозов . Для одномерных прогнозов это строго эквивалентно среднеквадратичной ошибке применительно к предсказанным вероятностям.
Оценка Брайера применима к задачам, в которых прогнозы должны присваивать вероятности набору взаимоисключающих дискретных результатов или классов. Набор возможных результатов может быть бинарным или категориальным по своей природе, и вероятности, присвоенные этому набору результатов, должны в сумме равняться единице (где каждая отдельная вероятность находится в диапазоне от 0 до 1). Он был предложен Гленном В. Брайером в 1950 году. [1]
Показатель Брайера можно рассматривать как функцию стоимости . Точнее, по всем пунктам в наборе из N прогнозов показатель Брайера измеряет среднеквадратическую разницу между:
- Прогнозируемая вероятность, присвоенная возможным результатам для пункта i
- Фактический результат
Следовательно, чем ниже оценка Брайера для набора прогнозов, тем лучше прогнозы откалиброваны. Обратите внимание, что показатель Брайера в его наиболее распространенной формулировке принимает значение от нуля до единицы, поскольку это квадрат наибольшей возможной разницы между прогнозируемой вероятностью (которая должна быть между нулем и единицей) и фактическим результатом (который может принимать значения только 0 или 1). В исходной (1950 г.) формулировке шкалы Брайера диапазон удвоен: от нуля до двух.
Оценка Брайера подходит для бинарных и категориальных результатов, которые могут быть структурированы как истинные или ложные, но не подходит для порядковых переменных, которые могут принимать три или более значений.
Определение
[ редактировать ]Наиболее распространенная формулировка шкалы Брайера:
в котором это вероятность, которая была предсказана, фактический результат события в конкретном случае ( если этого не произойдет и если это произойдет) и количество экземпляров прогнозирования. По сути, это среднеквадратическая ошибка прогноза. Эта формулировка чаще всего используется для бинарных событий (например, «дождь» или «нет дождя»). Приведенное выше уравнение является правильным правилом подсчета очков только для бинарных событий; если необходимо оценить прогноз по нескольким категориям, следует использовать исходное определение, данное Брайером ниже.
Пример
[ редактировать ]Предположим, что кто-то прогнозирует вероятность что в данный день пойдет дождь. Тогда оценка Брайера рассчитывается следующим образом:
- Если прогноз 100%( = 1) и идет дождь, тогда оценка Брайера равна 0, это лучший достижимый результат.
- Если прогноз составляет 100% и дождя нет, то оценка Брайера равна 1, это худший достижимый балл.
- Если прогноз 70%( = 0,70) и идет дождь, то показатель Брайера равен (0,70−1). 2 = 0.09.
- Напротив, если прогноз составляет 70% ( = 0,70) и дождя нет, то показатель Брайера равен (0,70−0). 2 = 0.49.
- Аналогично, если прогноз составляет 30% ( = 0,30) и идет дождь, то показатель Брайера равен (0,30−1). 2 = 0.49.
- Если прогноз 50%( = 0,50), то показатель Брайера равен (0,50−1) 2 = (0.50−0) 2 = 0,25, независимо от того, идет ли дождь.
Исходное определение Брайера
[ редактировать ]Хотя приведенная выше формулировка является наиболее широко используемой, оригинальное определение Брайера [1] применима к прогнозам по нескольким категориям, а также остается подходящим правилом оценки, в то время как двоичная форма (используемая в примерах выше) подходит только для двоичных событий. Для бинарных прогнозов первоначальная формулировка «оценки вероятности» Брайера имеет вдвое большее значение, чем оценка, известная в настоящее время как оценка Брайера.
В котором - количество возможных классов, в которые может попасть событие, и общее количество экземпляров всех классов. прогнозируемая вероятность для класса является если это так -th класс в экземпляре ; , в противном случае. Для случая Дождь/Без дождя, , а для прогноза Холодный/Нормальный/Теплый, .
Разложения
[ редактировать ]Существует несколько разложений оценки Брайера, которые дают более глубокое понимание поведения бинарного классификатора.
3-компонентное разложение
[ редактировать ]Показатель Брайера можно разложить на три дополнительных компонента: неопределенность, надежность и разрешение. (Мерфи, 1973) [2]
Каждый из этих компонентов можно дополнительно разложить по количеству возможных классов, в которые может попасть событие. Злоупотребление знаком равенства:
С общее количество выпущенных прогнозов, количество выпущенных уникальных прогнозов, наблюдаемая климатологическая базовая скорость возникновения события, количество прогнозов с одной и той же категорией вероятности и наблюдаемая частота с учетом прогнозов вероятности . Жирным шрифтом в приведенной выше формуле обозначены векторы, что является еще одним способом обозначения исходного определения оценки и ее разложения по числу возможных классов, в которые может попасть событие. Например, вероятность дождя в 70% и отсутствие дождя обозначаются как и соответственно. Такие операции, как возведение в квадрат и умножение этих векторов, считаются покомпонентными. Тогда показатель Брайера представляет собой сумму результирующего вектора в правой части.
Надежность
[ редактировать ]Термин надежности измеряет, насколько близки прогнозируемые вероятности к истинным вероятностям с учетом этого прогноза. Надежность определяется в противоположном направлении по сравнению с английским языком . Если надежность равна 0, прогноз абсолютно надежен. Например, если мы сгруппируем все случаи прогноза, в которых прогнозировалась вероятность дождя 80%, мы получим идеальную надежность только в том случае, если дождь шел 4 из 5 раз после выпуска такого прогноза.
Разрешение
[ редактировать ]Член разрешения измеряет, насколько условные вероятности, данные различными прогнозами, отличаются от среднего климатического значения. Чем выше этот термин, тем лучше. В худшем случае, когда климатическая вероятность всегда прогнозируется, разрешение равно нулю. В лучшем случае, когда условные вероятности равны нулю и единице, разрешение равно неопределенности.
Неопределенность
[ редактировать ]Термин неопределенности измеряет присущую неопределенность результатов события. Для бинарных событий оно является максимальным, когда каждый результат происходит в 50% случаев, и минимальным (нулевым), если результат происходит всегда или никогда не происходит.
Двухкомпонентное разложение
[ редактировать ]Альтернативное (и связанное с ним) разложение генерирует два члена вместо трех.
Первый термин известен как калибровка (и может использоваться как мера калибровки, см. статистическую калибровку ) и равен надежности. Второй член известен как уточнение и представляет собой совокупность разрешения и неопределенности и связан с областью под кривой ROC .
Показатель Брайера и разложение CAL + REF могут быть представлены графически с помощью так называемых кривых Брайера. [3] где ожидаемые потери показаны для каждого рабочего режима. Это делает показатель Брайера мерой совокупной производительности при равномерном распределении классовой асимметрии. [4]
Оценка навыков Брайера (BSS)
[ редактировать ]Оценка навыка для данной базовой оценки представляет собой смещенный и (отрицательно) масштабированный вариант базовой оценки, так что значение оценки навыка, равное нулю, означает, что оценка для прогнозов просто так же хороша, как и оценка набора базовых или эталонных показателей. или прогнозы по умолчанию, тогда как значение оценки навыка, равное единице (100%), представляет собой наилучшую возможную оценку. Значение оценки навыка меньше нуля означает, что производительность даже хуже, чем у базовых или эталонных прогнозов. Когда основной оценкой является оценка Брайера (BS), оценка навыков Брайера (BSS) рассчитывается как
где — это эталонная оценка Брайера или базовые прогнозы, которые мы стремимся улучшить. Хотя эталонные прогнозы в принципе могут быть даны с помощью любой ранее существовавшей модели, по умолчанию можно использовать наивную модель, которая предсказывает общую долю или частоту данного класса в оцениваемом наборе данных, как постоянную прогнозируемую вероятность этого класса. происходящее в каждом экземпляре набора данных. Эта базовая модель будет представлять собой модель «без навыков», которую можно улучшить. Оценки навыков берут свое начало в литературе по метеорологическим прогнозам, где наивные эталонные прогнозы по умолчанию называются прогнозами «климатологии в выборке», где климатология означает долгосрочное или общее среднее значение прогнозов погоды, а средние значения в выборке, рассчитанные на основе настоящего оцениваемый набор данных. [5] [6] В этом случае по умолчанию для бинарной (двухклассовой) классификации эталонная оценка Брайера определяется как (с использованием обозначения первого уравнения этой статьи в верхней части раздела «Определение»):
где — это просто средний фактический результат, т.е. общая доля истинного класса 1 в наборе данных:
При показателе Брайера чем ниже, тем лучше (это функция потерь), где 0 — наилучший возможный балл. Но с показателем навыка Брайера, чем выше, тем лучше: 1 (100%) — лучший возможный балл.
Показатель навыков Брайера может быть более интерпретируемым, чем показатель Брайера, поскольку BSS — это просто процентное улучшение BS по сравнению с эталонной моделью, а отрицательный BSS означает, что ваши дела даже хуже, чем в эталонной модели, что может быть неочевидно из глядя на саму оценку Брайера. Однако обычно не следует ожидать BSS, близкого к 100%, поскольку для этого потребуется, чтобы каждое предсказание вероятности было близко к 0 или 1 (и, конечно, было правильным).
Даже если оценка Брайера является строго правильным правилом оценки , BSS не является строго правильным: действительно, оценки навыков, как правило, неправильны, даже если лежащее в ее основе правило оценки является правильным. [7] Тем не менее, Мерфи (1973) [8] доказал, что BSS асимптотически правильна при большом количестве выборок.
Вы могли заметить, что BSS классификации (оценки вероятности) соответствует ее BS, как коэффициент детерминации регрессии ( ) соответствует его среднеквадратической ошибке (MSE).
Недостатки
[ редактировать ]Оценка Брайера становится неадекватной для очень редких (или очень частых) событий, поскольку она недостаточно различает небольшие изменения в прогнозе, которые являются значимыми для редких событий. [9] Уилкс (2010) обнаружил, что «[Q]довольно большиеразмеры выборки, т. е. n > 1000, необходимы для прогнозирования относительно редких событий с помощью более высокого уровня квалификации, тогда как для прогнозирования обычных событий с низким уровнем квалификации необходимы лишь весьма скромные размеры выборки». [10]
См. также
[ редактировать ]Дальнейшее чтение
[ редактировать ]- Брайер, Гленн В. (1950). «Проверка прогнозов, выраженных в терминах вероятности» . Ежемесячный обзор погоды . 78 (1): 1–3. Бибкод : 1950MWRv...78....1B . doi : 10.1175/1520-0493(1950)078<0001:VOFEIT>2.0.CO;2 . S2CID 122906757 .
- Дж. Скотт Армстронг, Принципы прогнозирования .
- Словарь метеорологии AMS
- Композиция партитуры Брайера: мини-урок
- Чикко Д.; Уорренс М.Дж.; Юрман Г. (2021). «Коэффициент корреляции Мэтьюза (MCC) более информативен, чем показатель Каппы и Брайера Коэна при оценке бинарной классификации» . Доступ IEEE . 9 : 78368–78381. doi : 10.1109/access.2021.3084050 . hdl : 10281/430460 . S2CID 235308708 .
Примечания
[ редактировать ]- ^ Jump up to: а б Брайер (1950). «Проверка прогнозов, выраженных в терминах вероятности» (PDF) . Ежемесячный обзор погоды . 78 (1): 1–3. Бибкод : 1950MWRv...78....1B . doi : 10.1175/1520-0493(1950)078<0001:vofeit>2.0.co;2 . S2CID 122906757 . Архивировано из оригинала (PDF) 23 октября 2017 г.
- ^ Мерфи, АХ (1973). «Новое векторное разбиение оценки вероятности» . Журнал прикладной метеорологии . 12 (4): 595–600. Бибкод : 1973JApMe..12..595M . doi : 10.1175/1520-0450(1973)012<0595:ANVPOT>2.0.CO;2 .
- ^ Эрнандес-Оралло, Дж.; Флах, Пенсильвания; Ферри, К. (2011). «Кривые Брайера: новая стоимостная визуализация производительности классификатора» (PDF) . Материалы 28-й Международной конференции по машинному обучению (ICML-11) . стр. 585–592.
- ^ Эрнандес-Оралло, Дж.; Флах, Пенсильвания; Ферри, К. (2012). «Единое представление показателей производительности: преобразование выбора порога в ожидаемую потерю классификации» (PDF) . Журнал исследований машинного обучения . 13 : 2813–2869.
- ^ Разложение оценки Брайера с поправкой на предвзятость. (Примечания и переписка.) К. Т. Ферро и Т. Э. Фрикер в Ежеквартальном журнале Королевского метеорологического общества , том 138, выпуск 668, октябрь 2012 г., часть A, страницы 1954–1960 гг . [1]
- ^ «Численный прогноз погоды: Система ансамблевого прогнозирования ближнего действия MOGREPS: Отчет о проверке: Испытательная работа MOGREPS: январь 2006 г. - март 2007 г. Технический отчет по прогнозным исследованиям № 503». Нил Боулер, Мари Дандо, Сара Бир и Кен Милн [2]
- ^ Гнейтинг, Тильманн; Рафтери, Адриан Э. (2007). «Строго правильные правила подсчета очков, прогнозирование и оценка» (PDF) . Журнал Американской статистической ассоциации . 102 (447): 359–378. дои : 10.1198/016214506000001437 . S2CID 1878582 .
- ^ Мерфи, AH (1973). «Оценки хеджирования и навыков для вероятностных прогнозов». Журнал прикладной метеорологии . 12 : 215–223.
- ^ Риккардо Бенедетти (01 января 2010 г.). «Правила подсчета очков при проверке прогнозов» . Ежемесячный обзор погоды . 138 (1): 203–211. Бибкод : 2010MWRv..138..203B . дои : 10.1175/2009MWR2945.1 .
- ^ Уилкс, Д.С. (2010). «Выборочные распределения оценки Брайера и оценки навыков Брайера в зависимости от серийной зависимости». Ежеквартальный журнал Королевского метеорологического общества . 136 (1): 2109–2118. Бибкод : 2010QJRMS.136.2109W . дои : 10.1002/qj.709 . S2CID 121504347 .