Среднеквадратическая ошибка
В статистике среднеквадратическая ошибка ( MSE ) [1] или среднее квадратическое отклонение ( MSD ) средства оценки (процедуры оценки ненаблюдаемой величины) измеряет среднее значение квадратов ошибок , то есть среднеквадратическую разницу между расчетными значениями и фактическим значением. MSE – это функция риска , соответствующая ожидаемому значению квадрата потерь из-за ошибки . [2] Тот факт, что MSE почти всегда строго положителен (а не равен нулю), объясняется случайностью или тем, что оценщик не учитывает информацию , которая могла бы дать более точную оценку. [3] В машинном обучении , в частности, в минимизации эмпирического риска , MSE может относиться к эмпирическому риску (средней потере в наблюдаемом наборе данных) как к оценке истинной MSE (истинному риску: средней потере при фактическом распределении населения).
MSE является мерой качества оценщика. Поскольку оно получается из квадрата евклидова расстояния , оно всегда является положительным значением, которое уменьшается по мере приближения ошибки к нулю.
MSE является вторым моментом (о происхождении) ошибки и, таким образом, включает в себя как дисперсию оценщика (насколько широко разброс оценок от одной выборки данных к другой), так и его смещение (насколько далеко от среднего оценочного значения от истинного значения). [ нужна ссылка ] Для несмещенной оценки MSE — это дисперсия оценки. Как и дисперсия, MSE имеет те же единицы измерения, что и квадрат оцениваемой величины. По аналогии со стандартным отклонением извлечение квадратного корня из MSE дает среднеквадратическую ошибку или среднеквадратическое отклонение (RMSE или RMSD), которое имеет те же единицы, что и оцениваемая величина; для несмещенной оценки RMSE — это квадратный корень дисперсии , известный как стандартная ошибка .
Определение и основные свойства
[ редактировать ]MSE либо оценивает качество предиктора ( отображающей произвольные входные данные в выборку значений некоторой случайной величины ), либо оценщика ( т. е. математической функции, отображающей выборку данных в оценку параметра т. е. функции , совокупность , из которой взяты данные). В контексте прогнозирования понимание интервала прогнозирования также может быть полезным, поскольку оно определяет диапазон, в который с определенной вероятностью попадет будущее наблюдение. Определение MSE различается в зависимости от того, описывается ли он предиктором или оценщиком.
Предсказатель
[ редактировать ]Если вектор прогнозы генерируются на основе выборки точки данных по всем переменным и - вектор наблюдаемых значений прогнозируемой переменной, при этом будучи предсказанными значениями (например, из аппроксимации методом наименьших квадратов ), то MSE внутри выборки предиктора вычисляется как
Другими словами, MSE — это среднее значение квадратов ошибок . Это легко вычислимая величина для конкретной выборки (и, следовательно, она зависит от выборки).
В матричной записи
где является и это вектор-столбец.
MSE также можно вычислить по q точкам данных, которые не использовались при оценке модели либо потому, что они были сохранены для этой цели, либо потому, что эти данные были получены заново. В рамках этого процесса, известного как перекрестная проверка , MSE часто называют тестовым MSE . [4] и вычисляется как
Оценщик
[ редактировать ]MSE оценщика относительно неизвестного параметра определяется как [1]
Это определение зависит от неизвестного параметра, но MSE априори является свойством оценщика. MSE может быть функцией неизвестных параметров, и в этом случае любая оценка MSE, основанная на оценках этих параметров, будет функцией данных (и, следовательно, случайной величиной). Если оценщик выводится как выборочная статистика и используется для оценки некоторого параметра совокупности, тогда ожидание относится к выборочному распределению выборочной статистики.
СКО можно записать как сумму дисперсии оценщика и квадрата смещения оценщика, что обеспечивает полезный способ расчета СКО и подразумевает, что в случае несмещенных оценок СКО и дисперсия эквивалентны. [5]
Доказательство соотношения дисперсии и смещения
[ редактировать ]
Еще более короткое доказательство можно получить, используя известную формулу, согласно которой для случайной величины , . Подставив с, , у нас есть Но в реальном случае моделирования MSE можно описать как добавление дисперсии модели, систематической ошибки модели и неуменьшаемой неопределенности (см. Компромисс между смещением и дисперсией ). Согласно соотношению, MSE оценок можно просто использовать для сравнения эффективности , которое включает в себя информацию об дисперсии и смещении оценок. Это называется критерием MSE.
В регрессии
[ редактировать ]В регрессионном анализе построение графика является более естественным способом просмотра общей тенденции всех данных. Среднее расстояние от каждой точки до прогнозируемой регрессионной модели можно вычислить и отобразить как среднеквадратическую ошибку. Возведение в квадрат имеет решающее значение для уменьшения сложности с отрицательными знаками. Чтобы минимизировать MSE, модель могла бы быть более точной, что означало бы, что она ближе к фактическим данным. Одним из примеров линейной регрессии с использованием этого метода является метод наименьших квадратов , который оценивает пригодность модели линейной регрессии для моделирования двумерного набора данных . [6] но ограничение которого связано с известным распределением данных.
Термин «среднеквадратическая ошибка» иногда используется для обозначения несмещенной оценки дисперсии ошибки: остаточной суммы квадратов, деленной на количество степеней свободы . Это определение известной вычисленной величины отличается от приведенного выше определения вычисленной MSE предиктора тем, что используется другой знаменатель. Знаменатель представляет собой размер выборки, уменьшенный на количество параметров модели, оцененных на основе одних и тех же данных, ( n - p ) для p регрессоров или ( n - p -1), если используется перехват ( в разделе ошибки и остатки в статистике) более подробную информацию см. . ). [7] Хотя MSE (как определено в этой статье) не является беспристрастной оценкой дисперсии ошибки, она является последовательной , учитывая непротиворечивость предиктора.
В регрессионном анализе «среднеквадратическая ошибка», часто называемая среднеквадратичной ошибкой прогнозирования или «среднеквадратичной ошибкой вне выборки», также может относиться к среднему значению квадратов отклонений прогнозов от истинных значений, превышающих вне выборки тестовое пространство , созданное с помощью модели, оцененной по определенному выборочному пространству . Это также известная вычисленная величина, которая варьируется в зависимости от выборки и тестового пространства вне выборки.
В контексте алгоритмов градиентного спуска принято вводить коэффициент в MSE для облегчения вычислений после взятия производной. Таким образом, значение, которое технически составляет половину среднего квадрата ошибок, можно назвать MSE.
Примеры
[ редактировать ]Иметь в виду
[ редактировать ]Предположим, у нас есть случайная выборка размером из населения, . Предположим, что единицы выборки были выбраны с заменой . То есть юниты выбираются по одному, и ранее выбранные юниты по-прежнему доступны для выбора для всех рисует. Обычная оценка для среднее значение выборки
который имеет ожидаемое значение, равное истинному среднему значению (поэтому он несмещен) и среднеквадратическая ошибка
где это популяционная дисперсия .
Для гауссовского распределения это лучшая несмещенная оценка (т. е. оценка с наименьшим СКО среди всех несмещенных оценок), но не, скажем, для равномерного распределения .
Дисперсия
[ редактировать ]Обычной оценкой дисперсии является скорректированная выборочная дисперсия :
Это несмещенный результат (его ожидаемое значение равно ), поэтому его также называют несмещенной выборочной дисперсией, а ее СКО равна [8]
где является четвертым центральным моментом распределения или популяции, и это избыточный эксцесс .
Однако можно использовать и другие оценки для которые пропорциональны , и правильный выбор всегда может дать меньшую среднеквадратическую ошибку. Если мы определим
то вычисляем:
Это сводится к минимуму, когда
Для распределения Гаусса , где , это означает, что СКО минимизируется при делении суммы на . Минимальный избыточный эксцесс равен , [а] что достигается распределением Бернулли с p = 1/2 (подбрасывание монеты), а MSE минимизируется для Следовательно, независимо от эксцесса, мы получаем «лучшую» оценку (в смысле более низкой СКО), немного уменьшая несмещенную оценку; это простой пример оценки усадки : оценку «сжимают» до нуля (уменьшают несмещенную оценку).
Кроме того, хотя скорректированная выборочная дисперсия является лучшей несмещенной оценкой (минимальная среднеквадратическая ошибка среди несмещенных оценок) дисперсии для гауссовских распределений, если распределение не является гауссовским, то даже среди несмещенных оценок лучшая несмещенная оценка дисперсии может не быть
Гауссово распределение
[ редактировать ]В следующей таблице приведены несколько оценок истинных параметров популяции, μ и σ. 2 , для гауссова случая. [9]
Истинная ценность | Оценщик | Среднеквадратическая ошибка |
---|---|---|
= несмещенная оценка генерального среднего значения , | ||
= несмещенная оценка генеральной дисперсии , | ||
= смещенная оценка генеральной дисперсии , | ||
= смещенная оценка генеральной дисперсии , |
Интерпретация
[ редактировать ]СКО равна нулю, что означает, что оценщик предсказывает наблюдения параметра с идеальной точностью идеально (но обычно невозможно).
Значения MSE могут использоваться в целях сравнения. Две или более статистические модели можно сравнивать, используя их средние средние ошибки — как меру того, насколько хорошо они объясняют данный набор наблюдений: несмещенная оценка (оцененная на основе статистической модели) с наименьшей дисперсией среди всех несмещенных оценок является лучшей несмещенной оценкой или MVUE ( несмещенная оценка минимальной дисперсии ).
Методы дисперсионного анализа и линейной регрессии оценивают MSE как часть анализа и используют расчетную MSE для определения статистической значимости изучаемых факторов или предикторов. Целью планирования эксперимента является построение экспериментов таким образом, чтобы при анализе наблюдений среднеквадратическая ошибка была близка к нулю относительно величины хотя бы одного из предполагаемых эффектов лечения.
При одностороннем дисперсионном анализе MSE можно рассчитать путем деления суммы квадратов ошибок и степени свободы. Кроме того, значение f представляет собой соотношение среднеквадратического значения лечения и MSE.
MSE также используется в некоторых методах пошаговой регрессии как часть определения того, сколько предикторов из набора кандидатов включить в модель для данного набора наблюдений.
Приложения
[ редактировать ]- Минимизация MSE является ключевым критерием при выборе оценщиков: см. минимальную среднеквадратическую ошибку . Среди несмещенных оценщиков минимизация MSE эквивалентна минимизации дисперсии, и оценщик, который делает это, является несмещенной оценкой минимальной дисперсии . Однако смещенная оценка может иметь более низкое значение MSE; см . смещение оценки .
- При статистическом моделировании MSE может представлять разницу между фактическими наблюдениями и значениями наблюдений, предсказанными моделью. В этом контексте он используется для определения степени, в которой модель соответствует данным, а также возможно ли удаление некоторых независимых переменных без значительного ущерба для прогнозирующей способности модели.
- В прогнозировании и прогнозировании является оценка Брайера мерой навыков прогнозирования, основанной на MSE.
Функция потерь
[ редактировать ]Потери в квадрате ошибки — одна из наиболее широко используемых функций потерь в статистике, хотя ее широкое использование обусловлено скорее математическим удобством, чем соображениями фактических потерь в приложениях. Карл Фридрих Гаусс , введший использование среднеквадратической ошибки, осознавал ее произвольность и был согласен с возражениями против нее на этом основании. [3] Математические преимущества среднеквадратической ошибки особенно очевидны при ее использовании при анализе эффективности линейной регрессии , поскольку она позволяет разделить вариацию в наборе данных на вариацию, объясняемую моделью, и вариацию, объясняемую случайностью.
Критика
[ редактировать ]Использование среднеквадратической ошибки безоговорочно подверглось критике со стороны теоретика принятия решений Джеймса Бергера . Среднеквадратическая ошибка — это отрицательное значение ожидаемого значения одной конкретной функции полезности , квадратичной функции полезности, которая может не подходить для использования в определенных обстоятельствах. Однако существуют сценарии, в которых среднеквадратическая ошибка может служить хорошим приближением к функции потерь, естественно возникающей в приложении. [10]
Как и дисперсия , среднеквадратическая ошибка имеет тот недостаток, что выбросы имеют большой вес . [11] Это результат возведения в квадрат каждого члена, что фактически придает больший вес большим ошибкам, чем мелким. Это свойство, нежелательное во многих приложениях, побудило исследователей использовать альтернативы, такие как средняя абсолютная ошибка или те, которые основаны на медиане .
См. также
[ редактировать ]- Компромисс смещения и дисперсии
- Оценщик Ходжеса
- Оценщик Джеймса – Штейна
- Средняя процентная ошибка
- Среднеквадратическая ошибка квантования
- Среднеквадратичное взвешенное отклонение
- Среднеквадратичное смещение
- Среднеквадратическая ошибка прогноза
- Минимальная среднеквадратическая ошибка
- Оценка минимальной среднеквадратической ошибки
- Переобучение
- Пиковое соотношение сигнал/шум
Примечания
[ редактировать ]- ^ Это можно доказать с помощью неравенства Йенсена следующим образом. Четвертый центральный момент является верхней границей квадрата дисперсии, так что наименьшее значение их отношения равно единице, следовательно, наименьшее значение избыточного эксцесса равно -2, что достигается, например, с помощью Бернулли с p = 1. /2.
Ссылки
[ редактировать ]- ^ Перейти обратно: а б «Среднеквадратическая ошибка (MSE)» . www.probabilitycourse.com . Проверено 12 сентября 2020 г.
- ^ Бикель, Питер Дж .; Доксум, Кьелл А. (2015). Математическая статистика: основные идеи и избранные темы . Том. Я (Второе изд.). п. 20.
Если мы используем квадратичные потери, наша функция риска называется среднеквадратичной ошибкой (MSE)…
- ^ Перейти обратно: а б Леманн, Эль; Казелла, Джордж (1998). Теория точечной оценки (2-е изд.). Нью-Йорк: Спрингер. ISBN 978-0-387-98502-2 . МР 1639875 .
- ^ Гарет, Джеймс; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роб (2021). Введение в статистическое обучение: с приложениями на R. Спрингер. ISBN 978-1071614174 .
- ^ Вакерли, Деннис; Менденхолл, Уильям; Шеффер, Ричард Л. (2008). Математическая статистика с приложениями (7-е изд.). Белмонт, Калифорния, США: Высшее образование Томсона. ISBN 978-0-495-38508-0 .
- ^ Современное введение в вероятность и статистику: понимание почему и как . Деккинг, Мишель (1946 г.р.). Лондон: Спрингер. 2005. ISBN 978-1-85233-896-1 . OCLC 262680588 .
{{cite book}}
: CS1 maint: другие ( ссылка ) - ^ Стил, RGD, и Торри, JH, Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 288.
- ^ Настроение, А.; Грейбилл, Ф.; Боес, Д. (1974). Введение в теорию статистики (3-е изд.). МакГроу-Хилл. п. 229 .
- ^ ДеГрут, Моррис Х. (1980). Вероятность и статистика (2-е изд.). Аддисон-Уэсли.
- ^ Бергер, Джеймс О. (1985). «2.4.2 Некоторые стандартные функции потерь». Статистическая теория принятия решений и байесовский анализ (2-е изд.). Нью-Йорк: Springer-Verlag. п. 60 . ISBN 978-0-387-96098-2 . МР 0804611 .
- ^ Бермехо, Серхио; Кабестани, Джоан (2001). «Ориентированный анализ главных компонентов для классификаторов с большой маржой». Нейронные сети . 14 (10): 1447–1461. дои : 10.1016/S0893-6080(01)00106-X . ПМИД 11771723 .