Среднеквадратическая ошибка прогноза
В статистике среднеквадратическая ошибка прогноза ( MSPE ), также известная как среднеквадратическая ошибка прогнозов процедуры сглаживания , подбора кривой или регрессии , представляет собой ожидаемое значение квадрата ) ошибки прогнозирования ( PE , квадратическую разность между подобранными значениями. значения, подразумеваемые прогностической функцией и значения (ненаблюдаемого) истинного значения g . Это обратная мера силы объяснительной и может использоваться в процессе перекрестной проверки предполагаемой модели.Знание g потребуется для точного расчета MSPE; на практике оценивается MSPE. [1]
Формулировка
[ редактировать ]Если процедура сглаживания или аппроксимации имеет матрицу проекции (т. е. матрицу шляпки) L , которая отображает вектор наблюдаемых значений прогнозируемых значений вектор тогда PE и MSPE формулируются как:
MSPE можно разложить на два слагаемых: квадратическое смещение (средняя ошибка) подобранных значений и дисперсия подобранных значений:
Величина SSPE= n MSPE называется ошибкой предсказания суммы квадратов .Среднеквадратическая ошибка прогнозирования равна квадратному корню из MSPE: RMSPE= √ MSPE .
Вычисление MSPE по данным вне выборки
[ редактировать ]Среднеквадратическая ошибка прогноза может быть вычислена точно в двух контекстах. Во-первых, с выборкой данных длиной n аналитик данных может провести регрессию только по q точек данных (с q < n ), удерживая остальные n – q точек данных с конкретной целью их использования для вычисления оцененное MSPE модели вне выборки (т. е. без использования данных, которые использовались в процессе оценки модели). Поскольку процесс регрессии адаптирован к q точкам в выборке, обычно MSPE внутри выборки будет меньше, чем MSPE вне выборки, рассчитанная по n – q сдерживаемым точкам. Если увеличение MSPE вне выборки по сравнению с выборкой относительно небольшое, это приводит к тому, что модель рассматривается положительно. И если необходимо сравнить две модели, то модель с более низким MSPE по n – q точкам данных вне выборки рассматривается более предпочтительно, независимо от относительных характеристик моделей в выборке. MSPE за пределами выборки в этом контексте является точным для точек данных за пределами выборки, по которым оно было вычислено, но представляет собой просто оценку MSPE модели для большей части ненаблюдаемой совокупности, из которой были взяты данные.
Во-вторых, со временем аналитику данных может стать доступно больше данных, и тогда MSPE можно будет вычислить на основе этих новых данных.
Оценка MSPE среди населения
[ редактировать ]![]() | этой статьи Фактическая точность оспаривается . ( Май 2018 г. ) |
Когда модель была оценена по всем доступным данным без каких-либо удержаний, MSPE модели по всей совокупности , состоящей в основном из ненаблюдаемых данных, можно оценить следующим образом.
Для модели где , можно написать
Используя значения данных в выборке, первый член в правой части эквивалентен
Таким образом,
Если известно или хорошо оценено , становится возможным оценить MSPE по
Колин Мэллоуз отстаивал этот метод при построении своей статистики выбора модели C p , которая представляет собой нормализованную версию оцененного MSPE:
где p количество оцениваемых параметров p и вычисляется на основе версии модели, включающей все возможные регрессоры.На этом доказательство завершается.
См. также
[ редактировать ]- Информационный критерий Акаике
- Компромисс смещения и дисперсии
- Среднеквадратическая ошибка
- Ошибки и остатки в статистике
- Закон полной дисперсии
- Мальвы C p
- Выбор модели
Ссылки
[ редактировать ]- ^ Пиндик, Роберт С .; Рубинфельд, Дэниел Л. (1991). «Прогнозирование с помощью моделей временных рядов» . Эконометрические модели и экономические прогнозы (3-е изд.). Нью-Йорк: МакГроу-Хилл. стр. 516–535 . ISBN 0-07-050098-3 .