Мальвы C p
В статистике Маллоуза , [ 1 ] [ 2 ] названный в честь Колина Лингвуда Маллоуза , используется для оценки соответствия модели регрессии , которая была оценена с использованием обычного метода наименьших квадратов . Он применяется в контексте выбора модели , когда для прогнозирования некоторого результата доступен ряд переменных-предикторов , и цель состоит в том, чтобы найти лучшую модель, включающую подмножество этих предикторов. Небольшое значение означает, что модель относительно точна.
Маллоуза Было показано, что C p эквивалентен информационному критерию Акаике в частном случае линейной регрессии Гаусса . [ 3 ]
Определение и свойства
[ редактировать ]Маллоуза C p решает проблему переоснащения , при которой статистика выбора модели, такая как остаточная сумма квадратов, всегда становится меньше по мере добавления в модель большего количества переменных. Таким образом, если мы стремимся выбрать модель, дающую наименьшую остаточную сумму квадратов, всегда будет выбрана модель, включающая все переменные. Вместо этого статистика C p, рассчитанная на выборке данных, оценивает ошибку прогнозирования суммы квадратов (SSPE) как популяцию. целевую
где — подобранное значение из модели регрессии для i -го случая, E ( Y i | X i ) — ожидаемое значение для i -го случая, а σ 2 — дисперсия ошибки (предполагается постоянной во всех случаях). Среднеквадратическая ошибка прогнозирования (MSPE) не будет автоматически уменьшаться по мере добавления новых переменных. Оптимальная модель по этому критерию представляет собой компромисс, на который влияют размер выборки, величина эффекта различных предикторов и степень коллинеарности между ними.
Если P регрессоры выбраны из набора K > P , статистика C p для этого конкретного набора регрессоров определяется как:
где
- – сумма квадратов ошибок для модели с P регрессорами ,
- Y pi — прогнозируемое значение i- го наблюдения Y от P- регрессоров ,
- С 2 представляет собой оценку дисперсии остатков после регрессии на полном наборе K- регрессоров и может быть оценена по формуле , [ 4 ]
- — N размер выборки .
Альтернативное определение
[ редактировать ]Учитывая линейную модель, такую как:
где:
- являются коэффициентами для переменных-предикторов
- представляет ошибку
Альтернативная версия C p также может быть определена как: [ 5 ]
где
- RSS — это остаточная сумма квадратов обучающего набора данных.
- p - количество предикторов
- и относится к оценке дисперсии, связанной с каждым ответом в линейной модели (оценивается на модели, содержащей все предикторы)
Обратите внимание, что эта версия C p не дает эквивалентных значений более ранней версии, но модель с наименьшим C p из этого определения также будет той же моделью с наименьшим C p из более раннего определения.
Ограничения
[ редактировать ]Критерий C p имеет два основных ограничения. [ 6 ]
- приближение C p справедливо только для большого размера выборки;
- C выбора p не может обрабатывать сложные наборы моделей, как в задаче выбора переменных (или признаков ). [ 6 ]
Практическое использование
[ редактировать ]Статистика C p часто используется в качестве правила остановки для различных форм пошаговой регрессии . Маллоуз предложил эту статистику в качестве критерия для выбора среди многих альтернативных регрессий подмножества. В модели, не страдающей от заметного недостатка соответствия (предвзятости), C p имеет математическое ожидание, почти равное P ; в противном случае ожидание равно примерно P плюс положительное смещение. Тем не менее, несмотря на то, что его математическое ожидание больше или равно P , ничто не мешает C p < P или даже C p < 0 в крайних случаях. Предлагается выбрать подмножество, у которого C p приближается к P , [ 7 ] сверху, для списка подмножеств, упорядоченных по увеличению P . На практике положительное смещение можно скорректировать, выбрав модель из упорядоченного списка подмножеств, например, p < 2 P. C
на основе выборки Поскольку статистика C p является оценкой MSPE, использование C p для выбора модели не полностью защищает от переобучения. Например, возможно, что выбранная модель будет такой, в которой образец C p имеет особенно сильное занижение MSPE.
Статистика выбора модели, такая как C p, обычно не используется вслепую, а, скорее, в процессе выбора модели учитывается информация о области применения, предполагаемом использовании модели и любых известных отклонениях в данных.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Маллоуз, CL (1973). «Некоторые комментарии к КП » . Технометрика . 15 (4): 661–675. дои : 10.2307/1267380 . JSTOR 1267380 .
- ^ Гилмор, Стивен Г. (1996). «Интерпретация C p -статистики Маллоуза». Журнал Королевского статистического общества, серия D. 45 (1): 49–56. JSTOR 2348411 .
- ^ Буабунон, Орели; Кану, Стефан; Фурдринье, Доминик; Стродерман, Уильям; Уэллс, Мартин Т. (2013). «AIC, C p и оценки потерь для эллиптически симметричных распределений». arXiv : 1308.2766 [ math.ST ].
- ^ Маллоуз, CL (1973). «Некоторые комментарии к КП » . Технометрика . 15 (4): 661–675. дои : 10.2307/1267380 . JSTOR 1267380 .
- ^ Джеймс, Гарет; Виттен; Хасти; Тибширани (24 июня 2013 г.). Введение в статистическое обучение . Спрингер. ISBN 978-1-4614-7138-7 .
- ^ Перейти обратно: а б Жиро, К. (2015), Введение в многомерную статистику , Chapman & Hall/CRC, ISBN 9781482237948
- ^ Дэниел, К.; Вуд, Ф. (1980). Подгонка уравнений к данным (ред. Ред.). Нью-Йорк: Wiley & Sons, Inc.
Дальнейшее чтение
[ редактировать ]- Чоу, Грегори К. (1983). Эконометрика . Нью-Йорк: МакГроу-Хилл. стр. 291–293 . ISBN 978-0-07-010847-9 .
- Хокинг, Р.Р. (1976). «Анализ и выбор переменных в линейной регрессии». Биометрия . 32 (1): 1–50. CiteSeerX 10.1.1.472.4742 . дои : 10.2307/2529336 . JSTOR 2529336 .
- Судья Джордж Г.; Гриффитс, Уильям Э.; Хилл, Р. Картер; Ли, Цунг-Чао (1980). Теория и практика эконометрики . Нью-Йорк: Уайли. стр. 417–423. ISBN 978-0-471-05938-7 .