Jump to content

Мальвы C p

В статистике Маллоуза , [ 1 ] [ 2 ] названный в честь Колина Лингвуда Маллоуза , используется для оценки соответствия модели регрессии , которая была оценена с использованием обычного метода наименьших квадратов . Он применяется в контексте выбора модели , когда для прогнозирования некоторого результата доступен ряд переменных-предикторов , и цель состоит в том, чтобы найти лучшую модель, включающую подмножество этих предикторов. Небольшое значение означает, что модель относительно точна.

Маллоуза Было показано, что C p эквивалентен информационному критерию Акаике в частном случае линейной регрессии Гаусса . [ 3 ]

Определение и свойства

[ редактировать ]

Маллоуза C p решает проблему переоснащения , при которой статистика выбора модели, такая как остаточная сумма квадратов, всегда становится меньше по мере добавления в модель большего количества переменных. Таким образом, если мы стремимся выбрать модель, дающую наименьшую остаточную сумму квадратов, всегда будет выбрана модель, включающая все переменные. Вместо этого статистика C p, рассчитанная на выборке данных, оценивает ошибку прогнозирования суммы квадратов (SSPE) как популяцию. целевую

где — подобранное значение из модели регрессии для i -го случая, E ( Y i | X i ) — ожидаемое значение для i -го случая, а σ 2 — дисперсия ошибки (предполагается постоянной во всех случаях). Среднеквадратическая ошибка прогнозирования (MSPE) не будет автоматически уменьшаться по мере добавления новых переменных. Оптимальная модель по этому критерию представляет собой компромисс, на который влияют размер выборки, величина эффекта различных предикторов и степень коллинеарности между ними.

Если P регрессоры выбраны из набора K > P , статистика C p для этого конкретного набора регрессоров определяется как:

где

Альтернативное определение

[ редактировать ]

Учитывая линейную модель, такую ​​​​как:

где:

  • являются коэффициентами для переменных-предикторов
  • представляет ошибку

Альтернативная версия C p также может быть определена как: [ 5 ]

где

  • RSS — это остаточная сумма квадратов обучающего набора данных.
  • p - количество предикторов
  • и относится к оценке дисперсии, связанной с каждым ответом в линейной модели (оценивается на модели, содержащей все предикторы)

Обратите внимание, что эта версия C p не дает эквивалентных значений более ранней версии, но модель с наименьшим C p из этого определения также будет той же моделью с наименьшим C p из более раннего определения.

Ограничения

[ редактировать ]

Критерий C p имеет два основных ограничения. [ 6 ]

  1. приближение C p справедливо только для большого размера выборки;
  2. C выбора p не может обрабатывать сложные наборы моделей, как в задаче выбора переменных (или признаков ). [ 6 ]

Практическое использование

[ редактировать ]

Статистика C p часто используется в качестве правила остановки для различных форм пошаговой регрессии . Маллоуз предложил эту статистику в качестве критерия для выбора среди многих альтернативных регрессий подмножества. В модели, не страдающей от заметного недостатка соответствия (предвзятости), C p имеет математическое ожидание, почти равное P ; в противном случае ожидание равно примерно P плюс положительное смещение. Тем не менее, несмотря на то, что его математическое ожидание больше или равно P , ничто не мешает C p < P или даже C p < 0 в крайних случаях. Предлагается выбрать подмножество, у которого C p приближается к P , [ 7 ] сверху, для списка подмножеств, упорядоченных по увеличению P . На практике положительное смещение можно скорректировать, выбрав модель из упорядоченного списка подмножеств, например, p < 2 P. C

на основе выборки Поскольку статистика C p является оценкой MSPE, использование C p для выбора модели не полностью защищает от переобучения. Например, возможно, что выбранная модель будет такой, в которой образец C p имеет особенно сильное занижение MSPE.

Статистика выбора модели, такая как C p, обычно не используется вслепую, а, скорее, в процессе выбора модели учитывается информация о области применения, предполагаемом использовании модели и любых известных отклонениях в данных.

См. также

[ редактировать ]
  1. ^ Маллоуз, CL (1973). «Некоторые комментарии к КП » . Технометрика . 15 (4): 661–675. дои : 10.2307/1267380 . JSTOR   1267380 .
  2. ^ Гилмор, Стивен Г. (1996). «Интерпретация C p -статистики Маллоуза». Журнал Королевского статистического общества, серия D. 45 (1): 49–56. JSTOR   2348411 .
  3. ^ Буабунон, Орели; Кану, Стефан; Фурдринье, Доминик; Стродерман, Уильям; Уэллс, Мартин Т. (2013). «AIC, C p и оценки потерь для эллиптически симметричных распределений». arXiv : 1308.2766 [ math.ST ].
  4. ^ Маллоуз, CL (1973). «Некоторые комментарии к КП » . Технометрика . 15 (4): 661–675. дои : 10.2307/1267380 . JSTOR   1267380 .
  5. ^ Джеймс, Гарет; Виттен; Хасти; Тибширани (24 июня 2013 г.). Введение в статистическое обучение . Спрингер. ISBN  978-1-4614-7138-7 .
  6. ^ Перейти обратно: а б Жиро, К. (2015), Введение в многомерную статистику , Chapman & Hall/CRC, ISBN   9781482237948
  7. ^ Дэниел, К.; Вуд, Ф. (1980). Подгонка уравнений к данным (ред. Ред.). Нью-Йорк: Wiley & Sons, Inc.

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1b455d659d9bb87cf9f27852c7531fa9__1711541160
URL1:https://arc.ask3.ru/arc/aa/1b/a9/1b455d659d9bb87cf9f27852c7531fa9.html
Заголовок, (Title) документа по адресу, URL1:
Mallows's Cp - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)