Jump to content

Расстояние Кука

В статистике методом расстояние Кука или Кука D — это часто используемая оценка влияния точки данных при выполнении регрессионного анализа наименьших квадратов . [ 1 ] В практическом анализе методом обычных наименьших квадратов расстояние Кука можно использовать несколькими способами: для указания влиятельных точек данных, достоверность которых особенно стоит проверить; или указать области проектного пространства, где было бы полезно получить больше точек данных. Он назван в честь американского статистика Р. Денниса Кука , который ввел эту концепцию в 1977 году. [ 2 ] [ 3 ]

Определение

[ редактировать ]

Точки данных с большими остатками ( выбросами ) и/или высоким уровнем кредитного плеча могут исказить результат и точность регрессии. Расстояние Кука измеряет эффект удаления данного наблюдения. Считается, что точки с большим расстоянием Кука заслуживают более тщательного изучения при анализе.

Для алгебраического выражения сначала определите

где это термин ошибки , – матрица коэффициентов, количество ковариат или предикторов для каждого наблюдения, и — это матрица проекта, включающая константу. наименьших квадратов равна Тогда оценка и, следовательно, подобранные (прогнозированные) значения среднего значения являются

где матрица проекции (или матрица шляпы). -й диагональный элемент , заданный , [ 4 ] известен рычаг как -е наблюдение. Аналогичным образом, -й элемент вектора невязок обозначается .

Расстояние Кука наблюдения определяется как сумма всех изменений в регрессионной модели при наблюдении удаляется из него [ 5 ]

где p — ранг модели (т. е. количество независимых переменных в матрице плана) и — это подобранное значение ответа, полученное при исключении , и среднеквадратическая ошибка регрессионной модели. [ 6 ]

Эквивалентно это можно выразить с помощью рычага [ 5 ] ( ):

Обнаружение весьма влиятельных наблюдений

[ редактировать ]

Существуют разные мнения относительно того, какие пороговые значения следует использовать для выявления наиболее влиятельных точек . Поскольку расстояние Кука находится в метрике F- распределения с и (как определено для матрицы проектирования выше) степени свободы, срединная точка (т.е. ) можно использовать в качестве отсечки. [ 7 ] Поскольку это значение близко к 1 для больших , простое оперативное руководство по было предложено. [ 8 ]

The -мерный случайный вектор , что представляет собой изменение из-за удаления -е наблюдение имеет ковариационную матрицу первого ранга и, следовательно, полностью распределено по одномерному подпространству (линия, скажем ) принадлежащий -мерное пространство. Распределительное свойство упомянутое выше подразумевает, что информация о влиянии -е наблюдение предоставлено должно быть получено не снаружи линии но из линии сам. Однако при введении расстояния Кука масштабирующая матрица полного ранга выбран и в результате рассматривается как случайный вектор, распределенный по всему пространству размеры. Это означает, что информация о влиянии -е наблюдение предоставлено через расстояние Кука исходит из всего пространства размеры. Следовательно, мера расстояния Кука, вероятно, исказит реальное влияние наблюдений, вводя в заблуждение правильную идентификацию влиятельных наблюдений. [ 9 ] [ 10 ]


Связь с другими мерами влияния (и интерпретация)

[ редактировать ]

можно выразить с помощью рычага [ 5 ] ( ) и квадрат внутренне стьюдентизированного остатка ( ), следующее:

Преимущество последней формулировки состоит в том, что она ясно показывает взаимосвязь между и к (при этом p и n одинаковы для всех наблюдений). Если велико, то оно (для неэкстремальных значений ) увеличится . Если близко к 0, тогда будет небольшим, а если близко к 1, тогда станет очень большим (пока , то есть: что наблюдение не находится точно на линии регрессии, установленной без наблюдения ).

связан с DFFITS следующим соотношением (обратите внимание, что - внешне стьюдентизированный остаток, и определены здесь ):

можно интерпретировать как расстояние, на которое перемещаются оценки внутри доверительного эллипсоида, который представляет собой область вероятных значений параметров. [ нужны разъяснения ] Об этом свидетельствует альтернативное, но эквивалентное представление расстояния Кука через изменения оценок параметров регрессии между случаями, когда конкретное наблюдение либо включается, либо исключается из регрессионного анализа.

Альтернатива было предложено. Вместо того, чтобы учитывать влияние отдельного наблюдения на общую модель, статистика служит мерой того, насколько чувствителен прогноз -е наблюдение означает удаление каждого наблюдения в исходном наборе данных. Его можно сформулировать как взвешенную линейную комбинацию всех точек данных. Опять же, матрица проекции в расчете участвует для получения необходимых весов:

В этом контексте ( ) напоминает корреляцию между предсказаниями и [ а ] .
В отличие от , распределение асимптотически нормально для больших размеров выборки и моделей со многими предикторами. При отсутствии выбросов ожидаемое значение примерно . Влиятельное наблюдение можно определить, если

с как медиана и как медианное абсолютное отклонение всех -значения в исходном наборе данных, т.е. надежная мера местоположения и надежная мера масштаба распределения . Коэффициент 4,5 охватывает ок. 3 стандартных отклонения вокруг его центра.
По сравнению с расстоянием Кука, было обнаружено, что он хорошо работает для выбросов с высоким и средним уровнем левереджа, даже при наличии маскирующих эффектов, для которых неуспешный. [ 12 ]
Интересно, и тесно связаны, поскольку оба могут быть выражены через матрицу который сохраняет последствия удаления -я точка данных на -е предсказание:

С под рукой, дается:

где если симметричен , и идемпотентен . так что не обязательно В отличие, можно рассчитать как:

где извлекает главную диагональ квадратной матрицы . В этом контексте называется матрицей влияния, тогда как напоминает так называемую матрицу чувствительности. Анализ собственных векторов и - которые имеют одни и те же собственные значения - служит инструментом обнаружения выбросов, хотя собственные векторы матрицы чувствительности более эффективны. [ 13 ]

Реализации программного обеспечения

[ редактировать ]

Многие программы и пакеты статистики, такие как R , Python , Julia и т. д., включают реализации расстояния Кука.

Язык/Программа Функция Примечания
Был predict, cooksd См . [1]
Р cooks.distance(model, ...) См . [2]
Питон CooksDistance().fit(X, y) См . [3]
Юлия cooksdistance(model, ...) См . [4]

Расширения

[ редактировать ]

Многомерная мера влияния (HIM) является альтернативой расстоянию Кука, когда (т. е. когда предикторов больше, чем наблюдений). [ 14 ] В то время как расстояние Кука количественно определяет влияние отдельного наблюдения на оценку коэффициента регрессии по методу наименьших квадратов, HIM измеряет влияние наблюдения на маргинальные корреляции.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Индексы и в оригинальной публикации часто меняются местами как матрица проекции симметричен в обычной линейной регрессии, т.е. . Поскольку это не всегда так, например, при взвешенной линейной регрессии, индексы здесь записаны последовательно, чтобы учесть потенциальную асимметрию и, таким образом, обеспечить возможность прямого использования. [ 11 ]
  1. ^ Менденхолл, Уильям; Синчич, Терри (1996). Второй курс статистики: регрессионный анализ (5-е изд.). Река Аппер-Сэддл, Нью-Джерси: Прентис-Холл. п. 422. ИСБН  0-13-396821-9 . Мера общего влияния постороннего наблюдения на оценку коэффициенты были предложены Р.Д. Куком (1979). Расстояние Кука D i рассчитывается...
  2. ^ Кук, Р. Деннис (февраль 1977 г.). «Обнаружение влиятельных наблюдений в линейной регрессии». Технометрика . 19 (1). Американская статистическая ассоциация : 15–18. дои : 10.2307/1268249 . JSTOR   1268249 . МР   0436478 .
  3. ^ Кук, Р. Деннис (март 1979 г.). «Влиятельные наблюдения в области линейной регрессии». Журнал Американской статистической ассоциации . 74 (365). Американская статистическая ассоциация: 169–174. дои : 10.2307/2286747 . hdl : 11299/199280 . JSTOR   2286747 . МР   0529533 .
  4. ^ Хаяси, Фумио (2000). Эконометрика . Издательство Принстонского университета. стр. 21–23. ISBN  1400823838 .
  5. ^ Перейти обратно: а б с «Дистанция Кука» .
  6. ^ «Статистика 512: Прикладные линейные модели» (PDF) . Университет Пердью . Архивировано из оригинала (PDF) 30 ноября 2016 г. Проверено 25 марта 2016 г.
  7. ^ Боллен, Кеннет А .; Джекман, Роберт В. (1990). «Регрессионная диагностика: разъяснительная обработка выбросов и влиятельных случаев» . В Фоксе, Джон; Лонг, Дж. Скотт (ред.). Современные методы анализа данных . Ньюбери-Парк, Калифорния: Сейдж. стр. 266 . ISBN  0-8039-3366-5 .
  8. ^ Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии . Нью-Йорк, штат Нью-Йорк: Чепмен и Холл. hdl : 11299/37076 . ISBN  0-412-24280-Х .
  9. ^ Ким, Мён Гын (31 мая 2017 г.). «Предупреждение об использовании расстояния Кука» . Коммуникации для статистических приложений и методов . 24 (3): 317–324. дои : 10.5351/csam.2017.24.3.317 . ISSN   2383-4757 .
  10. ^ Об удалении диагностической статистики в регрессии
  11. ^ Пенья 2005 , с. 2.
  12. ^ Пенья, Дэниел (2005). «Новая статистика влияния на линейную регрессию». Технометрика . 47 (1). Американское общество качества и Американская статистическая ассоциация : 1–12. дои : 10.1198/004017004000000662 . S2CID   1802937 .
  13. ^ Пенья, Дэниел (2006). Фам, Хоанг (ред.). Справочник Спрингера по инженерной статистике . Спрингер Лондон. стр. 523–536. дои : 10.1007/978-1-84628-288-1 . ISBN  978-1-84628-288-1 . S2CID   60460007 .
  14. ^ Многомерная мера влияния

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 773f698737271ffb6e8ea369e4c558cd__1723437420
URL1:https://arc.ask3.ru/arc/aa/77/cd/773f698737271ffb6e8ea369e4c558cd.html
Заголовок, (Title) документа по адресу, URL1:
Cook's distance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)