Расстояние Кука
В статистике методом расстояние Кука или Кука D — это часто используемая оценка влияния точки данных при выполнении регрессионного анализа наименьших квадратов . [ 1 ] В практическом анализе методом обычных наименьших квадратов расстояние Кука можно использовать несколькими способами: для указания влиятельных точек данных, достоверность которых особенно стоит проверить; или указать области проектного пространства, где было бы полезно получить больше точек данных. Он назван в честь американского статистика Р. Денниса Кука , который ввел эту концепцию в 1977 году. [ 2 ] [ 3 ]
Определение
[ редактировать ]Точки данных с большими остатками ( выбросами ) и/или высоким уровнем кредитного плеча могут исказить результат и точность регрессии. Расстояние Кука измеряет эффект удаления данного наблюдения. Считается, что точки с большим расстоянием Кука заслуживают более тщательного изучения при анализе.
Для алгебраического выражения сначала определите
где это термин ошибки , – матрица коэффициентов, количество ковариат или предикторов для каждого наблюдения, и — это матрица проекта, включающая константу. наименьших квадратов равна Тогда оценка и, следовательно, подобранные (прогнозированные) значения среднего значения являются
где — матрица проекции (или матрица шляпы). -й диагональный элемент , заданный , [ 4 ] известен рычаг как -е наблюдение. Аналогичным образом, -й элемент вектора невязок обозначается .
Расстояние Кука наблюдения определяется как сумма всех изменений в регрессионной модели при наблюдении удаляется из него [ 5 ]
где p — ранг модели (т. е. количество независимых переменных в матрице плана) и — это подобранное значение ответа, полученное при исключении , и — среднеквадратическая ошибка регрессионной модели. [ 6 ]
Эквивалентно это можно выразить с помощью рычага [ 5 ] ( ):
Обнаружение весьма влиятельных наблюдений
[ редактировать ]Существуют разные мнения относительно того, какие пороговые значения следует использовать для выявления наиболее влиятельных точек . Поскольку расстояние Кука находится в метрике F- распределения с и (как определено для матрицы проектирования выше) степени свободы, срединная точка (т.е. ) можно использовать в качестве отсечки. [ 7 ] Поскольку это значение близко к 1 для больших , простое оперативное руководство по было предложено. [ 8 ]
The -мерный случайный вектор , что представляет собой изменение из-за удаления -е наблюдение имеет ковариационную матрицу первого ранга и, следовательно, полностью распределено по одномерному подпространству (линия, скажем ) принадлежащий -мерное пространство. Распределительное свойство упомянутое выше подразумевает, что информация о влиянии -е наблюдение предоставлено должно быть получено не снаружи линии но из линии сам. Однако при введении расстояния Кука масштабирующая матрица полного ранга выбран и в результате рассматривается как случайный вектор, распределенный по всему пространству размеры. Это означает, что информация о влиянии -е наблюдение предоставлено через расстояние Кука исходит из всего пространства размеры. Следовательно, мера расстояния Кука, вероятно, исказит реальное влияние наблюдений, вводя в заблуждение правильную идентификацию влиятельных наблюдений. [ 9 ] [ 10 ]
Связь с другими мерами влияния (и интерпретация)
[ редактировать ]можно выразить с помощью рычага [ 5 ] ( ) и квадрат внутренне стьюдентизированного остатка ( ), следующее:
Преимущество последней формулировки состоит в том, что она ясно показывает взаимосвязь между и к (при этом p и n одинаковы для всех наблюдений). Если велико, то оно (для неэкстремальных значений ) увеличится . Если близко к 0, тогда будет небольшим, а если близко к 1, тогда станет очень большим (пока , то есть: что наблюдение не находится точно на линии регрессии, установленной без наблюдения ).
связан с DFFITS следующим соотношением (обратите внимание, что - внешне стьюдентизированный остаток, и определены здесь ):
можно интерпретировать как расстояние, на которое перемещаются оценки внутри доверительного эллипсоида, который представляет собой область вероятных значений параметров. [ нужны разъяснения ] Об этом свидетельствует альтернативное, но эквивалентное представление расстояния Кука через изменения оценок параметров регрессии между случаями, когда конкретное наблюдение либо включается, либо исключается из регрессионного анализа.
Альтернатива было предложено. Вместо того, чтобы учитывать влияние отдельного наблюдения на общую модель, статистика служит мерой того, насколько чувствителен прогноз -е наблюдение означает удаление каждого наблюдения в исходном наборе данных. Его можно сформулировать как взвешенную линейную комбинацию всех точек данных. Опять же, матрица проекции в расчете участвует для получения необходимых весов:
В этом контексте ( ) напоминает корреляцию между предсказаниями и [ а ] .
В отличие от , распределение асимптотически нормально для больших размеров выборки и моделей со многими предикторами. При отсутствии выбросов ожидаемое значение примерно . Влиятельное наблюдение можно определить, если
с как медиана и как медианное абсолютное отклонение всех -значения в исходном наборе данных, т.е. надежная мера местоположения и надежная мера масштаба распределения . Коэффициент 4,5 охватывает ок. 3 стандартных отклонения вокруг его центра.
По сравнению с расстоянием Кука, было обнаружено, что он хорошо работает для выбросов с высоким и средним уровнем левереджа, даже при наличии маскирующих эффектов, для которых неуспешный. [ 12 ]
Интересно, и тесно связаны, поскольку оба могут быть выражены через матрицу который сохраняет последствия удаления -я точка данных на -е предсказание:
С под рукой, дается:
где если симметричен , и идемпотентен . так что не обязательно В отличие, можно рассчитать как:
где извлекает главную диагональ квадратной матрицы . В этом контексте называется матрицей влияния, тогда как напоминает так называемую матрицу чувствительности. Анализ собственных векторов и - которые имеют одни и те же собственные значения - служит инструментом обнаружения выбросов, хотя собственные векторы матрицы чувствительности более эффективны. [ 13 ]
Реализации программного обеспечения
[ редактировать ]Многие программы и пакеты статистики, такие как R , Python , Julia и т. д., включают реализации расстояния Кука.
Язык/Программа | Функция | Примечания |
---|---|---|
Был | predict, cooksd |
См . [1] |
Р | cooks.distance(model, ...) |
См . [2] |
Питон | CooksDistance().fit(X, y) |
См . [3] |
Юлия | cooksdistance(model, ...) |
См . [4] |
Расширения
[ редактировать ]Многомерная мера влияния (HIM) является альтернативой расстоянию Кука, когда (т. е. когда предикторов больше, чем наблюдений). [ 14 ] В то время как расстояние Кука количественно определяет влияние отдельного наблюдения на оценку коэффициента регрессии по методу наименьших квадратов, HIM измеряет влияние наблюдения на маргинальные корреляции.
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Индексы и в оригинальной публикации часто меняются местами как матрица проекции симметричен в обычной линейной регрессии, т.е. . Поскольку это не всегда так, например, при взвешенной линейной регрессии, индексы здесь записаны последовательно, чтобы учесть потенциальную асимметрию и, таким образом, обеспечить возможность прямого использования. [ 11 ]
Ссылки
[ редактировать ]- ^ Менденхолл, Уильям; Синчич, Терри (1996). Второй курс статистики: регрессионный анализ (5-е изд.). Река Аппер-Сэддл, Нью-Джерси: Прентис-Холл. п. 422. ИСБН 0-13-396821-9 .
Мера общего влияния постороннего наблюдения на оценку коэффициенты были предложены Р.Д. Куком (1979). Расстояние Кука D i рассчитывается...
- ^ Кук, Р. Деннис (февраль 1977 г.). «Обнаружение влиятельных наблюдений в линейной регрессии». Технометрика . 19 (1). Американская статистическая ассоциация : 15–18. дои : 10.2307/1268249 . JSTOR 1268249 . МР 0436478 .
- ^ Кук, Р. Деннис (март 1979 г.). «Влиятельные наблюдения в области линейной регрессии». Журнал Американской статистической ассоциации . 74 (365). Американская статистическая ассоциация: 169–174. дои : 10.2307/2286747 . hdl : 11299/199280 . JSTOR 2286747 . МР 0529533 .
- ^ Хаяси, Фумио (2000). Эконометрика . Издательство Принстонского университета. стр. 21–23. ISBN 1400823838 .
- ^ Перейти обратно: а б с «Дистанция Кука» .
- ^ «Статистика 512: Прикладные линейные модели» (PDF) . Университет Пердью . Архивировано из оригинала (PDF) 30 ноября 2016 г. Проверено 25 марта 2016 г.
- ^ Боллен, Кеннет А .; Джекман, Роберт В. (1990). «Регрессионная диагностика: разъяснительная обработка выбросов и влиятельных случаев» . В Фоксе, Джон; Лонг, Дж. Скотт (ред.). Современные методы анализа данных . Ньюбери-Парк, Калифорния: Сейдж. стр. 266 . ISBN 0-8039-3366-5 .
- ^ Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии . Нью-Йорк, штат Нью-Йорк: Чепмен и Холл. hdl : 11299/37076 . ISBN 0-412-24280-Х .
- ^ Ким, Мён Гын (31 мая 2017 г.). «Предупреждение об использовании расстояния Кука» . Коммуникации для статистических приложений и методов . 24 (3): 317–324. дои : 10.5351/csam.2017.24.3.317 . ISSN 2383-4757 .
- ^ Об удалении диагностической статистики в регрессии
- ^ Пенья 2005 , с. 2.
- ^ Пенья, Дэниел (2005). «Новая статистика влияния на линейную регрессию». Технометрика . 47 (1). Американское общество качества и Американская статистическая ассоциация : 1–12. дои : 10.1198/004017004000000662 . S2CID 1802937 .
- ^ Пенья, Дэниел (2006). Фам, Хоанг (ред.). Справочник Спрингера по инженерной статистике . Спрингер Лондон. стр. 523–536. дои : 10.1007/978-1-84628-288-1 . ISBN 978-1-84628-288-1 . S2CID 60460007 .
- ^ Многомерная мера влияния
Дальнейшее чтение
[ редактировать ]- Аткинсон, Энтони; Риани, Марко (2000). «Диагностика удаления» . Робастная диагностика и регрессионный анализ . Нью-Йорк: Спрингер. стр. 22–25. ISBN 0-387-95017-6 .
- Хейбергер, Ричард М.; Холланд, Берт (2013). «Статистика дел» . Статистический анализ и отображение данных . Springer Science & Business Media. стр. 312–27. ISBN 9781475742848 .
- Краскер, Уильям С.; Кух, Эдвин ; Уэлш, Рой Э. (1983). «Оценка грязных данных и ошибочных моделей». Справочник по эконометрике . Том. 1. Эльзевир. стр. 651–698. дои : 10.1016/S1573-4412(83)01015-6 . ISBN 9780444861856 .
- Агинис, Герман; Готфредсон, Райан К.; Джу, Гарри (2013). «Рекомендации по передовой практике для определения и обработки выбросов» . Организационные методы исследования . 16 (2). Мудрец: 270–301. дои : 10.1177/1094428112470848 . S2CID 54916947 . Проверено 4 декабря 2015 г.