Кредитное плечо (статистика)
В статистике и, в частности, в регрессионном анализе , рычаг — это мера того, насколько далеки независимых переменных значения наблюдения от значений других наблюдений. Точки высокого рычага , если таковые имеются, являются выбросами по отношению к независимым переменным . То есть точки с высоким кредитным плечом не имеют соседних точек в пространство, где — количество независимых переменных в регрессионной модели. Это делает подобранную модель, скорее всего, близкой к наблюдению с высоким рычагом. [1] Следовательно, точки с высоким уровнем рычагов могут вызвать большие изменения в оценках параметров при их удалении, т. е. стать влиятельными точками . Хотя точка влияния обычно имеет высокий рычаг воздействия, точка высокого рычага не обязательно является влиятельной точкой. Кредитное плечо обычно определяется как диагональные элементы матрицы шляпы .
Определение и интерпретации
[ редактировать ]Рассмотрим линейной регрессии модель , . То есть, , где, это матрица планирования , строки которой соответствуют наблюдениям, а столбцы — независимым или независимым переменным. Оценка кредитного плеча для независимое наблюдение дается как:
- , диагональный элемент матрицы орто-проекции ( также известной как шляпная матрица) .
Таким образом, Показатель кредитного плеча можно рассматривать как «взвешенное» расстояние между в смысле (см. его связь с расстоянием Махаланобиса ). Его также можно интерпретировать как степень, в которой измеренное (зависимое) значение (т.е. ) влияет на подобранное (прогнозированное) значение (т.е. ): математически,
- .
Следовательно, показатель рычага также известен как самочувствительность наблюдения или самовлияние. [2] Используя тот факт, что (т.е. предсказание является орто-проекцией на пространство дальности ) в приведенном выше выражении мы получаем . Обратите внимание, что этот рычаг зависит от значений независимых переменных. всех наблюдений, но не ни по одному из значений зависимых переменных .
Характеристики
[ редактировать ]- Кредитное плечо это число от 0 до 1, Доказательство: Обратите внимание, что – идемпотентная матрица ( ) и симметричные ( ). Таким образом, используя тот факт, что , у нас есть . Поскольку мы знаем, что , у нас есть .
- Сумма кредитных плеч равна количеству параметров. в (включая перехват). Доказательство: .
Определение выбросов в X с использованием рычагов
[ редактировать ]Большое кредитное плечо соответствует это крайность. Общее правило – идентифицировать чье кредитное плечо более чем в 2 раза превышает среднее кредитное плечо (см. свойство 2 выше). То есть, если , следует считать выбросом. Некоторые статистики предпочитают порог вместо .
Связь с расстоянием Махаланобиса
[ редактировать ]Кредитное плечо тесно связано с расстоянием Махаланобиса (доказательство [3] ). В частности, для некоторых матрица , квадрат расстояния Махаланобиса (где является ряд ) от вектора среднего длины , является , где - предполагаемая матрица ковариационная х. Это связано с рычагом воздействия шляпной матрицы после добавления к нему вектор-столбца из 1. Отношения между ними таковы:
Эта взаимосвязь позволяет нам разложить кредитное плечо на значимые компоненты, чтобы можно было аналитически исследовать некоторые источники высокого кредитного плеча. [4]
Связь с функциями влияния
[ редактировать ]В контексте регрессии мы объединяем функции рычага и влияния , чтобы вычислить степень, в которой оценочные коэффициенты изменятся, если мы удалим одну точку данных. Обозначая остатки регрессии как , можно сравнить расчетный коэффициент к расчетному коэффициенту исключения используя формулу [5] [6]
Янг (2019) использует версию этой формулы после остаточного контроля. [7] Чтобы получить представление об этой формуле, обратите внимание, что отражает возможность влияния наблюдения на параметры регрессии и, следовательно, отражает фактическое влияние отклонений этих наблюдений от установленного значения на параметры регрессии. Затем формула делится на чтобы учесть тот факт, что мы удаляем наблюдение, а не корректируем его значение, отражая тот факт, что удаление больше меняет распределение ковариат, когда оно применяется к наблюдениям с высоким уровнем рычага (т. е. с выбросами значений ковариат). Подобные формулы возникают при применении общих формул для функций статистического влияния в контексте регрессии. [8] [9]
Влияние на остаточную дисперсию
[ редактировать ]Если мы находимся в обычном методе наименьших квадратов с фиксированным и гомоскедастической регрессии ошибки , тогда остаток регрессии , имеет дисперсию
- .
Другими словами, показатель рычага наблюдения определяет степень шума в неправильном прогнозе модели этого наблюдения, при этом более высокий уровень рычага приводит к меньшему шуму. Это следует из того, что идемпотентен, симметричен и , следовательно, .
Соответствующий стьюдентизированный остаток — остаток, скорректированный с учетом расчетной дисперсии остатка, специфичной для наблюдения, — затем равен
где является подходящей оценкой .
Частичное кредитное плечо
[ редактировать ]Частичный рычаг ( PL ) — это мера вклада отдельных независимых переменных в общий рычаг каждого наблюдения. То есть PL является мерой того, насколько изменяется по мере добавления переменной в регрессионную модель. Он рассчитывается как:
где – индекс независимой переменной, - индекс наблюдения и остатки от регрессии относительно остальных независимых переменных. Обратите внимание, что частичное кредитное плечо – это кредитное плечо точка на графике частичной регрессии для переменная. Точки данных с большим частичным рычагом воздействия на независимую переменную могут оказывать чрезмерное влияние на выбор этой переменной в процедурах автоматического построения регрессионной модели.
Реализации программного обеспечения
[ редактировать ]Многие программы и пакеты статистики, такие как R , Python и т. д., включают реализации Leverage.
Язык/Программа | Функция | Примечания |
---|---|---|
Р | hat(x, intercept = TRUE) или hatvalues(model, ...) | См . [1] |
Питон | (x * np.linalg.pinv(x).T).sum(-1) | См . [2] |
См. также
[ редактировать ]- Матрица проекции , основные диагональные элементы которой являются рычагами наблюдений.
- Расстояние Махаланобиса - ( масштабированная ) мера влияния исходных данных.
- Частичное кредитное плечо
- Расстояние Кука - мера изменений коэффициентов регрессии при удалении наблюдения.
- ДФФИТС
- Выброс – наблюдения с экстремальными Y. значениями
- Степени свободы (статистика) , сумма показателей кредитного плеча
Ссылки
[ редактировать ]- ^ Эверитт, бакалавр наук (2002). Кембриджский статистический словарь . Издательство Кембриджского университета. ISBN 0-521-81099-Х .
- ^ Кардинали, К. (июнь 2013 г.). «Ассимиляция данных: диагностика влияния наблюдения на систему усвоения данных» (PDF) .
- ^ Докажите связь между расстоянием Махаланобиса и кредитным плечом?
- ^ Ким, М.Г. (2004). «Источники высокого рычага в модели линейной регрессии (Журнал прикладной математики и вычислений, том 16, 509–513)». arXiv : 2006.04024 [ math.ST ].
- ^ Миллер, Руперт Г. (сентябрь 1974 г.). «Несбалансированный складной нож» . Анналы статистики . 2 (5): 880–891. дои : 10.1214/aos/1176342811 . ISSN 0090-5364 .
- ^ Хияши, Фумио (2000). Эконометрика . Издательство Принстонского университета. п. 21.
- ^ Янг, Олвин (2019). «Ченнелинг Фишера: тесты рандомизации и статистическая незначительность кажущихся значимыми экспериментальных результатов» . Ежеквартальный экономический журнал . 134 (2): 567. doi : 10.1093/qje/qjy029 .
- ^ Чаттерджи, Самприт; Хади, Али С. (август 1986 г.). «Влиятельные наблюдения, точки высокого рычага и выбросы в линейной регрессии» . Статистическая наука . 1 (3): 379–393. дои : 10.1214/ss/1177013622 . ISSN 0883-4237 .
- ^ «Регрессия - Функции влияния и МНК» . Крест проверен . Проверено 6 декабря 2020 г.