Стьюдентизированный остаток
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике стьюдентизированный остаток представляет собой безразмерное отношение, полученное в результате деления остатка на оценку его стандартного отклонения , выраженного в одних и тех же единицах . Это форма Стьюдента t -статистики с оценкой ошибки, варьирующейся между точками.
Это важный метод обнаружения выбросов . Он входит в число нескольких, названных в честь Уильяма Сили Госсета , писавшего под псевдонимом «Студент» (например, « Распространение Стьюдента »). Деление статистики на стандартное отклонение выборки называется стьюдентизацией по аналогии со стандартизацией и нормализацией .
Мотивация
[ редактировать ]Основная причина стьюдентизации заключается в том, что при регрессионном анализе многомерного распределения дисперсии остатков при разных значениях входных переменных могут различаться, даже если дисперсии ошибок при этих разных значениях входных переменных равны. Проблема заключается в разнице между ошибками и остатками в статистике , особенно в поведении остатков в регрессиях.
Рассмотрим линейной регрессии. простую модель
Учитывая случайную выборку ( X i , Y i ), i = 1, ..., n , каждая пара ( X i , Y i ) удовлетворяет
где ошибки , независимы и все имеют одинаковую дисперсию . Остатки — это не истинные ошибки, а оценки , основанные на наблюдаемых данных. Когда для оценки используется метод наименьших квадратов и , то остатки в отличие от ошибок , не могут быть независимыми, поскольку удовлетворяют двум ограничениям
и
(Здесь ε i — i -я ошибка, а это i -й остаток.)
Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере x удаления соответствующего значения от среднего значения x . Это особенность не самих данных, а особенности регрессии, лучше подходящей для значений на концах домена. Это также отражается на функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние. Это также можно увидеть, поскольку остатки в конечных точках сильно зависят от наклона подобранной линии, тогда как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, хотя все дисперсии истинных ошибок равны друг другу, является основной причиной необходимости стьюдентизации.
Дело не просто в том, что параметры совокупности (среднее и стандартное отклонение) неизвестны — дело в том, что регрессии дают разные распределения остатков в разных точках данных, в отличие от точечных оценок одномерных распределений , которые имеют общее распределение остатков.
Фон
[ редактировать ]Для этой простой модели матрица расчета имеет вид
а шляпная матрица H представляет собой матрицу ортогональной проекции на пространство столбцов матрицы дизайна:
h Кредитное плечо ii — это i-й диагональный элемент в матрице шляпы. Дисперсия i- го остатка равна
В случае, если матрица проектирования X имеет только два столбца (как в примере выше), это равно
В случае среднего арифметического матрица плана X имеет только один столбец ( вектор из единиц ), и это просто:
Расчет
[ редактировать ]Учитывая приведенные выше определения, тогда стьюдентизированный остаток равен
где h ii – кредитное плечо , где является подходящей оценкой σ (см. ниже).
В случае среднего значения это равно:
Внутреннее и внешнее обучение
[ редактировать ]Обычная оценка σ 2 это внутренне стьюдентизированный остаток
где m — количество параметров в модели (в нашем примере — 2).
Но если i -й случай подозревается в невероятно большом размере, то он также не будет нормально распределен. Следовательно, разумно исключить i -е наблюдение из процесса оценки дисперсии, когда рассматривается вопрос о том, может ли i- й случай быть выбросом, и вместо этого использовать внешне стьюдентизированный остаток, который
на основе всех остатков, кроме подозреваемого i- го остатка. Вот это и хочу подчеркнуть для подозреваемого i рассчитывается без учета i- го случая.
Если оценка σ 2 включает -й случай i , тогда его называют внутренне стьюдентизированным остатком, (также известный как стандартизованный остаток [1] ).Если оценка вместо него используется, исключая -й случай i , тогда его называют внешне стьюдентизированным , .
Распределение
[ редактировать ]Если ошибки независимы и нормально распределены с ожидаемым значением 0 и дисперсией σ 2 , то распределение вероятностей i - го внешне стьюдентизированного остатка представляет собой t-распределение Стьюдента с n − m − 1 степенями свободы и может варьироваться от к .
С другой стороны, внутренне стьюдентизированные остатки находятся в диапазоне , где ν = n − m — число остаточных степеней свободы. Если t i представляет собой внутреннюю стьюдентизированную невязку и снова предполагается, что ошибки являются независимыми одинаково распределенными гауссовскими переменными, то: [2]
где t — случайная величина, распределенная как t-распределение Стьюдента с ν − 1 степенями свободы. Фактически это означает, что t i 2 / ν следует бета-распределению B (1/2,( ν − 1)/2).Вышеупомянутое распределение иногда называют тау-распределением ; [2] Впервые он был выведен Томпсоном в 1935 году. [3]
Когда ν = 3, внутренне стьюдентизированные остатки равномерно распределяются между и .Если имеется только одна остаточная степень свободы, приведенная выше формула распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t i равны либо +1, либо -1, с вероятностью 50% для каждого.
Стандартное отклонение распределения внутренне стьюдентизированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t i конкретного эксперимента равно 1.Например, внутренне стьюдентизированные остатки при подгонке прямой линии, проходящей через (0, 0) к точкам (1, 4), (2, −1), (2, −1), равны , и их стандартное отклонение не равно 1.
Обратите внимание, что любая пара стьюдентизированных невязок t i и t j (где ), НЕ являются iid. Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на то, что остатки должны суммироваться до 0 и быть ортогональными матрице плана.
Реализации программного обеспечения
[ редактировать ]Многие программы и пакеты статистики, такие как R , Python и т. д., включают реализации стьюдентизированного остатка.
Язык/Программа | Функция | Примечания |
---|---|---|
Р | rstandard(model, ...) | внутренне студенческий. См . [2] |
Р | rstudent(model, ...) | экстерном студенчество. См . [3] |
См. также
[ редактировать ]- Расстояние Кука - мера изменений коэффициентов регрессии при удалении наблюдения.
- тест Граббса
- Нормализация (статистика)
- Неравенство Самуэльсона
- Стандартная оценка
- Уильям Сили Госсет
Ссылки
[ редактировать ]- ^ по диагностике удаления регрессии Документы R
- ^ Jump up to: а б Аллен Дж. Поуп (1976), «Статистика остатков и обнаружение выбросов», Министерство торговли США, Национальное управление океанических и атмосферных исследований, Национальная служба океанических исследований, Лаборатория геодезических исследований и разработок, 136 страниц, [1] , экв. .(6)
- ^ Томпсон, Уильям Р. (1935). «О критерии браковки наблюдений и распределении отношения отклонения к выборочному стандартному отклонению» . Анналы математической статистики . 6 (4): 214–219. дои : 10.1214/aoms/1177732567 .
Дальнейшее чтение
[ редактировать ]- Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии (переиздание). Нью-Йорк: Чепмен и Холл . ISBN 041224280X . Проверено 23 февраля 2013 г.