Jump to content

Стьюдентизированный остаток

(Перенаправлено с дистрибутива Тау )

В статистике стьюдентизированный остаток представляет собой безразмерное отношение, полученное в результате деления остатка на оценку его стандартного отклонения , выраженного в одних и тех же единицах . Это форма Стьюдента t -статистики с оценкой ошибки, варьирующейся между точками.

Это важный метод обнаружения выбросов . Он входит в число нескольких, названных в честь Уильяма Сили Госсета , писавшего под псевдонимом «Студент» (например, « Распространение Стьюдента »). Деление статистики на стандартное отклонение выборки называется стьюдентизацией по аналогии со стандартизацией и нормализацией .

Мотивация

[ редактировать ]

Основная причина стьюдентизации заключается в том, что при регрессионном анализе многомерного распределения дисперсии остатков при разных значениях входных переменных могут различаться, даже если дисперсии ошибок при этих разных значениях входных переменных равны. Проблема заключается в разнице между ошибками и остатками в статистике , особенно в поведении остатков в регрессиях.

Рассмотрим линейной регрессии. простую модель

Учитывая случайную выборку ( X i , Y i ), i = 1, ..., n , каждая пара ( X i , Y i ) удовлетворяет

где ошибки , независимы и все имеют одинаковую дисперсию . Остатки это не истинные ошибки, а оценки , основанные на наблюдаемых данных. Когда для оценки используется метод наименьших квадратов и , то остатки в отличие от ошибок , не могут быть независимыми, поскольку удовлетворяют двум ограничениям

и

(Здесь ε i i -я ошибка, а это i -й остаток.)

Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере x удаления соответствующего значения от среднего значения x . Это особенность не самих данных, а особенности регрессии, лучше подходящей для значений на концах домена. Это также отражается на функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние. Это также можно увидеть, поскольку остатки в конечных точках сильно зависят от наклона подобранной линии, тогда как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, хотя все дисперсии истинных ошибок равны друг другу, является основной причиной необходимости стьюдентизации.

Дело не просто в том, что параметры совокупности (среднее и стандартное отклонение) неизвестны — дело в том, что регрессии дают разные распределения остатков в разных точках данных, в отличие от точечных оценок одномерных распределений , которые имеют общее распределение остатков.

Для этой простой модели матрица расчета имеет вид

а шляпная матрица H представляет собой матрицу ортогональной проекции на пространство столбцов матрицы дизайна:

h Кредитное плечо ii это i-й диагональный элемент в матрице шляпы. Дисперсия i- го остатка равна

В случае, если матрица проектирования X имеет только два столбца (как в примере выше), это равно

В случае среднего арифметического матрица плана X имеет только один столбец ( вектор из единиц ), и это просто:

Учитывая приведенные выше определения, тогда стьюдентизированный остаток равен

где h ii кредитное плечо , где является подходящей оценкой σ (см. ниже).

В случае среднего значения это равно:

Внутреннее и внешнее обучение

[ редактировать ]

Обычная оценка σ 2 это внутренне стьюдентизированный остаток

где m — количество параметров в модели (в нашем примере — 2).

Но если i -й случай подозревается в невероятно большом размере, то он также не будет нормально распределен. Следовательно, разумно исключить i -е наблюдение из процесса оценки дисперсии, когда рассматривается вопрос о том, может ли i- й случай быть выбросом, и вместо этого использовать внешне стьюдентизированный остаток, который

на основе всех остатков, кроме подозреваемого i- го остатка. Вот это и хочу подчеркнуть для подозреваемого i рассчитывается без учета i- го случая.

Если оценка σ 2 включает -й случай i , тогда его называют внутренне стьюдентизированным остатком, (также известный как стандартизованный остаток [1] ).Если оценка вместо него используется, исключая -й случай i , тогда его называют внешне стьюдентизированным , .

Распределение

[ редактировать ]

Если ошибки независимы и нормально распределены с ожидаемым значением 0 и дисперсией σ 2 , то распределение вероятностей i - го внешне стьюдентизированного остатка представляет собой t-распределение Стьюдента с n m − 1 степенями свободы и может варьироваться от к .

С другой стороны, внутренне стьюдентизированные остатки находятся в диапазоне , где ν = n m — число остаточных степеней свободы. Если t i представляет собой внутреннюю стьюдентизированную невязку и снова предполагается, что ошибки являются независимыми одинаково распределенными гауссовскими переменными, то: [2]

где t — случайная величина, распределенная как t-распределение Стьюдента с ν − 1 степенями свободы. Фактически это означает, что t i 2 / ν следует бета-распределению B (1/2,( ν − 1)/2).Вышеупомянутое распределение иногда называют тау-распределением ; [2] Впервые он был выведен Томпсоном в 1935 году. [3]

Когда ν = 3, внутренне стьюдентизированные остатки равномерно распределяются между и .Если имеется только одна остаточная степень свободы, приведенная выше формула распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t i равны либо +1, либо -1, с вероятностью 50% для каждого.

Стандартное отклонение распределения внутренне стьюдентизированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t i конкретного эксперимента равно 1.Например, внутренне стьюдентизированные остатки при подгонке прямой линии, проходящей через (0, 0) к точкам (1, 4), (2, −1), (2, −1), равны , и их стандартное отклонение не равно 1.

Обратите внимание, что любая пара стьюдентизированных невязок t i и t j (где ), НЕ являются iid. Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на то, что остатки должны суммироваться до 0 и быть ортогональными матрице плана.

Реализации программного обеспечения

[ редактировать ]

Многие программы и пакеты статистики, такие как R , Python и т. д., включают реализации стьюдентизированного остатка.

Язык/Программа Функция Примечания
Р rstandard(model, ...)внутренне студенческий. См . [2]
Р rstudent(model, ...)экстерном студенчество. См . [3]


См. также

[ редактировать ]
  1. ^ по диагностике удаления регрессии Документы R
  2. ^ Jump up to: а б Аллен Дж. Поуп (1976), «Статистика остатков и обнаружение выбросов», Министерство торговли США, Национальное управление океанических и атмосферных исследований, Национальная служба океанических исследований, Лаборатория геодезических исследований и разработок, 136 страниц, [1] , экв. .(6)
  3. ^ Томпсон, Уильям Р. (1935). «О критерии браковки наблюдений и распределении отношения отклонения к выборочному стандартному отклонению» . Анналы математической статистики . 6 (4): 214–219. дои : 10.1214/aoms/1177732567 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 05c40ff8b571ca0f2f13e7961967bf95__1700000940
URL1:https://arc.ask3.ru/arc/aa/05/95/05c40ff8b571ca0f2f13e7961967bf95.html
Заголовок, (Title) документа по адресу, URL1:
Studentized residual - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)