ДФФИТС
В статистике DFFIT и DFFITS («разница в подгонке») представляют собой диагностику, предназначенную для того, чтобы показать, насколько влиятельна точка в линейной регрессии , впервые предложенной в 1980 году. [1]
DFFIT — это изменение прогнозируемого значения для точки, полученное, когда эта точка исключена из регрессии:
где и — это прогноз для точки i и без нее точкой i с включенной в регрессию .
DFFITS — это стьюдентизированный DFFIT, где стьюдентизация достигается путем деления на предполагаемое стандартное отклонение подгонки в этой точке:
где - стандартная ошибка, оцененная без рассматриваемой точки, и это рычаг для точки.
DFFITS также равен произведению внешне стьюдентизированного остатка ( ) и коэффициент кредитного плеча ( ): [2]
Таким образом, для точек низкого кредитного плеча ожидается, что DFFITS будет небольшим, тогда как, когда кредитное плечо достигает 1, распределение значения DFFITS расширяется бесконечно.
Для идеально сбалансированного плана эксперимента (например, факторного плана или сбалансированного частичного факторного плана) рычаг для каждой точки равен p/n — количеству параметров, разделенному на количество точек. Это означает, что значения DFFITS будут распределяться (в гауссовском случае) как раз в разное время. Поэтому авторы предлагают исследовать те точки, где DFFITS больше, чем .
Хотя исходные значения, полученные в результате уравнений, различны, расстояние Кука и DFFITS концептуально идентичны, и существует формула закрытой формы для преобразования одного значения в другое. [3]
Разработка
[ редактировать ]Раньше при оценке набора данных перед запуском линейной регрессии вероятность выбросов оценивалась с помощью гистограмм и диаграмм рассеяния. Оба метода оценки точек данных были субъективными, и было мало возможности узнать, какое влияние каждый потенциальный выброс имел на данные результатов. Это привело к появлению множества количественных показателей, включая DFFIT, DFBETA .
Ссылки
[ редактировать ]- ^ Белсли, Дэвид А.; Кух, Эдвин; Уэлш, Рой Э. (1980). Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности . Ряд Уайли по вероятности и математической статистике. Нью-Йорк: Джон Уайли и сыновья . стр. 11–16. ISBN 0-471-05856-4 .
- ^ Монтгомери, Дуглас К.; Пек, Элизабет А.; Вининг, Дж. Джеффри (2012). Введение в анализ линейной регрессии (5-е изд.). Уайли. п. 218. ИСБН 978-0-470-54281-1 . Проверено 22 февраля 2013 г.
Таким образом, DFFITS i — это значение R -студента, умноженное на рычаг i - го наблюдения [ h ii /(1 − h ii )] 1/2 .
- ^ Коэн, Джейкоб; Коэн, Патрисия; Уэст, Стивен Г.; Эйкен, Леона С. (2003). Прикладной множественный регрессионный/корреляционный анализ в поведенческих науках . ISBN 0-8058-2223-2 .