Матрица проекции
В статистике матрица проекции , [1] иногда также называется матрицей влияния [2] или шляпная матрица , сопоставляет вектор значений ответа (значений зависимой переменной) с вектором подогнанных значений (или прогнозируемых значений). Он описывает влияние каждого значения ответа на каждое подобранное значение. [3] [4] Диагональными элементами матрицы проекции являются рычаги , которые описывают влияние каждого значения ответа на подобранное значение для того же наблюдения.
Определение
[ редактировать ]Если вектор значений ответа обозначить через и вектор подобранных значений на ,
Как обычно произносится как «y-hat», матрица проекции также называется шляпной матрицей, поскольку она «надевает шляпу на ".
Заявление на остаток
[ редактировать ]Формула для вектора остатков также можно компактно выразить с помощью матрицы проекции:
где является единичной матрицей . Матрица иногда называют матрицей создателя остатков или матрицей аннигилятора .
Ковариационная матрица остатков , по распространению ошибки , равно
- ,
где — это ковариационная матрица вектора ошибки (и, соответственно, вектора ответа). Для случая линейных моделей с независимыми и одинаково распределенными ошибками, в которых , это сводится к: [3]
- .
Интуиция
[ редактировать ]Из рисунка видно, что ближайшая точка вектора на пространство столбца , является , и это тот, где мы можем нарисовать линию, ортогональную пространству столбцов . Вектор, ортогональный пространству столбцов матрицы, находится в пустом пространстве транспонирования матрицы, поэтому
- .
Оттуда переставляется, так
- .
Следовательно, поскольку находится в пространстве столбцов , матрица проекции, которая отображает на это просто , или .
Линейная модель
[ редактировать ]Предположим, что мы хотим оценить линейную модель, используя линейный метод наименьших квадратов. Модель можно записать как
где — матрица объясняющих переменных ( матрица плана ), β — вектор неизвестных параметров, подлежащих оценке, а ε — вектор ошибок.
Многие типы моделей и методов подпадают под эту формулировку. Несколько примеров: линейный метод наименьших квадратов , сглаживающие сплайны , сплайны регрессии , локальная регрессия , ядерная регрессия и линейная фильтрация .
Обычные наименьшие квадраты
[ редактировать ]Когда веса для каждого наблюдения идентичны и ошибки некоррелированы, оцениваемые параметры равны
поэтому подобранные значения
Следовательно, матрица проекции (и матрица шляпы) определяется выражением
Взвешенные и обобщенные методы наименьших квадратов
[ редактировать ]Вышеизложенное можно обобщить на случаи, когда веса не идентичны и/или ошибки коррелируют. Предположим, что ковариационная матрица ошибок равна Σ . Тогда с тех пор
- .
матрица шляпы, таким образом,
и снова можно увидеть, что , хотя теперь он уже не симметричен.
Характеристики
[ редактировать ]Матрица проекции обладает рядом полезных алгебраических свойств. [5] [6] На языке линейной алгебры матрица проекции — это ортогональная проекция на пространство столбцов матрицы плана. . [4] (Обратите внимание, что является псевдообратной X .) Некоторые факты о матрице проекции в этом случае суммируются следующим образом: [4]
- и
- симметричен, и поэтому .
- является идемпотентным: и так есть .
- Если представляет собой матрицу размера n × r с , затем
- Собственные значения состоят из r единиц и n − r нулей, а собственные значения состоят из n − r единиц и r нулей. [7]
- инвариантен относительно : следовательно .
- уникально для некоторых подпространств.
Матрица проекции, соответствующая линейной модели , симметрична и идемпотентна , то есть . Однако это не всегда так; Например, при локально взвешенном сглаживании диаграмм рассеяния (LOESS) матрица шляпки, как правило, не является ни симметричной, ни идемпотентной.
Для линейных моделей след матрицы равен рангу проекции , что представляет собой количество независимых параметров линейной модели. [8] Для других моделей, таких как LOESS, которые по-прежнему линейны в наблюдениях , матрица проекции может использоваться для определения эффективных степеней свободы модели.
Практическое применение матрицы проекции в регрессионном анализе включает рычаг и расстояние Кука , которые связаны с выявлением влиятельных наблюдений , то есть наблюдений, которые оказывают большое влияние на результаты регрессии.
Блочная формула
[ редактировать ]Предположим, что матрица плана можно разложить по столбцам как .Определите шляпу или оператор проекции как . Аналогично определите оператор невязки как .Тогда матрицу проекции можно разложить следующим образом: [9]
где, например, и .Существует ряд приложений такого разложения. В классическом приложении представляет собой столбец всех единиц, который позволяет анализировать эффекты добавления члена-члена в регрессию. Другое применение — в модели с фиксированными эффектами , где представляет собой большую разреженную матрицу фиктивных переменных для членов с фиксированным эффектом. Это разделение можно использовать для вычисления шляпной матрицы без явного формирования матрицы , который может быть слишком большим, чтобы поместиться в память компьютера.
История
[ редактировать ]Матрица шляпы была представлена Джоном Уайлдером в 1972 году. В статье Хоглина, округ Колумбия, и Уэлша, Р.Э. (1978) приводятся свойства матрицы, а также множество примеров ее применения.
См. также
[ редактировать ]- Проекция (линейная алгебра)
- Стьюдентизированные остатки
- Эффективные степени свободы
- Средний и прогнозируемый ответ
Ссылки
[ редактировать ]- ^ Базилевский, Александр (2005). Прикладная матричная алгебра в статистических науках . Дувр. стр. 160–176. ISBN 0-486-44538-0 .
- ^ «Ассимиляция данных: диагностика влияния наблюдения на систему усвоения данных» (PDF) . Архивировано из оригинала (PDF) 3 сентября 2014 г.
- ^ Jump up to: а б Хоглин, Дэвид К.; Уэлш, Рой Э. (февраль 1978 г.). «Матрица шляпы в регрессии и дисперсионном анализе» (PDF) . Американский статистик . 32 (1): 17–22. дои : 10.2307/2683469 . hdl : 1721.1/1920 . JSTOR 2683469 .
- ^ Jump up to: а б с Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета .
- ^ Ганс, П. (1992). Подгонка данных в химических науках . Уайли. ISBN 0-471-93412-7 .
- ^ Дрейпер, Северная Каролина; Смит, Х. (1998). Прикладной регрессионный анализ . Уайли. ISBN 0-471-17082-8 .
- ^ Амемия, Такеши (1985). Продвинутая эконометрика . Кембридж: Издательство Гарвардского университета. стр. 460–461 . ISBN 0-674-00560-0 .
- ^ «Доказательство того, что след матрицы «шляпы» в линейной регрессии имеет ранг X» . Обмен стеками . 13 апреля 2017 г.
- ^ Рао, К. Радхакришна; Тутенбург, Хельге; Шалабх; Хойманн, Кристиан (2008). Линейные модели и обобщения (3-е изд.). Берлин: Шпрингер. п. 323 . ISBN 978-3-540-74226-5 .