Нарезанная обратная регрессия
Срезная обратная регрессия ( SIR ) — это инструмент уменьшения размерности в области многомерной статистики . [1]
В статистике регрессионный анализ — это метод изучения взаимосвязи между переменной отклика y и ее входной переменной. , который является p -мерным вектором. В категории регрессии существует несколько подходов. Например, параметрические методы включают множественную линейную регрессию, а непараметрические методы включают локальное сглаживание.
Поскольку количество наблюдений, необходимых для использования методов локального сглаживания, экспоненциально масштабируется с многомерными данными (по мере роста p ), уменьшение количества измерений может сделать операцию вычислимой. Снижение размерности направлено на достижение этой цели путем отображения только наиболее важных измерений данных. SIR использует кривую обратной регрессии, , чтобы выполнить взвешенный анализ главных компонент.
Модель
[ редактировать ]Учитывая переменную ответа и (случайный) вектор объясняющих переменных, SIR основан на модели
где – неизвестные векторы проекций, неизвестное число, меньшее , это неизвестная функция на поскольку это зависит только от аргументы и — случайная величина, представляющая ошибку с и конечная дисперсия . Модель описывает идеальное решение, при котором зависит от только через размерное подпространство; т. е. можно уменьшить размерность объясняющих переменных с на меньшее число без потери какой-либо информации.
Эквивалентная версия это: условное распределение данный зависит от только через размерный случайный вектор . Предполагается, что этот уменьшенный вектор столь же информативен, как и исходный. в объяснении .
Неизвестное называются эффективными направлениями уменьшения размерности (EDR-направлениями). Пространство, охватываемое этими векторами, обозначается пространством уменьшения эффективной размерности (EDR-пространством).
Соответствующий опыт линейной алгебры
[ редактировать ]Данный , затем , набор всех линейных комбинаций этих векторов называется линейным подпространством и, следовательно, является векторным пространством. Уравнение говорит, что векторы охватывать , но векторы, охватывающие пространство не являются уникальными.
Размерность равно максимальному числу линейно независимых векторов в . Набор линейные независимые векторы составляет основу . Размерность векторного пространства уникальна, но сам базис — нет. Несколько баз могут занимать одно и то же пространство. Зависимые векторы все еще могут охватывать пространство, но линейные комбинации последних подходят только к множеству векторов, лежащих на прямой.
Обратная регрессия
[ редактировать ]Вычисление кривой обратной регрессии (IR) означает, что вместо поиска
- , которая представляет собой кривую
это на самом деле
- , которая также является кривой , но состоящий из одномерные регрессии.
Центр кривой обратной регрессии расположен в точке . Следовательно, центрированная кривая обратной регрессии равна
который представляет собой размерная кривая в .
Обратная регрессия против уменьшения размерности
[ редактировать ]Центрированная кривая обратной регрессии лежит на -мерное подпространство, охватываемое . Это связь между моделью и обратной регрессией.
Учитывая это условие и , центрированная кривая обратной регрессии содержится в линейном подпространстве, натянутом на , где .
Оценка EDR-направлений
[ редактировать ]После рассмотрения всех теоретических свойств цель теперь состоит в том, чтобы оценить направления МЭД. Для этой цели необходим анализ взвешенных главных компонентов. Если образец означает , был бы стандартизирован до . В соответствии с приведенной выше теоремой ИК-кривая лежит в пространстве, охватываемом , где . Как следствие, ковариационная матрица вырождается в любом направлении, ортогональном относительно . Следовательно, собственные векторы связан с крупнейшим собственные значения — это стандартизированные EDR-направления.
Алгоритм
[ редактировать ]Алгоритм оценки направлений EDR через SIR заключается в следующем.
1. Пусть быть ковариационной матрицей . Стандартизировать к
( также можно переписать как
где .)
2. Разделите диапазон в непересекающиеся фрагменты количество наблюдений внутри каждого среза и – индикаторная функция для среза:
3. Вычислите среднее значение по всем срезам, что является грубой оценкой кривой обратной регрессии :
4. Рассчитайте оценку :
5. Определить собственные значения и собственные векторы из , которые являются стандартизированными EDR-направлениями.
6. Преобразуйте стандартизированные направления EDR обратно в исходный масштаб. Оценки для EDR-направлений даны по формуле:
(которые не обязательно ортогональны)
Ссылки
[ редактировать ]- ^ Ли, Кер-Чау (1991). «Срезная обратная регрессия для уменьшения размеров» . Журнал Американской статистической ассоциации . 86 (414): 316–327. дои : 10.2307/2290563 . ISSN 0162-1459 .
- Ли, КЦ. (1991) «Срезная обратная регрессия для уменьшения размерности», Журнал Американской статистической ассоциации , 86, 316–327 Jstor.
- Кук, Р.Д. и Сэнфорд Вейсберг, С. (1991) «Срезная обратная регрессия для уменьшения размерности: комментарий», Журнал Американской статистической ассоциации , 86, 328–332 Jstor
- Хердл В. и Симар Л. (2003) Прикладной многомерный статистический анализ , Springer Verlag. ISBN 3-540-03079-4
- Краткая версия лекции Математика II в летнем семестре 2005 г. А. Брандта