Jump to content

Нарезанная обратная регрессия

Срезная обратная регрессия ( SIR ) — это инструмент уменьшения размерности в области многомерной статистики . [1]

В статистике регрессионный анализ — это метод изучения взаимосвязи между переменной отклика y и ее входной переменной. , который является p -мерным вектором. В категории регрессии существует несколько подходов. Например, параметрические методы включают множественную линейную регрессию, а непараметрические методы включают локальное сглаживание.

Поскольку количество наблюдений, необходимых для использования методов локального сглаживания, экспоненциально масштабируется с многомерными данными (по мере роста p ), уменьшение количества измерений может сделать операцию вычислимой. Снижение размерности направлено на достижение этой цели путем отображения только наиболее важных измерений данных. SIR использует кривую обратной регрессии, , чтобы выполнить взвешенный анализ главных компонент.

Учитывая переменную ответа и (случайный) вектор объясняющих переменных, SIR основан на модели

где – неизвестные векторы проекций, неизвестное число, меньшее , это неизвестная функция на поскольку это зависит только от аргументы и — случайная величина, представляющая ошибку с и конечная дисперсия . Модель описывает идеальное решение, при котором зависит от только через размерное подпространство; т. е. можно уменьшить размерность объясняющих переменных с на меньшее число без потери какой-либо информации.

Эквивалентная версия это: условное распределение данный зависит от только через размерный случайный вектор . Предполагается, что этот уменьшенный вектор столь же информативен, как и исходный. в объяснении .

Неизвестное называются эффективными направлениями уменьшения размерности (EDR-направлениями). Пространство, охватываемое этими векторами, обозначается пространством уменьшения эффективной размерности (EDR-пространством).

Соответствующий опыт линейной алгебры

[ редактировать ]

Данный , затем , набор всех линейных комбинаций этих векторов называется линейным подпространством и, следовательно, является векторным пространством. Уравнение говорит, что векторы охватывать , но векторы, охватывающие пространство не являются уникальными.

Размерность равно максимальному числу линейно независимых векторов в . Набор линейные независимые векторы составляет основу . Размерность векторного пространства уникальна, но сам базис — нет. Несколько баз могут занимать одно и то же пространство. Зависимые векторы все еще могут охватывать пространство, но линейные комбинации последних подходят только к множеству векторов, лежащих на прямой.

Обратная регрессия

[ редактировать ]

Вычисление кривой обратной регрессии (IR) означает, что вместо поиска

  • , которая представляет собой кривую

это на самом деле

  • , которая также является кривой , но состоящий из одномерные регрессии.

Центр кривой обратной регрессии расположен в точке . Следовательно, центрированная кривая обратной регрессии равна

который представляет собой размерная кривая в .

Обратная регрессия против уменьшения размерности

[ редактировать ]

Центрированная кривая обратной регрессии лежит на -мерное подпространство, охватываемое . Это связь между моделью и обратной регрессией.

Учитывая это условие и , центрированная кривая обратной регрессии содержится в линейном подпространстве, натянутом на , где .

Оценка EDR-направлений

[ редактировать ]

После рассмотрения всех теоретических свойств цель теперь состоит в том, чтобы оценить направления МЭД. Для этой цели необходим анализ взвешенных главных компонентов. Если образец означает , был бы стандартизирован до . В соответствии с приведенной выше теоремой ИК-кривая лежит в пространстве, охватываемом , где . Как следствие, ковариационная матрица вырождается в любом направлении, ортогональном относительно . Следовательно, собственные векторы связан с крупнейшим собственные значения — это стандартизированные EDR-направления.

Алгоритм

[ редактировать ]

Алгоритм оценки направлений EDR через SIR заключается в следующем.

1. Пусть быть ковариационной матрицей . Стандартизировать к

( также можно переписать как

где .)

2. Разделите диапазон в непересекающиеся фрагменты количество наблюдений внутри каждого среза и – индикаторная функция для среза:

3. Вычислите среднее значение по всем срезам, что является грубой оценкой кривой обратной регрессии :

4. Рассчитайте оценку :

5. Определить собственные значения и собственные векторы из , которые являются стандартизированными EDR-направлениями.

6. Преобразуйте стандартизированные направления EDR обратно в исходный масштаб. Оценки для EDR-направлений даны по формуле:

(которые не обязательно ортогональны)

  1. ^ Ли, Кер-Чау (1991). «Срезная обратная регрессия для уменьшения размеров» . Журнал Американской статистической ассоциации . 86 (414): 316–327. дои : 10.2307/2290563 . ISSN   0162-1459 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 36f34ae37d7087e0e33025a101c7f7f5__1711375860
URL1:https://arc.ask3.ru/arc/aa/36/f5/36f34ae37d7087e0e33025a101c7f7f5.html
Заголовок, (Title) документа по адресу, URL1:
Sliced inverse regression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)