Достаточное уменьшение размеров
В статистике уменьшения достаточное уменьшение размерности (SDR) — это парадигма анализа данных, которая сочетает в себе идеи размерности с концепцией достаточности .
Уменьшение размерности уже давно является основной целью регрессионного анализа . Учитывая переменную ответа y и p -мерный вектор-предиктор регрессионный анализ направлен на изучение распределения , условное распределение данный . Уменьшение размерности — это функция это отображает к подмножеству , k < p , тем самым размерность уменьшая . [1] Например, может представлять собой одну или несколько линейных комбинаций .
Уменьшение размеров называется достаточным, если распределение такое же, как и у . Другими словами, никакая информация о регрессии не теряется при уменьшении размерности если сокращение достаточное. [1]
Графическая мотивация
[ редактировать ]В условиях регрессии часто бывает полезно суммировать распределение графически. Например, можно рассмотреть рассеяния диаграмму по сравнению с одним или несколькими предикторами или линейной комбинацией предикторов. Диаграмма рассеяния, содержащая всю доступную информацию о регрессии, называется достаточной сводной диаграммой .
Когда является многомерным, особенно когда , становится все сложнее строить и визуально интерпретировать сводные графики достаточности без сокращения данных. Даже трехмерные диаграммы рассеяния необходимо просматривать с помощью компьютерной программы, а третье измерение можно визуализировать только путем вращения осей координат. Однако если существует достаточное уменьшение размерности с достаточно малым размером, достаточным сводным графиком против могут быть относительно легко построены и визуально интерпретированы.
Следовательно, достаточное уменьшение размерности позволяет получить графическое представление о распределении , который в противном случае мог бы быть недоступен для многомерных данных.
Большинство графических методологий фокусируются в первую очередь на уменьшении размеров, включая линейные комбинации . Оставшаяся часть статьи посвящена только таким сокращениям.
Подпространство уменьшения размерности
[ редактировать ]Предполагать – достаточное уменьшение размерности, где это матрица с рангом . Тогда информация о регрессии для можно сделать вывод, изучая распределение , и сюжет против является достаточным сводным сюжетом.
Без ограничения общности , только пространство , занимаемое колоннами необходимо учитывать. Позволять быть основой для пространства столбцов , и пусть пространство, охватываемое обозначаться . Из определения достаточного уменьшения размерности следует, что
где обозначает соответствующую функцию распределения . Другой способ выразить это свойство:
или зависит условно не от , данный . Тогда подпространство определяется как подпространство уменьшения размерности (DRS) . [2]
Структурная размерность
[ редактировать ]Для регресса , структурный размер , , — наименьшее число различных линейных комбинаций необходимо сохранить условное распределение . Другими словами, наименьшее уменьшение размеров, которого все еще достаточно, отображает к подмножеству . Соответствующий DRS будет d -мерным. [2]
Подпространство уменьшения минимальной размерности
[ редактировать ]Подпространство считается минимальным DRS для если это DRS и его размер меньше или равен размеру всех других DRS для . Минимальный DRS не обязательно уникален, но его размерность равна структурной размерности из , по определению. [2]
Если имеет основу и представляет собой минимальный DRS, затем график зависимости y от является минимально достаточным сводным графиком и является ( d + 1)-мерным.
Центральное подпространство
[ редактировать ]Если подпространство это DRS для , и если для всех остальных DRS , то это центральное подпространство уменьшения размерности или просто центральное подпространство , и оно обозначается . Другими словами, центральное подпространство для существует тогда и только тогда, когда пересечение всех подпространств уменьшения размерности также является подпространством уменьшения размерности, и это пересечение является центральным подпространством . [2]
Центральное подпространство не обязательно существует, поскольку пересечение это не обязательно DRS. Однако, если существует , то это также уникальное подпространство уменьшения минимальной размерности. [2]
Существование центрального подпространства
[ редактировать ]Хотя существование центрального подпространства не гарантируется в каждой регрессионной ситуации, существуют некоторые довольно широкие условия, из которых непосредственно следует его существование. Например, рассмотрим следующее предложение Кука (1998):
- Позволять и быть подпространствами уменьшения размерности для . Если имеет плотность для всех и везде, где выпукло , то пересечение также является подпространством уменьшения размерности.
Из этого предложения следует, что центральное подпространство существует для такого . [2]
Методы уменьшения размерности
[ редактировать ]Существует множество методов уменьшения размерности, как графических, так и числовых. Например, срезная обратная регрессия (SIR) и срезовая оценка средней дисперсии (SAVE) были введены в 1990-х годах и продолжают широко использоваться. [3] Хотя SIR изначально был разработан для оценки размерность эффективного подпространства, уменьшающего , теперь понятно, что он оценивает только центральное подпространство, которое обычно отличается.
Более поздние методы уменьшения размерности включают достаточное уменьшение размерности на основе вероятности , [4] оценка центрального подпространства на основе обратного третьего момента (или k -го момента), [5] оценка центрального пространства решений, [6] графическая регрессия, [2] модель конверта и машина главных опорных векторов. [7] Более подробную информацию об этих и других методах можно найти в статистической литературе.
Анализ главных компонент (PCA) и аналогичные методы уменьшения размерности не основаны на принципе достаточности.
Пример: линейная регрессия
[ редактировать ]Рассмотрим регрессионную модель
Обратите внимание, что распределение то же самое, что и распределение . Следовательно, промежуток является подпространством уменьшения размерности. Также, является 1-мерным (если только ), поэтому структурное измерение этой регрессии равно .
OLS Оценка из является последовательным , и поэтому диапазон является последовательной оценкой . Сюжет против является достаточным сводным графиком для этой регрессии.
См. также
[ редактировать ]- Уменьшение размеров
- Нарезанная обратная регрессия
- Анализ главных компонентов
- Линейный дискриминантный анализ
- Проклятие размерности
- Мультилинейное обучение подпространству
Примечания
[ редактировать ]- ^ Jump up to: а б Кук и Адраньи (2009) Достаточное уменьшение размерности и прогнозирование регрессии в: Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences , 367 (1906): 4385–4405.
- ^ Jump up to: а б с д и ж г Кук, Р.Д. (1998) Графика регрессии: идеи изучения регрессии с помощью графики , Уайли ISBN 0471193658
- ^ Ли, КЦ. (1991) Срезная обратная регрессия для уменьшения размерности : Журнал Американской статистической ассоциации , 86 (414): 316–327.
- ^ Кук, Р.Д. и Форзани, Л. (2009) «Достаточное уменьшение размерности на основе вероятности», Журнал Американской статистической ассоциации , 104 (485): 197–208
- ^ Инь, X. и Кук, Р.Д. (2003) Оценка центральных подпространств с помощью обратных третьих моментов в: Biometrika , 90 (1): 113–125.
- ^ Ли, Б. и Донг, Ю.Д. (2009) Уменьшение размерности для неэллиптически распределенных предикторов в: Анналы статистики , 37 (3): 1272–1298.
- ^ Ли, Бинг; Артемиу, Андреас; Ли, Лексин (2011). «Основные опорные векторные машины для линейного и нелинейного достаточного уменьшения размерности». Анналы статистики . 39 (6): 3182–3210. arXiv : 1203.2790 . дои : 10.1214/11-AOS932 . S2CID 88519106 .
Ссылки
[ редактировать ]- Кук, Р.Д. (1998) Графика регрессии: идеи для изучения регрессий с помощью графиков , Серия Уайли по вероятности и статистике. Регрессионная графика .
- Кук, Р.Д. и Адрагни, КП (2009) «Достаточное уменьшение размерности и прогнозирование регрессии», Философские труды Королевского общества A: Математические, физические и инженерные науки , 367 (1906), 4385–4405. Полный текст
- Кук Р.Д. и Вайсберг С. (1991) «Срезная обратная регрессия для уменьшения размерности: комментарий», Журнал Американской статистической ассоциации , 86 (414), 328–332. Джстор
- Ли, КЦ. (1991) «Срезная обратная регрессия для уменьшения размерности», Журнал Американской статистической ассоциации , 86 (414), 316–327. Джстор