Jump to content

Достаточное уменьшение размеров

В статистике уменьшения достаточное уменьшение размерности (SDR) — это парадигма анализа данных, которая сочетает в себе идеи размерности с концепцией достаточности .

Уменьшение размерности уже давно является основной целью регрессионного анализа . Учитывая переменную ответа y и p -мерный вектор-предиктор регрессионный анализ направлен на изучение распределения , условное распределение данный . Уменьшение размерности — это функция это отображает к подмножеству , k < p , тем самым размерность уменьшая . [1] Например, может представлять собой одну или несколько линейных комбинаций .

Уменьшение размеров называется достаточным, если распределение такое же, как и у . Другими словами, никакая информация о регрессии не теряется при уменьшении размерности если сокращение достаточное. [1]

Графическая мотивация

[ редактировать ]

В условиях регрессии часто бывает полезно суммировать распределение графически. Например, можно рассмотреть рассеяния диаграмму по сравнению с одним или несколькими предикторами или линейной комбинацией предикторов. Диаграмма рассеяния, содержащая всю доступную информацию о регрессии, называется достаточной сводной диаграммой .

Когда является многомерным, особенно когда , становится все сложнее строить и визуально интерпретировать сводные графики достаточности без сокращения данных. Даже трехмерные диаграммы рассеяния необходимо просматривать с помощью компьютерной программы, а третье измерение можно визуализировать только путем вращения осей координат. Однако если существует достаточное уменьшение размерности с достаточно малым размером, достаточным сводным графиком против могут быть относительно легко построены и визуально интерпретированы.

Следовательно, достаточное уменьшение размерности позволяет получить графическое представление о распределении , который в противном случае мог бы быть недоступен для многомерных данных.

Большинство графических методологий фокусируются в первую очередь на уменьшении размеров, включая линейные комбинации . Оставшаяся часть статьи посвящена только таким сокращениям.

Подпространство уменьшения размерности

[ редактировать ]

Предполагать – достаточное уменьшение размерности, где это матрица с рангом . Тогда информация о регрессии для можно сделать вывод, изучая распределение , и сюжет против является достаточным сводным сюжетом.

Без ограничения общности , только пространство , занимаемое колоннами необходимо учитывать. Позволять быть основой для пространства столбцов , и пусть пространство, охватываемое обозначаться . Из определения достаточного уменьшения размерности следует, что

где обозначает соответствующую функцию распределения . Другой способ выразить это свойство:

или зависит условно не от , данный . Тогда подпространство определяется как подпространство уменьшения размерности (DRS) . [2]

Структурная размерность

[ редактировать ]

Для регресса , структурный размер , , — наименьшее число различных линейных комбинаций необходимо сохранить условное распределение . Другими словами, наименьшее уменьшение размеров, которого все еще достаточно, отображает к подмножеству . Соответствующий DRS будет d -мерным. [2]

Подпространство уменьшения минимальной размерности

[ редактировать ]

Подпространство считается минимальным DRS для если это DRS и его размер меньше или равен размеру всех других DRS для . Минимальный DRS не обязательно уникален, но его размерность равна структурной размерности из , по определению. [2]

Если имеет основу и представляет собой минимальный DRS, затем график зависимости y от является минимально достаточным сводным графиком и является ( d + 1)-мерным.

Центральное подпространство

[ редактировать ]

Если подпространство это DRS для , и если для всех остальных DRS , то это центральное подпространство уменьшения размерности или просто центральное подпространство , и оно обозначается . Другими словами, центральное подпространство для существует тогда и только тогда, когда пересечение всех подпространств уменьшения размерности также является подпространством уменьшения размерности, и это пересечение является центральным подпространством . [2]

Центральное подпространство не обязательно существует, поскольку пересечение это не обязательно DRS. Однако, если существует , то это также уникальное подпространство уменьшения минимальной размерности. [2]

Существование центрального подпространства

[ редактировать ]

Хотя существование центрального подпространства не гарантируется в каждой регрессионной ситуации, существуют некоторые довольно широкие условия, из которых непосредственно следует его существование. Например, рассмотрим следующее предложение Кука (1998):

Позволять и быть подпространствами уменьшения размерности для . Если имеет плотность для всех и везде, где выпукло , то пересечение также является подпространством уменьшения размерности.

Из этого предложения следует, что центральное подпространство существует для такого . [2]

Методы уменьшения размерности

[ редактировать ]

Существует множество методов уменьшения размерности, как графических, так и числовых. Например, срезная обратная регрессия (SIR) и срезовая оценка средней дисперсии (SAVE) были введены в 1990-х годах и продолжают широко использоваться. [3] Хотя SIR изначально был разработан для оценки размерность эффективного подпространства, уменьшающего , теперь понятно, что он оценивает только центральное подпространство, которое обычно отличается.

Более поздние методы уменьшения размерности включают достаточное уменьшение размерности на основе вероятности , [4] оценка центрального подпространства на основе обратного третьего момента (или k -го момента), [5] оценка центрального пространства решений, [6] графическая регрессия, [2] модель конверта и машина главных опорных векторов. [7] Более подробную информацию об этих и других методах можно найти в статистической литературе.

Анализ главных компонент (PCA) и аналогичные методы уменьшения размерности не основаны на принципе достаточности.

Пример: линейная регрессия

[ редактировать ]

Рассмотрим регрессионную модель

Обратите внимание, что распределение то же самое, что и распределение . Следовательно, промежуток является подпространством уменьшения размерности. Также, является 1-мерным (если только ), поэтому структурное измерение этой регрессии равно .

OLS Оценка из является последовательным , и поэтому диапазон является последовательной оценкой . Сюжет против является достаточным сводным графиком для этой регрессии.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Jump up to: а б Кук и Адраньи (2009) Достаточное уменьшение размерности и прогнозирование регрессии в: Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences , 367 (1906): 4385–4405.
  2. ^ Jump up to: а б с д и ж г Кук, Р.Д. (1998) Графика регрессии: идеи изучения регрессии с помощью графики , Уайли ISBN   0471193658
  3. ^ Ли, КЦ. (1991) Срезная обратная регрессия для уменьшения размерности : Журнал Американской статистической ассоциации , 86 (414): 316–327.
  4. ^ Кук, Р.Д. и Форзани, Л. (2009) «Достаточное уменьшение размерности на основе вероятности», Журнал Американской статистической ассоциации , 104 (485): 197–208
  5. ^ Инь, X. и Кук, Р.Д. (2003) Оценка центральных подпространств с помощью обратных третьих моментов в: Biometrika , 90 (1): 113–125.
  6. ^ Ли, Б. и Донг, Ю.Д. (2009) Уменьшение размерности для неэллиптически распределенных предикторов в: Анналы статистики , 37 (3): 1272–1298.
  7. ^ Ли, Бинг; Артемиу, Андреас; Ли, Лексин (2011). «Основные опорные векторные машины для линейного и нелинейного достаточного уменьшения размерности». Анналы статистики . 39 (6): 3182–3210. arXiv : 1203.2790 . дои : 10.1214/11-AOS932 . S2CID   88519106 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 379c4cede5c7f868e73bf51d9dec0f69__1715718960
URL1:https://arc.ask3.ru/arc/aa/37/69/379c4cede5c7f868e73bf51d9dec0f69.html
Заголовок, (Title) документа по адресу, URL1:
Sufficient dimension reduction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)