Jump to content

Многомерная статистика

(Перенаправлено из многомерных данных )

В статистической теории область многомерной статистики изучает данные, размерность которых больше (относительно количества точек данных), чем обычно рассматривается в классическом многомерном анализе . Эта область возникла из-за появления многих современных наборов данных, в которых размерность векторов данных может быть сравнима или даже больше размера выборки , так что оправдание использования традиционных методов, часто основанных на асимптотических аргументах с размер, который оставался неизменным по мере увеличения размера выборки, отсутствовал. [1] [2]

Существует несколько понятий многомерного анализа статистических методов, в том числе:

  • Неасимптотические результаты, применимые для конечных (количество точек данных и размер измерения соответственно).
  • Асимптотика Колмогорова, изучающая асимптотическое поведение, при котором соотношение сходится к определенному конечному значению. [3]

Оценка параметров в линейных моделях

[ редактировать ]
Иллюстрация линейной модели в больших размерах: набор данных состоит из вектора ответа. и матрица дизайна с . Наша цель — оценить неизвестный вектор коэффициентов регрессии, где часто предполагается разреженным в том смысле, что мощность множества мал по сравнению с .

Самая базовая статистическая модель связи между ковариат . вектором и переменная ответа это линейная модель

где — вектор неизвестных параметров, а это случайный шум со средним нулем и дисперсией . Учитывая независимые ответы , с соответствующими ковариатами , из этой модели мы можем сформировать вектор отклика и матрица расчета . Когда и матрица плана имеет полный ранг столбца (т. е. ее столбцы линейно независимы ), наименьших квадратов обычная оценка методом является

Когда , известно , что . Таким образом, является несмещенной оценкой , а теорема Гаусса-Маркова говорит нам, что это лучший линейный несмещенный оценщик .

Однако переобучение вызывает беспокойство, когда имеет сопоставимую величину с : матрица в определении может стать плохо обусловленным , с небольшим минимальным собственным значением . В таких обстоятельствах будет большим (поскольку след матрицы представляет собой сумму ее собственных значений). Еще хуже, когда , матрица является единичным . (См. раздел 1.2 и упражнение 1.2 в [1] .)

Важно отметить, что ухудшение качества оценки в больших размерностях, наблюдаемое в предыдущем абзаце, не ограничивается обычным методом наименьших квадратов. Фактически, статистический вывод в больших размерностях по своей сути труден, это явление известно как проклятие размерности , и можно показать, что ни один оценщик не сможет добиться большего результата в худшем случае без дополнительной информации (см. Пример 15.10). [2] ). Тем не менее, ситуация в многомерной статистике не может быть безнадежной, когда данные обладают некоторой низкоразмерной структурой. Одним из распространенных предположений для многомерной линейной регрессии является то, что вектор коэффициентов регрессии является разреженным в том смысле, что большинство координат равны нулю. Многие статистические процедуры, в том числе Лассо , были предложены для соответствия линейным моделям высокой размерности при таких предположениях о разреженности.

Оценка ковариационной матрицы

[ редактировать ]

Другой пример многомерного статистического явления можно найти в задаче оценки ковариационной матрицы . Предположим, что мы наблюдаем , которые являются iid , взятыми из некоторого нулевого среднего распределения с неизвестной ковариационной матрицей . Естественная несмещенная оценка это выборочная ковариационная матрица

В низкоразмерной обстановке, где увеличивается и удерживается фиксированным, является оценкой последовательной в любой матричной норме . Когда растет вместе с С другой стороны, этот результат согласованности может не соблюдаться. В качестве иллюстрации предположим, что каждый и . Если должны были последовательно оценивать , то собственные значения следует подходить к одному как увеличивается. Оказывается, в этой многомерной ситуации это не так. Действительно, наибольшие и наименьшие собственные значения сконцентрироваться вокруг и соответственно, в соответствии с предельным распределением, полученным Трейси и Видомом , и они явно отклоняются от единичных собственных значений . Дополнительная информация об асимптотическом поведении собственных значений можно получить из закона Марченко–Пастура . С неасимптотической точки зрения максимальное собственное значение из удовлетворяет

для любого и все варианты пар . [2]

Опять же, для успешной оценки ковариационной матрицы в больших размерностях необходима дополнительная низкоразмерная структура. Примеры таких структур включают разреженность , низкий ранг и полосчатость . Аналогичные замечания применимы при оценке обратной ковариационной матрицы (матрицы точности) .

С прикладной точки зрения исследования в области многомерной статистики были мотивированы осознанием того, что достижения в области вычислительных технологий значительно расширили возможности сбора и хранения данных и что традиционные статистические методы, такие как описанные в примерах выше, часто были плохо оснащены. справиться с возникающими проблемами. Теоретические достижения в этой области можно проследить до замечательного результата Чарльза Стейна, полученного в 1956 году. [4] где он доказал, что обычная оценка многомерного нормального среднего значения неприемлема в отношении квадратичных потерь ошибок в трех или более измерениях. Действительно, оценка Джеймса-Стейна [5] обеспечил понимание того, что в условиях большой размерности можно получить улучшенную производительность оценки за счет сокращения, которое уменьшает дисперсию за счет внесения небольшой систематической ошибки. Этот компромисс между смещением и дисперсией был дополнительно использован в контексте многомерных линейных моделей Хорлом и Кеннардом в 1970 году с введением гребневой регрессии . [6] Еще один важный импульс развитию этой области дала Роберта Тибширани работа над « Лассо» в 1996 году, в которой использовались регуляризация для достижения одновременного выбора модели и оценки параметров в многомерной разреженной линейной регрессии. [7] С тех пор было предложено большое количество других средств оценки усадки , позволяющих использовать различные низкоразмерные структуры в широком спектре многомерных статистических задач.

Темы многомерной статистики

[ редактировать ]

Ниже приведены примеры тем, которым в последние годы уделяется значительное внимание в литературе по многомерной статистике:

  • Линейные модели в больших размерах. Линейные модели являются одним из наиболее широко используемых инструментов в статистике и ее приложениях. Таким образом, разреженная линейная регрессия является одной из наиболее хорошо изученных тем в многомерных статистических исследованиях. Основываясь на более ранних работах по регрессии гребней и Лассо несколько других средств оценки усадки , было предложено и изучено для этой и связанных с ней задач. Они включают в себя
    • Селектор Данцига, который минимизирует максимальную корреляцию ковариата-остаток вместо остаточной суммы квадратов, как в Лассо, с учетом ограничение на коэффициенты. [8]
    • Эластичная сетка , которая сочетает в себе регуляризация Лассо с регуляризация гребневой регрессии , позволяющая одновременно выбирать высококоррелированные ковариаты с аналогичными коэффициентами регрессии. [9]
    • Групповое лассо , которое позволяет совместно выбирать предварительно определенные группы ковариат. [10]
    • Fused lasso , который упорядочивает разницу между соседними коэффициентами, когда коэффициенты регрессии отражают пространственные или временные отношения, чтобы обеспечить кусочно-постоянную структуру. [11]
  • Многомерный выбор переменных . Помимо оценки основного параметра в регрессионных моделях, еще одной важной темой является поиск ненулевых коэффициентов, поскольку они соответствуют переменным, которые необходимы в окончательной модели. Для этой цели можно использовать каждый из методов, перечисленных под предыдущим заголовком, и иногда его комбинируют с такими идеями, как субдискретизация посредством выбора стабильности. [12] [13]
  • Многомерная ковариация и прецизионная оценка матрицы. Эти проблемы были представлены выше; см. также оценку усадки . Методы включают в себя оценки конусности. [14] и ограниченность минимизационная оценка. [15]
  • Разреженный анализ главных компонент . Анализ главных компонентов — еще один метод, который не работает в больших измерениях; точнее, при соответствующих условиях ведущий собственный вектор выборочной ковариационной матрицы является несогласованной оценкой своего аналога генеральной совокупности, когда соотношение числа переменных к количеству наблюдений ограничено от нуля. [16] В предположении, что этот ведущий собственный вектор разрежен (что может способствовать интерпретируемости), согласованность может быть восстановлена. [17]
  • Завершение матрицы . Эта тема, касающаяся задачи заполнения недостающих записей частично наблюдаемой матрицы, стала популярной во многом благодаря премии Netflix за предсказание пользовательских рейтингов фильмов.
  • Высокомерная классификация. Линейный дискриминантный анализ нельзя использовать, если , поскольку выборочная ковариационная матрица является сингулярной . Были предложены альтернативные подходы, основанные на наивном Байесе . [18] выбор функции [19] и случайные проекции . [20]
  • Графические модели для многомерных данных . Графические модели используются для кодирования структуры условной зависимости между различными переменными. В предположении гауссовости проблема сводится к оценке разреженной матрицы точности, обсуждавшейся выше.

Примечания

[ редактировать ]
  1. ^ Jump up to: а б Ледерер, Йоханнес (2022). Основы многомерной статистики: с упражнениями и лабораторными работами по R. Учебники Springer по статистике. дои : 10.1017/9781108627771 . ISBN  9781108498029 . S2CID   128095693 .
  2. ^ Jump up to: а б с Уэйнрайт, Мартин Дж. (2019). Многомерная статистика: неасимптотическая точка зрения . Издательство Кембриджского университета. дои : 10.1017/9781108627771 . ISBN  9781108498029 . S2CID   128095693 .
  3. ^ Уэйнрайт М.Дж. Многомерная статистика: неасимптотическая точка зрения. Кембридж: Издательство Кембриджского университета; 2019. doi:10.1017/9781108627771
  4. ^ Штейн, К. (1956), «Недопустимость обычной оценки среднего многомерного распределения», Proc. Третий симпозиум Беркли. Математика. Статист. Проб. , том. 1, стр. 197–206, МР   0084922 , Збл   0073.35602
  5. ^ Джеймс, В.; Штейн, К. (1961), "Оценка с квадратичными потерями", Proc. Четвертый симпозиум Беркли. Математика. Статист. Проб. , том. 1, стр. 361–379, МР   0133191
  6. ^ Хорл, Артур Э. и Роберт В. Кеннард. «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика , вып. 12, нет. 1, 1970, стр. 55–67. [www.jstor.org/stable/1267351 JSTOR]. По состоянию на 13 марта 2021 г.
  7. ^ Тибширани, Роберт (1996). «Регрессионное сокращение и отбор с помощью лассо». Журнал Королевского статистического общества . Серия Б (методическая). 58 (1). Уайли: 267–88. JSTOR   2346178 .
  8. ^ Кандес, Эммануэль ; Тао, Теренс (2007). «Селектор Данцига: статистическая оценка, когда p намного больше n ». Анналы статистики . 35 (6): 2313–2351. arXiv : math/0506081 . дои : 10.1214/009053606000001523 . МР   2382644 . S2CID   88524200 .
  9. ^ Цзоу, Хуэй; Хасти, Тревор (2005). «Регуляризация и выбор переменных с помощью эластичной сети» . Журнал Королевского статистического общества . Серия Б (статистическая методология). 67 (2). Уайли: 301–20. дои : 10.1111/j.1467-9868.2005.00503.x . JSTOR   3647580 .
  10. ^ Юань, Мин; Линь, Йи (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными» . Журнал Королевского статистического общества . Серия Б (статистическая методология). 68 (1). Уайли: 49–67. дои : 10.1111/j.1467-9868.2005.00532.x . JSTOR   3647556 . S2CID   6162124 .
  11. ^ Тибширани, Роберт, Майкл Сондерс, Сахарон Россет, Цзи Чжу и Кейт Найт. 2005. «Разреженность и гладкость с помощью слитого лассо». Журнал Королевского статистического общества. Серия Б (статистическая методология) 67 (1). Уайли: 91–108. https://www.jstor.org/stable/3647602 .
  12. ^ Майнсхаузен, Николай; Бюльманн, Питер (2010). «Выбор устойчивости» . Журнал Королевского статистического общества, серия B (статистическая методология) . 72 (4): 417–473. дои : 10.1111/j.1467-9868.2010.00740.x . ISSN   1467-9868 . S2CID   1231300 .
  13. ^ Шах, Раджен Д.; Сэмворт, Ричард Дж. (2013). «Выбор переменных с контролем ошибок: еще один взгляд на выбор стабильности» . Журнал Королевского статистического общества. Серия B (Статистическая методология) . 75 (1): 55–80. arXiv : 1105.5578 . дои : 10.1111/j.1467-9868.2011.01034.x . ISSN   1369-7412 . JSTOR   23361014 . S2CID   18211609 .
  14. ^ Кай, Т. Тони; Чжан, Цунь-Хуэй; Чжоу, Харрисон Х. (август 2010 г.). «Оптимальные скорости сходимости для оценки ковариационной матрицы» . Анналы статистики . 38 (4): 2118–2144. arXiv : 1010.3866 . дои : 10.1214/09-AOS752 . ISSN   0090-5364 . S2CID   14038500 . Проверено 06 апреля 2021 г.
  15. ^ Цай, Тони; Лю, Вэйдун, Си (01 июня 2011 г.) . Подход к минимизации оценки разреженной матрицы» . Журнал Американской статистической ассоциации . 106 (494): 594–607. arXiv : 1102.2233 . doi : 10.1198/jasa.2011.tm10155 . ISSN   0162-1459 . S2CID   159001 01 . Получено в 2021 г. 04-06 .
  16. ^ Джонстон, Иэн М.; Лу, Артур Ю (1 июня 2009 г.). «О согласованности и разреженности анализа главных компонентов в больших размерностях» . Журнал Американской статистической ассоциации . 104 (486): 682–693. дои : 10.1198/jasa.2009.0121 . ISSN   0162-1459 . ПМЦ   2898454 . ПМИД   20617121 .
  17. ^ Ву, Винсент К.; Лей, Цзин (декабрь 2013 г.). «Минимаксная оценка разреженного главного подпространства в больших размерностях» . Анналы статистики . 41 (6): 2905–2947. arXiv : 1211.0373 . дои : 10.1214/13-AOS1151 . ISSN   0090-5364 . S2CID   562591 .
  18. ^ Бикель, Питер Дж .; Левина, Елизавета (2004). «Некоторые теории линейной дискриминантной функции Фишера, наивной байесовской теории и некоторые альтернативы, когда переменных гораздо больше, чем наблюдений» . Бернулли . 10 (6): 989–1010. дои : 10.3150/bj/1106314847 .
  19. ^ Фань, Цзяньцин; Фань, Инъин (декабрь 2008 г.). «Многомерная классификация с использованием правил независимости, основанных на признаках» . Анналы статистики . 36 (6): 2605–2637. arXiv : math/0701108 . дои : 10.1214/07-AOS504 . ПМК   2630123 . ПМИД   19169416 . S2CID   2982392 .
  20. ^ Каннингс, Тимоти И.; Сэмворт, Ричард Дж. (2017). «Классификация случайно-проекционных ансамблей» . Журнал Королевского статистического общества, серия B (статистическая методология) . 79 (4): 959–1035. arXiv : 1504.04595 . дои : 10.1111/rssb.12228 . S2CID   88520328 .
  • Йоханнес Ледерер (2022). Основы многомерной статистики . Чам: Спрингер.
  • Кристоф Жиро (2015). Введение в многомерную статистику . Филадельфия: Чепмен и Холл/CRC.
  • Т. Тони Цай, Сяотун Шен, изд. (2011). Многомерный анализ данных . Границы статистики. Сингапур: World Scientific.
  • Питер Бюльманн и Сара ван де Гир (2011). Статистика для многомерных данных: методы, теория и приложения . Гейдельберг; Нью-Йорк: Спрингер.
  • Мартин Дж. Уэйнрайт (2019). Многомерная статистика: неасимптотическая точка зрения . Кембридж, Великобритания: Издательство Кембриджского университета.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 900cc76c929800f217de5bfd8d8a3937__1704574740
URL1:https://arc.ask3.ru/arc/aa/90/37/900cc76c929800f217de5bfd8d8a3937.html
Заголовок, (Title) документа по адресу, URL1:
High-dimensional statistics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)