Многомерная статистика
В статистической теории область многомерной статистики изучает данные, размерность которых больше (относительно количества точек данных), чем обычно рассматривается в классическом многомерном анализе . Эта область возникла из-за появления многих современных наборов данных, в которых размерность векторов данных может быть сравнима или даже больше размера выборки , так что оправдание использования традиционных методов, часто основанных на асимптотических аргументах с размер, который оставался неизменным по мере увеличения размера выборки, отсутствовал. [1] [2]
Существует несколько понятий многомерного анализа статистических методов, в том числе:
- Неасимптотические результаты, применимые для конечных (количество точек данных и размер измерения соответственно).
- Асимптотика Колмогорова, изучающая асимптотическое поведение, при котором соотношение сходится к определенному конечному значению. [3]
Примеры
[ редактировать ]Оценка параметров в линейных моделях
[ редактировать ]Самая базовая статистическая модель связи между ковариат . вектором и переменная ответа это линейная модель
где — вектор неизвестных параметров, а это случайный шум со средним нулем и дисперсией . Учитывая независимые ответы , с соответствующими ковариатами , из этой модели мы можем сформировать вектор отклика и матрица расчета . Когда и матрица плана имеет полный ранг столбца (т. е. ее столбцы линейно независимы ), наименьших квадратов обычная оценка методом является
Когда , известно , что . Таким образом, является несмещенной оценкой , а теорема Гаусса-Маркова говорит нам, что это лучший линейный несмещенный оценщик .
Однако переобучение вызывает беспокойство, когда имеет сопоставимую величину с : матрица в определении может стать плохо обусловленным , с небольшим минимальным собственным значением . В таких обстоятельствах будет большим (поскольку след матрицы представляет собой сумму ее собственных значений). Еще хуже, когда , матрица является единичным . (См. раздел 1.2 и упражнение 1.2 в [1] .)
Важно отметить, что ухудшение качества оценки в больших размерностях, наблюдаемое в предыдущем абзаце, не ограничивается обычным методом наименьших квадратов. Фактически, статистический вывод в больших размерностях по своей сути труден, это явление известно как проклятие размерности , и можно показать, что ни один оценщик не сможет добиться большего результата в худшем случае без дополнительной информации (см. Пример 15.10). [2] ). Тем не менее, ситуация в многомерной статистике не может быть безнадежной, когда данные обладают некоторой низкоразмерной структурой. Одним из распространенных предположений для многомерной линейной регрессии является то, что вектор коэффициентов регрессии является разреженным в том смысле, что большинство координат равны нулю. Многие статистические процедуры, в том числе Лассо , были предложены для соответствия линейным моделям высокой размерности при таких предположениях о разреженности.
Оценка ковариационной матрицы
[ редактировать ]Другой пример многомерного статистического явления можно найти в задаче оценки ковариационной матрицы . Предположим, что мы наблюдаем , которые являются iid , взятыми из некоторого нулевого среднего распределения с неизвестной ковариационной матрицей . Естественная несмещенная оценка это выборочная ковариационная матрица
В низкоразмерной обстановке, где увеличивается и удерживается фиксированным, является оценкой последовательной в любой матричной норме . Когда растет вместе с С другой стороны, этот результат согласованности может не соблюдаться. В качестве иллюстрации предположим, что каждый и . Если должны были последовательно оценивать , то собственные значения следует подходить к одному как увеличивается. Оказывается, в этой многомерной ситуации это не так. Действительно, наибольшие и наименьшие собственные значения сконцентрироваться вокруг и соответственно, в соответствии с предельным распределением, полученным Трейси и Видомом , и они явно отклоняются от единичных собственных значений . Дополнительная информация об асимптотическом поведении собственных значений можно получить из закона Марченко–Пастура . С неасимптотической точки зрения максимальное собственное значение из удовлетворяет
для любого и все варианты пар . [2]
Опять же, для успешной оценки ковариационной матрицы в больших размерностях необходима дополнительная низкоразмерная структура. Примеры таких структур включают разреженность , низкий ранг и полосчатость . Аналогичные замечания применимы при оценке обратной ковариационной матрицы (матрицы точности) .
История
[ редактировать ]С прикладной точки зрения исследования в области многомерной статистики были мотивированы осознанием того, что достижения в области вычислительных технологий значительно расширили возможности сбора и хранения данных и что традиционные статистические методы, такие как описанные в примерах выше, часто были плохо оснащены. справиться с возникающими проблемами. Теоретические достижения в этой области можно проследить до замечательного результата Чарльза Стейна, полученного в 1956 году. [4] где он доказал, что обычная оценка многомерного нормального среднего значения неприемлема в отношении квадратичных потерь ошибок в трех или более измерениях. Действительно, оценка Джеймса-Стейна [5] обеспечил понимание того, что в условиях большой размерности можно получить улучшенную производительность оценки за счет сокращения, которое уменьшает дисперсию за счет внесения небольшой систематической ошибки. Этот компромисс между смещением и дисперсией был дополнительно использован в контексте многомерных линейных моделей Хорлом и Кеннардом в 1970 году с введением гребневой регрессии . [6] Еще один важный импульс развитию этой области дала Роберта Тибширани работа над « Лассо» в 1996 году, в которой использовались регуляризация для достижения одновременного выбора модели и оценки параметров в многомерной разреженной линейной регрессии. [7] С тех пор было предложено большое количество других средств оценки усадки , позволяющих использовать различные низкоразмерные структуры в широком спектре многомерных статистических задач.
Темы многомерной статистики
[ редактировать ]Ниже приведены примеры тем, которым в последние годы уделяется значительное внимание в литературе по многомерной статистике:
- Линейные модели в больших размерах. Линейные модели являются одним из наиболее широко используемых инструментов в статистике и ее приложениях. Таким образом, разреженная линейная регрессия является одной из наиболее хорошо изученных тем в многомерных статистических исследованиях. Основываясь на более ранних работах по регрессии гребней и Лассо несколько других средств оценки усадки , было предложено и изучено для этой и связанных с ней задач. Они включают в себя
- Селектор Данцига, который минимизирует максимальную корреляцию ковариата-остаток вместо остаточной суммы квадратов, как в Лассо, с учетом ограничение на коэффициенты. [8]
- Эластичная сетка , которая сочетает в себе регуляризация Лассо с регуляризация гребневой регрессии , позволяющая одновременно выбирать высококоррелированные ковариаты с аналогичными коэффициентами регрессии. [9]
- Групповое лассо , которое позволяет совместно выбирать предварительно определенные группы ковариат. [10]
- Fused lasso , который упорядочивает разницу между соседними коэффициентами, когда коэффициенты регрессии отражают пространственные или временные отношения, чтобы обеспечить кусочно-постоянную структуру. [11]
- Многомерный выбор переменных . Помимо оценки основного параметра в регрессионных моделях, еще одной важной темой является поиск ненулевых коэффициентов, поскольку они соответствуют переменным, которые необходимы в окончательной модели. Для этой цели можно использовать каждый из методов, перечисленных под предыдущим заголовком, и иногда его комбинируют с такими идеями, как субдискретизация посредством выбора стабильности. [12] [13]
- Многомерная ковариация и прецизионная оценка матрицы. Эти проблемы были представлены выше; см. также оценку усадки . Методы включают в себя оценки конусности. [14] и ограниченность минимизационная оценка. [15]
- Разреженный анализ главных компонент . Анализ главных компонентов — еще один метод, который не работает в больших измерениях; точнее, при соответствующих условиях ведущий собственный вектор выборочной ковариационной матрицы является несогласованной оценкой своего аналога генеральной совокупности, когда соотношение числа переменных к количеству наблюдений ограничено от нуля. [16] В предположении, что этот ведущий собственный вектор разрежен (что может способствовать интерпретируемости), согласованность может быть восстановлена. [17]
- Завершение матрицы . Эта тема, касающаяся задачи заполнения недостающих записей частично наблюдаемой матрицы, стала популярной во многом благодаря премии Netflix за предсказание пользовательских рейтингов фильмов.
- Высокомерная классификация. Линейный дискриминантный анализ нельзя использовать, если , поскольку выборочная ковариационная матрица является сингулярной . Были предложены альтернативные подходы, основанные на наивном Байесе . [18] выбор функции [19] и случайные проекции . [20]
- Графические модели для многомерных данных . Графические модели используются для кодирования структуры условной зависимости между различными переменными. В предположении гауссовости проблема сводится к оценке разреженной матрицы точности, обсуждавшейся выше.
Примечания
[ редактировать ]- ^ Jump up to: а б Ледерер, Йоханнес (2022). Основы многомерной статистики: с упражнениями и лабораторными работами по R. Учебники Springer по статистике. дои : 10.1017/9781108627771 . ISBN 9781108498029 . S2CID 128095693 .
- ^ Jump up to: а б с Уэйнрайт, Мартин Дж. (2019). Многомерная статистика: неасимптотическая точка зрения . Издательство Кембриджского университета. дои : 10.1017/9781108627771 . ISBN 9781108498029 . S2CID 128095693 .
- ^ Уэйнрайт М.Дж. Многомерная статистика: неасимптотическая точка зрения. Кембридж: Издательство Кембриджского университета; 2019. doi:10.1017/9781108627771
- ^ Штейн, К. (1956), «Недопустимость обычной оценки среднего многомерного распределения», Proc. Третий симпозиум Беркли. Математика. Статист. Проб. , том. 1, стр. 197–206, МР 0084922 , Збл 0073.35602
- ^ Джеймс, В.; Штейн, К. (1961), "Оценка с квадратичными потерями", Proc. Четвертый симпозиум Беркли. Математика. Статист. Проб. , том. 1, стр. 361–379, МР 0133191
- ^ Хорл, Артур Э. и Роберт В. Кеннард. «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика , вып. 12, нет. 1, 1970, стр. 55–67. [www.jstor.org/stable/1267351 JSTOR]. По состоянию на 13 марта 2021 г.
- ^ Тибширани, Роберт (1996). «Регрессионное сокращение и отбор с помощью лассо». Журнал Королевского статистического общества . Серия Б (методическая). 58 (1). Уайли: 267–88. JSTOR 2346178 .
- ^ Кандес, Эммануэль ; Тао, Теренс (2007). «Селектор Данцига: статистическая оценка, когда p намного больше n ». Анналы статистики . 35 (6): 2313–2351. arXiv : math/0506081 . дои : 10.1214/009053606000001523 . МР 2382644 . S2CID 88524200 .
- ^ Цзоу, Хуэй; Хасти, Тревор (2005). «Регуляризация и выбор переменных с помощью эластичной сети» . Журнал Королевского статистического общества . Серия Б (статистическая методология). 67 (2). Уайли: 301–20. дои : 10.1111/j.1467-9868.2005.00503.x . JSTOR 3647580 .
- ^ Юань, Мин; Линь, Йи (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными» . Журнал Королевского статистического общества . Серия Б (статистическая методология). 68 (1). Уайли: 49–67. дои : 10.1111/j.1467-9868.2005.00532.x . JSTOR 3647556 . S2CID 6162124 .
- ^ Тибширани, Роберт, Майкл Сондерс, Сахарон Россет, Цзи Чжу и Кейт Найт. 2005. «Разреженность и гладкость с помощью слитого лассо». Журнал Королевского статистического общества. Серия Б (статистическая методология) 67 (1). Уайли: 91–108. https://www.jstor.org/stable/3647602 .
- ^ Майнсхаузен, Николай; Бюльманн, Питер (2010). «Выбор устойчивости» . Журнал Королевского статистического общества, серия B (статистическая методология) . 72 (4): 417–473. дои : 10.1111/j.1467-9868.2010.00740.x . ISSN 1467-9868 . S2CID 1231300 .
- ^ Шах, Раджен Д.; Сэмворт, Ричард Дж. (2013). «Выбор переменных с контролем ошибок: еще один взгляд на выбор стабильности» . Журнал Королевского статистического общества. Серия B (Статистическая методология) . 75 (1): 55–80. arXiv : 1105.5578 . дои : 10.1111/j.1467-9868.2011.01034.x . ISSN 1369-7412 . JSTOR 23361014 . S2CID 18211609 .
- ^ Кай, Т. Тони; Чжан, Цунь-Хуэй; Чжоу, Харрисон Х. (август 2010 г.). «Оптимальные скорости сходимости для оценки ковариационной матрицы» . Анналы статистики . 38 (4): 2118–2144. arXiv : 1010.3866 . дои : 10.1214/09-AOS752 . ISSN 0090-5364 . S2CID 14038500 . Проверено 06 апреля 2021 г.
- ^ Цай, Тони; Лю, Вэйдун, Си (01 июня 2011 г.) . Подход к минимизации оценки разреженной матрицы» . Журнал Американской статистической ассоциации . 106 (494): 594–607. arXiv : 1102.2233 . doi : 10.1198/jasa.2011.tm10155 . ISSN 0162-1459 . S2CID 159001 01 . Получено в 2021 г. 04-06 .
- ^ Джонстон, Иэн М.; Лу, Артур Ю (1 июня 2009 г.). «О согласованности и разреженности анализа главных компонентов в больших размерностях» . Журнал Американской статистической ассоциации . 104 (486): 682–693. дои : 10.1198/jasa.2009.0121 . ISSN 0162-1459 . ПМЦ 2898454 . ПМИД 20617121 .
- ^ Ву, Винсент К.; Лей, Цзин (декабрь 2013 г.). «Минимаксная оценка разреженного главного подпространства в больших размерностях» . Анналы статистики . 41 (6): 2905–2947. arXiv : 1211.0373 . дои : 10.1214/13-AOS1151 . ISSN 0090-5364 . S2CID 562591 .
- ^ Бикель, Питер Дж .; Левина, Елизавета (2004). «Некоторые теории линейной дискриминантной функции Фишера, наивной байесовской теории и некоторые альтернативы, когда переменных гораздо больше, чем наблюдений» . Бернулли . 10 (6): 989–1010. дои : 10.3150/bj/1106314847 .
- ^ Фань, Цзяньцин; Фань, Инъин (декабрь 2008 г.). «Многомерная классификация с использованием правил независимости, основанных на признаках» . Анналы статистики . 36 (6): 2605–2637. arXiv : math/0701108 . дои : 10.1214/07-AOS504 . ПМК 2630123 . ПМИД 19169416 . S2CID 2982392 .
- ^ Каннингс, Тимоти И.; Сэмворт, Ричард Дж. (2017). «Классификация случайно-проекционных ансамблей» . Журнал Королевского статистического общества, серия B (статистическая методология) . 79 (4): 959–1035. arXiv : 1504.04595 . дои : 10.1111/rssb.12228 . S2CID 88520328 .
Ссылки
[ редактировать ]- Йоханнес Ледерер (2022). Основы многомерной статистики . Чам: Спрингер.
- Кристоф Жиро (2015). Введение в многомерную статистику . Филадельфия: Чепмен и Холл/CRC.
- Т. Тони Цай, Сяотун Шен, изд. (2011). Многомерный анализ данных . Границы статистики. Сингапур: World Scientific.
- Питер Бюльманн и Сара ван де Гир (2011). Статистика для многомерных данных: методы, теория и приложения . Гейдельберг; Нью-Йорк: Спрингер.
- Мартин Дж. Уэйнрайт (2019). Многомерная статистика: неасимптотическая точка зрения . Кембридж, Великобритания: Издательство Кембриджского университета.