Jump to content

Многомерная статистика

(Перенаправлено из Многомерного анализа данных )

Многомерная статистика — это подраздел статистики, охватывающий одновременное наблюдение и анализ более чем одной конечной переменной , то есть многомерных случайных величин . Многомерная статистика касается понимания различных целей и предпосылок каждой из различных форм многомерного анализа, а также того, как они связаны друг с другом. Практическое применение многомерной статистики к конкретной проблеме может включать несколько типов одномерного и многомерного анализа, чтобы понять взаимосвязи между переменными и их значимость для изучаемой проблемы.

Кроме того, многомерная статистика занимается многомерными распределениями вероятностей с точки зрения как

  • как их можно использовать для представления распределения наблюдаемых данных;
  • как их можно использовать как часть статистического вывода , особенно если для одного и того же анализа представляют интерес несколько разных величин.

Определенные типы задач, включающих многомерные данные, например простая линейная регрессия и множественная регрессия , обычно не считаются особыми случаями многомерной статистики, поскольку анализ проводится с учетом (одномерного) условного распределения одной выходной переменной с учетом другой. переменные.

Многомерный анализ

[ редактировать ]

Многомерный анализ ( MVA ) основан на принципах многомерной статистики. Обычно MVA используется в ситуациях, когда на каждой экспериментальной установке проводится несколько измерений и важны взаимосвязи между этими измерениями и их структурами. [1] Современная перекрывающаяся классификация MVA включает: [1]

  • Нормальные и общие многомерные модели и теория распределения
  • Исследование и измерение отношений
  • Вероятностные вычисления многомерных регионов
  • Исследование структур и шаблонов данных.

Многомерный анализ может быть осложнен желанием включить физический анализ для расчета влияния переменных на иерархическую «систему систем». Часто исследования, в которых предполагается использовать многомерный анализ, останавливаются из-за размерности проблемы. Эти проблемы часто решаются за счет использования суррогатных моделей , высокоточных аппроксимаций кода, основанного на физике. Поскольку суррогатные модели имеют форму уравнения, их можно оценить очень быстро. Это становится основой для крупномасштабных исследований MVA: хотя моделирование Монте-Карло в пространстве проектирования затруднено с помощью программ, основанных на физике, оно становится тривиальным при оценке суррогатных моделей, которые часто принимают форму уравнений поверхности отклика .

Виды анализа

[ редактировать ]

В MVA используется множество различных моделей, каждая из которых имеет свой тип анализа:

  1. Многомерный дисперсионный анализ (MANOVA) расширяет дисперсионный анализ , охватывая случаи, когда одновременно анализируется более одной зависимой переменной; см. также Многомерный ковариационный анализ (MANCOVA).
  2. Многомерная регрессия пытается определить формулу, которая может описать, как элементы вектора переменных одновременно реагируют на изменения других. Для линейных отношений регрессионный анализ здесь основан на формах общей линейной модели . Некоторые предполагают, что многомерная регрессия отличается от многомерной регрессии, однако это обсуждается и не всегда верно во всех научных областях. [2]
  3. Анализ главных компонентов (PCA) создает новый набор ортогональных переменных, которые содержат ту же информацию, что и исходный набор. Он вращает оси вариации, чтобы получить новый набор ортогональных осей, упорядоченных так, что они суммируют уменьшающиеся пропорции вариации.
  4. Факторный анализ аналогичен PCA, но позволяет пользователю извлечь определенное количество синтетических переменных, меньшее, чем исходный набор, оставляя оставшуюся необъяснимую вариацию как ошибку. Извлеченные переменные известны как скрытые переменные или факторы; Можно предположить, что каждый из них объясняет ковариацию в группе наблюдаемых переменных.
  5. Канонический корреляционный анализ находит линейные связи между двумя наборами переменных; это обобщенная (т.е. каноническая) версия двумерной [3] корреляция.
  6. Анализ избыточности (RDA) аналогичен каноническому корреляционному анализу, но позволяет пользователю получить определенное количество синтетических переменных из одного набора (независимых) переменных, которые объясняют как можно большую дисперсию в другом (независимом) наборе. Это многомерный аналог регрессии . [4]
  7. Анализ соответствия (CA) или взаимное усреднение находит (как и PCA) набор синтетических переменных, которые суммируют исходный набор. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
  8. Канонический (или «ограниченный») анализ соответствия (CCA) для суммирования совместных изменений двух наборов переменных (например, анализ избыточности); сочетание анализа соответствий и многомерного регрессионного анализа. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
  9. Многомерное масштабирование включает в себя различные алгоритмы для определения набора синтетических переменных, которые лучше всего представляют попарные расстояния между записями. Оригинальный метод — анализ главных координат (PCoA; на основе PCA).
  10. Дискриминантный анализ , или анализ канонических переменных, пытается установить, можно ли использовать набор переменных для различения двух или более групп случаев.
  11. Линейный дискриминантный анализ (LDA) вычисляет линейный предиктор на основе двух наборов нормально распределенных данных, чтобы обеспечить классификацию новых наблюдений.
  12. Системы кластеризации объединяют объекты в группы (называемые кластерами), чтобы объекты (кейсы) из одного кластера были более похожи друг на друга, чем объекты из разных кластеров.
  13. Рекурсивное разделение создает дерево решений, которое пытается правильно классифицировать членов совокупности на основе дихотомической зависимой переменной.
  14. Искусственные нейронные сети расширяют методы регрессии и кластеризации на нелинейные многомерные модели.
  15. Статистическая графика , такая как туры, графики с параллельными координатами и матрицы рассеяния, может использоваться для исследования многомерных данных.
  16. Модели одновременных уравнений включают более одного уравнения регрессии с различными зависимыми переменными, оцениваемыми вместе.
  17. Векторная авторегрессия включает одновременную регрессию различных переменных временных рядов как по отдельности, так и по запаздывающим значениям друг друга.
  18. Анализ кривых основного ответа (PRC) — это метод, основанный на RDA, который позволяет пользователю сосредоточиться на эффектах лечения с течением времени, корректируя изменения в контрольных обработках с течением времени. [5]
  19. Иконография корреляций заключается в замене корреляционной матрицы диаграммой, на которой «замечательные» корреляции представлены сплошной линией (положительная корреляция) или пунктирной линией (отрицательная корреляция).

Работа с неполными данными

[ редактировать ]

Очень часто в экспериментально полученном наборе данных отсутствуют значения некоторых компонентов данной точки данных . Вместо того, чтобы отбрасывать всю точку данных, обычно «заполняют» значения недостающих компонентов - процесс, называемый « вменением ». [6]

Важные распределения вероятностей

[ редактировать ]

Существует набор вероятностных распределений, используемых в многомерном анализе, которые играют аналогичную роль соответствующему набору распределений, которые используются в одномерном анализе , когда нормальное распределение соответствует набору данных. Эти многомерные распределения:

Обратное распределение -Уишарта важно для байесовского вывода , например, для байесовской многомерной линейной регрессии . Кроме того, Т-квадрат распределения Хотеллинга представляет собой многомерное распределение, обобщающее Т-распределение Стьюдента , которое используется при проверке многомерных гипотез .

Учебник Андерсона 1958 года «Введение в многомерный статистический анализ » [7] воспитал поколение теоретиков и статистиков-прикладников; В книге Андерсона особое внимание уделяется проверке гипотез с помощью тестов отношения правдоподобия и свойств степенных функций : допустимости , несмещенности и монотонности . [8] [9]

Раньше MVA обсуждался исключительно в контексте статистических теорий из-за размера и сложности базовых наборов данных и высоких вычислительных затрат. С резким ростом вычислительной мощности MVA теперь играет все более важную роль в анализе данных и широко применяется в омики области .

Приложения

[ редактировать ]

Программное обеспечение и инструменты

[ редактировать ]

Существует огромное количество программных пакетов и других инструментов для многомерного анализа, в том числе:

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Олькин И.; Сэмпсон, А.Р. (1 января 2001 г.), «Многомерный анализ: обзор» , в Смелзере, Ниле Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Пергамон, стр. 10240–10247, ISBN  9780080430768 , получено 2 сентября 2019 г.
  2. ^ Идальго, Б; Гудман, М. (2013). «Многомерная или многомерная регрессия?» . Am J Общественное здравоохранение . 103 (1): 39–40. дои : 10.2105/AJPH.2012.300897 . ПМЦ   3518362 . ПМИД   23153131 .
  3. ^ Неискушенные аналитики двумерных гауссовских задач могут найти полезным грубый, но точный метод точного измерения вероятности, просто взяв сумму S квадратов N сумму Sm остатков, вычитая как минимум , разделив эту разницу на Sm и умножив результат на ( N - 2) и взяв обратное анти-ln половины этого произведения.
  4. ^ Ван Ден Волленберг, Арнольд Л. (1977). «Анализ избыточности как альтернатива каноническому корреляционному анализу». Психометрика . 42 (2): 207–219. дои : 10.1007/BF02294050 .
  5. ^ тер Браак, Кайо Дж. Ф. и Шмилауэр, Петр (2012). Справочное руководство и руководство пользователя Canoco: программное обеспечение для рукоположения (версия 5.0) , стр. 292. Microcomputer Power, Итака, Нью-Йорк.
  6. ^ Дж. Л. Шафер (1997). Анализ неполных многомерных данных . Чепмен и Холл/CRC. ISBN  978-1-4398-2186-2 .
  7. ^ Т.В. Андерсон (1958) Введение в многомерный анализ , Нью-Йорк: Wiley ISBN   0471026409 ; 2е (1984) ISBN   0471889873 ; 3е (2003) ISBN   0471360910
  8. ^ Сен, Пранаб Кумар ; Андерсон, ТВ; Арнольд, Сан-Франциско; Итон, ML; Гири, Северная Каролина; Гнанадэсикан, Р.; Кендалл, Миннесота; Кширсагар, AM; и др. (июнь 1986 г.). «Обзор: Современные учебники по многомерному статистическому анализу: панорамная оценка и критика». Журнал Американской статистической ассоциации . 81 (394): 560–564. дои : 10.2307/2289251 . ISSN   0162-1459 . JSTOR   2289251 . (страницы 560–561)
  9. ^ Шервиш, Марк Дж. (ноябрь 1987 г.). «Обзор многомерного анализа» . Статистическая наука . 2 (4): 396–413. дои : 10.1214/ss/1177013111 . ISSN   0883-4237 . JSTOR   2245530 .
  10. ^ CRAN содержит подробную информацию о пакетах, доступных для многомерного анализа данных.

Дальнейшее чтение

[ редактировать ]
  • Джонсон, Ричард А.; Вичерн, Дин В. (2007). Прикладной многомерный статистический анализ (Шестое изд.). Прентис Холл. ISBN  978-0-13-187715-3 .
  • КВ Мардия ; Дж. Т. Кент; Дж. М. Бибби (1979). Многомерный анализ . Академическая пресса. ISBN  0-12-471252-5 .
  • А. Сен, М. Шривастава, Регрессионный анализ — теория, методы и приложения , Springer-Verlag, Берлин, 2011 (4-е издание).
  • Кук, Суэйн (2007). Интерактивная графика для анализа данных .
  • Малакути, Б. (2013). Операции и производственные системы с множеством целей. Джон Уайли и сыновья.
  • Т.В. Андерсон, Введение в многомерный статистический анализ , Уайли, Нью-Йорк, 1958.
  • КВ Мардия; Дж. Т. Кент и Дж. М. Бибби (1979). Многомерный анализ. Академическая пресса . ISBN  978-0124712522 . (подход «вероятностного» уровня MA)
  • Файнштейн, А.Р. (1996) Многомерный анализ . Нью-Хейвен, Коннектикут: Издательство Йельского университета.
  • Волосы, Дж. Ф. младший (1995) Многомерный анализ данных с показаниями , 4-е изд. Прентис-Холл.
  • Шафер, Дж. Л. (1997) Анализ неполных многомерных данных . ЦРК Пресс. (Передовой)
  • Шарма, С. (1996) Прикладные многомерные методы . Уайли. (Неофициальный, прикладной)
  • Изенман, Алан Дж. (2008). Современные многомерные статистические методы: регрессия, классификация и многомерное обучение. Тексты Спрингера в статистике. Нью-Йорк: Springer-Verlag. ISBN   9780387781884 .
  • Тинсли, Ховард Э.А.; Браун, Стивен Д., ред. (2000). Справочник по прикладной многомерной статистике и математическому моделированию . Академическая пресса. дои : 10.1016/B978-0-12-691360-6.X5000-9 . ISBN  978-0-12-691360-6 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0ff818caf4ba2353190b195de2891239__1708353540
URL1:https://arc.ask3.ru/arc/aa/0f/39/0ff818caf4ba2353190b195de2891239.html
Заголовок, (Title) документа по адресу, URL1:
Multivariate statistics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)