Многомерная статистика
Многомерная статистика — это подраздел статистики, включающий одновременное наблюдение и анализ более чем одной конечной переменной , то есть многомерных случайных величин . Многомерная статистика касается понимания различных целей и предпосылок каждой из различных форм многомерного анализа, а также того, как они связаны друг с другом. Практическое применение многомерной статистики к конкретной проблеме может включать несколько типов одномерного и многомерного анализа, чтобы понять взаимосвязи между переменными и их значимость для изучаемой проблемы.
Кроме того, многомерная статистика занимается многомерными распределениями вероятностей с точки зрения как
- как их можно использовать для представления распределения наблюдаемых данных;
- как их можно использовать как часть статистического вывода , особенно если для одного и того же анализа представляют интерес несколько разных величин.
Определенные типы задач, включающих многомерные данные, например простая линейная регрессия и множественная регрессия , обычно не считаются особыми случаями многомерной статистики, поскольку анализ проводится с учетом (одномерного) условного распределения одной выходной переменной с учетом другой. переменные.
Многомерный анализ
[ редактировать ]Многомерный анализ ( MVA ) основан на принципах многомерной статистики. Обычно MVA используется в ситуациях, когда на каждой экспериментальной установке проводится несколько измерений и важны взаимосвязи между этими измерениями и их структурами. [1] Современная перекрывающаяся классификация MVA включает: [1]
- Нормальные и общие многомерные модели и теория распределения
- Исследование и измерение отношений
- Вероятностные вычисления многомерных регионов
- Исследование структур и шаблонов данных.
Многомерный анализ может быть осложнен желанием включить физический анализ для расчета влияния переменных на иерархическую «систему систем». Часто исследования, в которых предполагается использовать многомерный анализ, останавливаются из-за размерности проблемы. Эти проблемы часто решаются за счет использования суррогатных моделей , высокоточных аппроксимаций кода, основанного на физике. Поскольку суррогатные модели имеют форму уравнения, их можно оценить очень быстро. Это становится основой для крупномасштабных исследований MVA: хотя моделирование Монте-Карло в пространстве проектирования затруднено с помощью программ, основанных на физике, оно становится тривиальным при оценке суррогатных моделей, которые часто принимают форму уравнений поверхности отклика .
Виды анализа
[ редактировать ]В MVA используется множество различных моделей, каждая из которых имеет свой тип анализа:
- Многомерный дисперсионный анализ (MANOVA) расширяет дисперсионный анализ , охватывая случаи, когда одновременно анализируется более одной зависимой переменной; см. также Многомерный ковариационный анализ (MANCOVA).
- Многомерная регрессия пытается определить формулу, которая может описать, как элементы вектора переменных одновременно реагируют на изменения других. Для линейных отношений регрессионный анализ здесь основан на формах общей линейной модели . Некоторые предполагают, что многомерная регрессия отличается от многомерной регрессии, однако это обсуждается и не всегда верно во всех научных областях. [2]
- Анализ главных компонентов (PCA) создает новый набор ортогональных переменных, которые содержат ту же информацию, что и исходный набор. Он вращает оси вариации, чтобы получить новый набор ортогональных осей, упорядоченных так, что они суммируют уменьшающиеся пропорции вариации.
- Факторный анализ аналогичен PCA, но позволяет пользователю извлечь определенное количество синтетических переменных, меньшее, чем исходный набор, оставляя оставшуюся необъяснимую вариацию как ошибку. Извлеченные переменные известны как скрытые переменные или факторы; Можно предположить, что каждый из них объясняет ковариацию в группе наблюдаемых переменных.
- Канонический корреляционный анализ находит линейные связи между двумя наборами переменных; это обобщенная (т.е. каноническая) версия двумерной [3] корреляция.
- Анализ избыточности (RDA) аналогичен каноническому корреляционному анализу, но позволяет пользователю получить определенное количество синтетических переменных из одного набора (независимых) переменных, которые объясняют как можно большую дисперсию в другом (независимом) наборе. Это многомерный аналог регрессии . [4]
- Анализ соответствия (CA) или взаимное усреднение находит (как и PCA) набор синтетических переменных, которые суммируют исходный набор. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
- Канонический (или «ограниченный») анализ соответствия (CCA) для суммирования совместных изменений двух наборов переменных (например, анализ избыточности); сочетание анализа соответствий и многомерного регрессионного анализа. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
- Многомерное масштабирование включает в себя различные алгоритмы для определения набора синтетических переменных, которые лучше всего представляют попарные расстояния между записями. Оригинальный метод — анализ главных координат (PCoA; на основе PCA).
- Дискриминантный анализ , или анализ канонических переменных, пытается установить, можно ли использовать набор переменных для различения двух или более групп случаев.
- Линейный дискриминантный анализ (LDA) вычисляет линейный предиктор на основе двух наборов нормально распределенных данных, чтобы обеспечить классификацию новых наблюдений.
- Системы кластеризации объединяют объекты в группы (называемые кластерами), чтобы объекты (кейсы) из одного кластера были более похожи друг на друга, чем объекты из разных кластеров.
- Рекурсивное разделение создает дерево решений, которое пытается правильно классифицировать членов совокупности на основе дихотомической зависимой переменной.
- Искусственные нейронные сети расширяют методы регрессии и кластеризации на нелинейные многомерные модели.
- Статистическая графика , такая как туры, графики с параллельными координатами и матрицы рассеяния, может использоваться для исследования многомерных данных.
- Модели одновременных уравнений включают более одного уравнения регрессии с различными зависимыми переменными, оцениваемыми вместе.
- Векторная авторегрессия включает одновременную регрессию различных переменных временных рядов как по отдельности, так и по запаздывающим значениям друг друга.
- Анализ кривых основного ответа (PRC) — это метод, основанный на RDA, который позволяет пользователю сосредоточиться на эффектах лечения с течением времени, корректируя изменения в контрольных обработках с течением времени. [5]
- Иконография корреляций заключается в замене корреляционной матрицы диаграммой, на которой «замечательные» корреляции изображаются сплошной линией (положительная корреляция) или пунктирной линией (отрицательная корреляция).
Работа с неполными данными
[ редактировать ]Очень часто в экспериментально полученном наборе данных отсутствуют значения некоторых компонентов данной точки данных . Вместо того, чтобы отбрасывать всю точку данных, обычно «заполняют» значения недостающих компонентов - процесс, называемый « вменением ». [6]
Важные распределения вероятностей
[ редактировать ]Существует набор вероятностных распределений, используемых в многомерном анализе, которые играют аналогичную роль соответствующему набору распределений, которые используются в одномерном анализе , когда нормальное распределение соответствует набору данных. Эти многомерные распределения:
Обратное распределение -Уишарта важно для байесовского вывода , например, для байесовской многомерной линейной регрессии . Кроме того, Т-квадрат распределения Хотеллинга — это многомерное распределение, обобщающее Т-распределение Стьюдента , которое используется при проверке многомерных гипотез .
История
[ редактировать ]Учебник Андерсона 1958 года «Введение в многомерный статистический анализ » [7] воспитал поколение теоретиков и статистиков-прикладников; В книге Андерсона особое внимание уделяется проверке гипотез с помощью тестов отношения правдоподобия и свойств степенных функций : допустимости , несмещенности и монотонности . [8] [9]
Раньше MVA обсуждался исключительно в контексте статистических теорий из-за размера и сложности базовых наборов данных и высоких вычислительных затрат. С резким ростом вычислительной мощности MVA теперь играет все более важную роль в анализе данных и широко применяется в омики области .
Приложения
[ редактировать ]- Многомерная проверка гипотез
- Уменьшение размерности
- Открытие скрытой структуры
- Кластеризация
- Многомерный регрессионный анализ
- Классификация и дискриминационный анализ
- Выбор переменной
- Многомерный анализ
- Многомерное масштабирование
- Интеллектуальный анализ данных
Программное обеспечение и инструменты
[ редактировать ]Существует огромное количество программных пакетов и других инструментов для многомерного анализа, в том числе:
- JMP (статистическое программное обеспечение)
- МиниВкладка
- Кальк
- ПСПП
- Р [10]
- САС (программное обеспечение)
- SciPy для Python
- СПСС
- Был
- СТАТИСТИКА
- Расшифровщик
- WarpPLS
- СмартПЛС
- МАТЛАБ
- Отзывы
- NCSS (статистическое программное обеспечение) включает многомерный анализ.
- Unscrambler® X — это инструмент многомерного анализа.
- СИМКА
- DataPandit (бесплатные приложения SaaS от Let's Excel Analytics Solutions )
См. также
[ редактировать ]- Оценка ковариационных матриц
- Важные публикации по многомерному анализу
- Многовариантное тестирование в маркетинге
- Анализ структурированных данных (статистика)
- Моделирование структурными уравнениями
- Коэффициент РВ
- Двумерный анализ
- Планирование экспериментов (DoE)
- Размерный анализ
- Исследовательский анализ данных
- ОЛС
- Частичная регрессия наименьших квадратов
- Распознавание образов
- Анализ главных компонентов (PCA)
- Регрессионный анализ
- Мягкое независимое моделирование аналогий классов (SIMCA)
- Статистическая интерференция
- Одномерный анализ
Ссылки
[ редактировать ]- ^ Jump up to: а б Олькин И.; Сэмпсон, А.Р. (01 января 2001 г.), «Многомерный анализ: обзор» , в Смелзере, Ниле Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Пергамон, стр. 10240–10247, ISBN 9780080430768 , получено 2 сентября 2019 г.
- ^ Идальго, Б; Гудман, М. (2013). «Многомерная или многомерная регрессия?» . Am J Общественное здравоохранение . 103 (1): 39–40. дои : 10.2105/AJPH.2012.300897 . ПМЦ 3518362 . ПМИД 23153131 .
- ^ Неискушенные аналитики двумерных гауссовских задач могут найти полезным грубый, но точный метод точного измерения вероятности, просто взяв сумму S квадратов N сумму Sm остатков, вычитая как минимум , разделив эту разницу на Sm и умножив результат на ( N - 2) и взяв обратное анти-ln половины этого произведения.
- ^ Ван Ден Волленберг, Арнольд Л. (1977). «Анализ избыточности как альтернатива каноническому корреляционному анализу». Психометрика . 42 (2): 207–219. дои : 10.1007/BF02294050 .
- ^ тер Браак, Кайо Дж. Ф. и Шмилауэр, Петр (2012). Справочное руководство и руководство пользователя Canoco: программное обеспечение для рукоположения (версия 5.0) , стр. 292. Microcomputer Power, Итака, Нью-Йорк.
- ^ Дж. Л. Шафер (1997). Анализ неполных многомерных данных . Чепмен и Холл/CRC. ISBN 978-1-4398-2186-2 .
- ^ Т.В. Андерсон (1958) Введение в многомерный анализ , Нью-Йорк: Wiley ISBN 0471026409 ; 2е (1984) ISBN 0471889873 ; 3е (2003) ISBN 0471360910
- ^ Сен, Пранаб Кумар ; Андерсон, ТВ; Арнольд, Сан-Франциско; Итон, ML; Гири, Северная Каролина; Гнанадэсикан, Р.; Кендалл, Миннесота; Кширсагар, AM; и др. (июнь 1986 г.). «Обзор: Современные учебники по многомерному статистическому анализу: панорамная оценка и критика». Журнал Американской статистической ассоциации . 81 (394): 560–564. дои : 10.2307/2289251 . ISSN 0162-1459 . JSTOR 2289251 . (страницы 560–561)
- ^ Шервиш, Марк Дж. (ноябрь 1987 г.). «Обзор многомерного анализа» . Статистическая наука . 2 (4): 396–413. дои : 10.1214/ss/1177013111 . ISSN 0883-4237 . JSTOR 2245530 .
- ^ CRAN содержит подробную информацию о пакетах, доступных для многомерного анализа данных.
Дальнейшее чтение
[ редактировать ]- Джонсон, Ричард А.; Вичерн, Дин В. (2007). Прикладной многомерный статистический анализ (Шестое изд.). Прентис Холл. ISBN 978-0-13-187715-3 .
- КВ Мардия ; Дж. Т. Кент; Дж. М. Бибби (1979). Многомерный анализ . Академическая пресса. ISBN 0-12-471252-5 .
- А. Сен, М. Шривастава, Регрессионный анализ — теория, методы и приложения , Springer-Verlag, Берлин, 2011 (4-е издание).
- Кук, Суэйн (2007). Интерактивная графика для анализа данных .
- Малакути, Б. (2013). Операции и производственные системы с множеством целей. Джон Уайли и сыновья.
- Т.В. Андерсон, Введение в многомерный статистический анализ , Уайли, Нью-Йорк, 1958.
- КВ Мардия; Дж. Т. Кент и Дж. М. Бибби (1979). Многомерный анализ. Академическая пресса . ISBN 978-0124712522 . (подход «вероятностного» уровня MA)
- Файнштейн, А.Р. (1996) Многомерный анализ . Нью-Хейвен, Коннектикут: Издательство Йельского университета.
- Волосы, Дж. Ф. младший (1995) Многомерный анализ данных с показаниями , 4-е изд. Прентис-Холл.
- Шафер, Дж. Л. (1997) Анализ неполных многомерных данных . ЦРК Пресс. (Передовой)
- Шарма, С. (1996) Прикладные многомерные методы . Уайли. (Неофициальный, прикладной)
- Изенман, Алан Дж. (2008). Современные многомерные статистические методы: регрессия, классификация и многомерное обучение. Тексты Спрингера в статистике. Нью-Йорк: Springer-Verlag. ISBN 9780387781884 .
- Тинсли, Ховард Э.А.; Браун, Стивен Д., ред. (2000). Справочник по прикладной многомерной статистике и математическому моделированию . Академическая пресса. дои : 10.1016/B978-0-12-691360-6.X5000-9 . ISBN 978-0-12-691360-6 .