Анализ множественной корреспонденции
В статистике для номинальных категориальных данных , анализ множественных соответствий ( MCA ) — это метод анализа данных используемый для обнаружения и представления основных структур в наборе данных. Это достигается путем представления данных в виде точек в низкомерном евклидовом пространстве . Таким образом, эта процедура является аналогом анализа главных компонент для категориальных данных. [1] [2] MCA можно рассматривать как расширение простого анализа соответствий (CA), поскольку оно применимо к большому набору категориальных переменных .
Как расширение анализа корреспонденции
[ редактировать ]MCA выполняется путем применения алгоритма CA либо к индикаторной матрице (также называемой полной дизъюнктивной таблицей – CDT), либо к таблице Берта, сформированной из этих переменных. [3] Матрица показателей представляет собой матрицу индивидуумов × переменных, где строки представляют индивидуумов, а столбцы представляют собой фиктивные переменные, представляющие категории переменных. [4] Анализ индикаторной матрицы позволяет непосредственно представить индивидуумов в виде точек в геометрическом пространстве. Таблица Берта представляет собой симметричную матрицу всех двусторонних перекрестных таблиц между категориальными переменными и имеет аналогию с ковариационной матрицей непрерывных переменных. Анализ таблицы Берта является более естественным обобщением простого анализа соответствий , и отдельные лица или средства групп людей могут быть добавлены в качестве дополнительных точек к графическому отображению.
В подходе с использованием матрицы индикаторов связи между переменными выявляются путем расчета расстояния хи-квадрат между различными категориями переменных и между отдельными лицами (или респондентами). Эти ассоциации затем представляются графически в виде «карт», что упрощает интерпретацию структур данных. Затем оппозиции между строками и столбцами максимизируются, чтобы выявить основные измерения, которые лучше всего могут описать центральные оппозиции в данных. Как и в факторном анализе или анализе главных компонентов , первая ось является наиболее важным измерением, вторая ось — вторым по важности и так далее, с точки зрения величины учитываемой дисперсии. Количество осей, которые необходимо сохранить для анализа, определяется путем расчета модифицированных собственных значений .
Подробности
[ редактировать ]Поскольку MCA адаптирован для получения статистических выводов на основе категориальных переменных (например, вопросов с несколькими вариантами ответов), первое, что необходимо сделать, — это преобразовать количественные данные (например, возраст, размер, вес, время суток и т. д.) в категории (используя для например, статистические квантили).
Когда набор данных полностью представлен в виде категориальных переменных, можно построить соответствующую так называемую полную дизъюнктивную таблицу. Обозначим эту таблицу . Если человек ответили на опрос с вопросы с несколькими вариантами ответов по 4 ответа каждый, будет иметь ряды и столбцы.
Более теоретически, [5] предполагать представляет собой полностью дизъюнктивную таблицу наблюдения за категориальные переменные. Предположим также, что -я переменная имеет разные уровни (категории) и набор . Стол тогда это матрица со всеми коэффициентами или . Установите сумму всех записей быть и представить . В MCA также есть два специальных вектора: первый , который содержит суммы по строкам , и , который содержит суммы по столбцам . Примечание и , диагональные матрицы, содержащие и соответственно как диагональ. С этими обозначениями вычисление MCA по существу состоит в разложении матрицы по сингулярным значениям:
Разложение дает тебе , и такой, что с P, Q двумя унитарными матрицами и — обобщенная диагональная матрица сингулярных значений (той же формы, что и ). Положительные коэффициенты являются собственными значениями .
Интерес к MCA обусловлен тем, как наблюдения (строки) и переменные (столбцы) можно разложить. Такое разложение называется факторным разложением. Координаты наблюдений в факторном пространстве задаются выражением
The -й ряд представлять -е наблюдение в факторном пространстве. Аналогично, координаты переменных (в том же факторном пространстве, что и наблюдения!) определяются выражением
Последние работы и расширения
[ редактировать ]В последние годы несколько учеников Жана-Поля Бензекри усовершенствовали MCA и включили его в более общую структуру анализа данных, известную как геометрический анализ данных . Это предполагает развитие прямых связей между простым анализом соответствий , анализом главных компонентов и MCA с формой кластерного анализа, известной как евклидова классификация. [6]
Два расширения имеют большое практическое применение.
- В качестве активных элементов в МКА можно включить несколько количественных переменных. Это расширение называется факторным анализом смешанных данных (см. ниже).
- Очень часто в анкетах вопросы структурированы по нескольким вопросам. При статистическом анализе необходимо учитывать эту структуру. В этом состоит цель множественного факторного анализа, который уравновешивает различные проблемы (т.е. различные группы переменных) в рамках глобального анализа и обеспечивает, помимо классических результатов факторного анализа (в основном графики отдельных лиц и категорий), несколько результатов (показатели и графики) особенности структуры группы.
Области применения
[ редактировать ]В социальных науках MCA, возможно, наиболее известен благодаря своему применению Пьером Бурдье . [7] особенно в его книгах «La Distinction» , «Homo Academicus» и «Государственное дворянство» . Бурдье утверждал, что существует внутренняя связь между его видением социального как пространственного и реляционного, отраженного в понятии поля , и геометрическими свойствами MCA. [8] Социологи, следующие за работами Бурдье, чаще всего отдают предпочтение анализу индикаторной матрицы, а не таблицы Берта, во многом из-за центральной важности, придаваемой анализу «облака индивидов». [9]
Анализ множественных соответствий и анализ главных компонентов
[ редактировать ]MCA также можно рассматривать как PCA, примененный к полной дизъюнктивной таблице. Для этого CDT необходимо преобразовать следующим образом. Позволять обозначают общий термин CDT. равен 1, если индивидуальный имеет категорию и 0, если нет. Обозначим , доля лиц, обладающих категорией . Преобразованный CDT (TCDT) имеет общий термин:
Нестандартизированный PCA, примененный к TCDT, столбец иметь вес , приводит к результатам MCA.
Эта эквивалентность полностью объяснена в книге Жерома Пажеса. [10] Он играет важную теоретическую роль, поскольку открывает путь к одновременной обработке количественных и качественных переменных. Два метода одновременно анализируют эти два типа переменных: факторный анализ смешанных данных и, когда активные переменные разделены на несколько групп: множественный факторный анализ.
Эта эквивалентность не означает, что MCA является частным случаем PCA, поскольку это не частный случай CA. Это лишь означает, что эти методы тесно связаны друг с другом, поскольку принадлежат к одному семейству: факторным методам. [ нужна ссылка ]
Программное обеспечение
[ редактировать ]Существует множество программ для анализа данных, включающих MCA, например STATA и SPSS. Пакет R FactoMineR также включает MCA. Это программное обеспечение связано с книгой, описывающей основные методы выполнения MCA. [11] Существует также пакет Python для [1] , который работает с матрицами массивов numpy; пакет еще не реализован для кадров данных Spark.
Ссылки
[ редактировать ]- ^ Ле Ру; Б. и Х. Руане (2004). Геометрический анализ данных: от анализа соответствий к анализу структурированных данных . Дордрехт. Клювер: стр.180.
- ^ Гринакр, Майкл и Блазиус, Йорг (редакторы) (2006). Анализ множественных соответствий и родственные методы . Лондон: Чепмен и Холл/CRC.
{{cite book}}
:|author=
имеет общее имя ( справка ) CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Гринакр, Майкл (2007). Анализ корреспонденции на практике, второе издание . Лондон: Чепмен и Холл/CRC.
- ^ Ле Ру, Б. и Х. Руане (2004), Анализ геометрических данных, От анализа соответствий к анализу структурированных данных, Дордрехт. Клювер: стр.179
- ^ Эрве Абди; Доминик Валентин (2007). «Анализ множественных соответствий» (PDF) .
- ^ Ле Ру; Б. и Х. Руане (2004). Геометрический анализ данных: от анализа соответствий к анализу структурированных данных . Дордрехт. Клювер.
- ^ Скотт, Джон и Гордон Маршалл (2009): Оксфордский социологический словарь, стр. 135. Оксфорд: Издательство Оксфордского университета.
- ^ Руане, Анри (2000) «Геометрический анализ анкет. Урок различия Бурдье», в Bulletin de Méthodologie Sociologique 65, стр. 4–18
- ^ Лебарон, Фредерик (2009) «Как Бурдье «количественно оценил» Бурдье: геометрическое моделирование данных», в Робсоне и Сандерсе (ред.). Теория количественной оценки: Пьер Бурдье. Спрингер, стр. 11–30.
- ^ Пажес Жером (2014). Многофакторный анализ на примере использования R. Чепмен и Холл / CRC The R Series, Лондон, 272 стр.
- ^ Хассон Ф., Ле С. и Пажес Дж. (2009). Исследовательский многомерный анализ на примере использования R. Чепмен и Холл/CRC The R Series, Лондон. ISBN 978-2-7535-0938-2
Внешние ссылки
[ редактировать ]- Ле Ру, Б. и Х. Руане (2004), Анализ геометрических данных, От анализа соответствий к анализу структурированных данных в Google Книгах: [2]
- Гринакр, Майкл (2008), «Практика анализа корреспонденции» , Фонд BBVA, Мадрид, доступен для бесплатного скачивания на веб-сайте фонда [3]
- Программное обеспечение FactoMineR AR, предназначенное для разведочного анализа данных.