Jump to content

Анализ множественной корреспонденции

В статистике для номинальных категориальных данных , анализ множественных соответствий ( MCA ) — это метод анализа данных используемый для обнаружения и представления основных структур в наборе данных. Это достигается путем представления данных в виде точек в низкомерном евклидовом пространстве . Таким образом, эта процедура является аналогом анализа главных компонент для категориальных данных. [1] [2] MCA можно рассматривать как расширение простого анализа соответствий (CA), поскольку оно применимо к большому набору категориальных переменных .

Как расширение анализа корреспонденции

[ редактировать ]

MCA выполняется путем применения алгоритма CA либо к индикаторной матрице (также называемой полной дизъюнктивной таблицей – CDT), либо к таблице Берта, сформированной из этих переменных. [3] Матрица показателей представляет собой матрицу индивидуумов × переменных, где строки представляют индивидуумов, а столбцы представляют собой фиктивные переменные, представляющие категории переменных. [4] Анализ индикаторной матрицы позволяет непосредственно представить индивидуумов в виде точек в геометрическом пространстве. Таблица Берта представляет собой симметричную матрицу всех двусторонних перекрестных таблиц между категориальными переменными и имеет аналогию с ковариационной матрицей непрерывных переменных. Анализ таблицы Берта является более естественным обобщением простого анализа соответствий , и отдельные лица или средства групп людей могут быть добавлены в качестве дополнительных точек к графическому отображению.

В подходе с использованием матрицы индикаторов связи между переменными выявляются путем расчета расстояния хи-квадрат между различными категориями переменных и между отдельными лицами (или респондентами). Эти ассоциации затем представляются графически в виде «карт», что упрощает интерпретацию структур данных. Затем оппозиции между строками и столбцами максимизируются, чтобы выявить основные измерения, которые лучше всего могут описать центральные оппозиции в данных. Как и в факторном анализе или анализе главных компонентов , первая ось является наиболее важным измерением, вторая ось — вторым по важности и так далее, с точки зрения величины учитываемой дисперсии. Количество осей, которые необходимо сохранить для анализа, определяется путем расчета модифицированных собственных значений .

Подробности

[ редактировать ]

Поскольку MCA адаптирован для получения статистических выводов на основе категориальных переменных (например, вопросов с несколькими вариантами ответов), первое, что необходимо сделать, — это преобразовать количественные данные (например, возраст, размер, вес, время суток и т. д.) в категории (используя для например, статистические квантили).

Когда набор данных полностью представлен в виде категориальных переменных, можно построить соответствующую так называемую полную дизъюнктивную таблицу. Обозначим эту таблицу . Если человек ответили на опрос с вопросы с несколькими вариантами ответов по 4 ответа каждый, будет иметь ряды и столбцы.

Более теоретически, [5] предполагать представляет собой полностью дизъюнктивную таблицу наблюдения за категориальные переменные. Предположим также, что -я переменная имеет разные уровни (категории) и набор . Стол тогда это матрица со всеми коэффициентами или . Установите сумму всех записей быть и представить . В MCA также есть два специальных вектора: первый , который содержит суммы по строкам , и , который содержит суммы по столбцам . Примечание и , диагональные матрицы, содержащие и соответственно как диагональ. С этими обозначениями вычисление MCA по существу состоит в разложении матрицы по сингулярным значениям:

Разложение дает тебе , и такой, что с P, Q двумя унитарными матрицами и — обобщенная диагональная матрица сингулярных значений (той же формы, что и ). Положительные коэффициенты являются собственными значениями .

Интерес к MCA обусловлен тем, как наблюдения (строки) и переменные (столбцы) можно разложить. Такое разложение называется факторным разложением. Координаты наблюдений в факторном пространстве задаются выражением

The -й ряд представлять -е наблюдение в факторном пространстве. Аналогично, координаты переменных (в том же факторном пространстве, что и наблюдения!) определяются выражением

Последние работы и расширения

[ редактировать ]

В последние годы несколько учеников Жана-Поля Бензекри усовершенствовали MCA и включили его в более общую структуру анализа данных, известную как геометрический анализ данных . Это предполагает развитие прямых связей между простым анализом соответствий , анализом главных компонентов и MCA с формой кластерного анализа, известной как евклидова классификация. [6]

Два расширения имеют большое практическое применение.

  • В качестве активных элементов в МКА можно включить несколько количественных переменных. Это расширение называется факторным анализом смешанных данных (см. ниже).
  • Очень часто в анкетах вопросы структурированы по нескольким вопросам. При статистическом анализе необходимо учитывать эту структуру. В этом состоит цель множественного факторного анализа, который уравновешивает различные проблемы (т.е. различные группы переменных) в рамках глобального анализа и обеспечивает, помимо классических результатов факторного анализа (в основном графики отдельных лиц и категорий), несколько результатов (показатели и графики) особенности структуры группы.

Области применения

[ редактировать ]

В социальных науках MCA, возможно, наиболее известен благодаря своему применению Пьером Бурдье . [7] особенно в его книгах «La Distinction» , «Homo Academicus» и «Государственное дворянство» . Бурдье утверждал, что существует внутренняя связь между его видением социального как пространственного и реляционного, отраженного в понятии поля , и геометрическими свойствами MCA. [8] Социологи, следующие за работами Бурдье, чаще всего отдают предпочтение анализу индикаторной матрицы, а не таблицы Берта, во многом из-за центральной важности, придаваемой анализу «облака индивидов». [9]

Анализ множественных соответствий и анализ главных компонентов

[ редактировать ]

MCA также можно рассматривать как PCA, примененный к полной дизъюнктивной таблице. Для этого CDT необходимо преобразовать следующим образом. Позволять обозначают общий термин CDT. равен 1, если индивидуальный имеет категорию и 0, если нет. Обозначим , доля лиц, обладающих категорией . Преобразованный CDT (TCDT) имеет общий термин:


Нестандартизированный PCA, примененный к TCDT, столбец иметь вес , приводит к результатам MCA.

Эта эквивалентность полностью объяснена в книге Жерома Пажеса. [10] Он играет важную теоретическую роль, поскольку открывает путь к одновременной обработке количественных и качественных переменных. Два метода одновременно анализируют эти два типа переменных: факторный анализ смешанных данных и, когда активные переменные разделены на несколько групп: множественный факторный анализ.

Эта эквивалентность не означает, что MCA является частным случаем PCA, поскольку это не частный случай CA. Это лишь означает, что эти методы тесно связаны друг с другом, поскольку принадлежат к одному семейству: факторным методам. [ нужна ссылка ]

Программное обеспечение

[ редактировать ]

Существует множество программ для анализа данных, включающих MCA, например STATA и SPSS. Пакет R FactoMineR также включает MCA. Это программное обеспечение связано с книгой, описывающей основные методы выполнения MCA. [11] Существует также пакет Python для [1] , который работает с матрицами массивов numpy; пакет еще не реализован для кадров данных Spark.

  1. ^ Ле Ру; Б. и Х. Руане (2004). Геометрический анализ данных: от анализа соответствий к анализу структурированных данных . Дордрехт. Клювер: стр.180.
  2. ^ Гринакр, Майкл и Блазиус, Йорг (редакторы) (2006). Анализ множественных соответствий и родственные методы . Лондон: Чепмен и Холл/CRC. {{cite book}}: |author= имеет общее имя ( справка ) CS1 maint: несколько имен: список авторов ( ссылка )
  3. ^ Гринакр, Майкл (2007). Анализ корреспонденции на практике, второе издание . Лондон: Чепмен и Холл/CRC.
  4. ^ Ле Ру, Б. и Х. Руане (2004), Анализ геометрических данных, От анализа соответствий к анализу структурированных данных, Дордрехт. Клювер: стр.179
  5. ^ Эрве Абди; Доминик Валентин (2007). «Анализ множественных соответствий» (PDF) .
  6. ^ Ле Ру; Б. и Х. Руане (2004). Геометрический анализ данных: от анализа соответствий к анализу структурированных данных . Дордрехт. Клювер.
  7. ^ Скотт, Джон и Гордон Маршалл (2009): Оксфордский социологический словарь, стр. 135. Оксфорд: Издательство Оксфордского университета.
  8. ^ Руане, Анри (2000) «Геометрический анализ анкет. Урок различия Бурдье», в Bulletin de Méthodologie Sociologique 65, стр. 4–18
  9. ^ Лебарон, Фредерик (2009) «Как Бурдье «количественно оценил» Бурдье: геометрическое моделирование данных», в Робсоне и Сандерсе (ред.). Теория количественной оценки: Пьер Бурдье. Спрингер, стр. 11–30.
  10. ^ Пажес Жером (2014). Многофакторный анализ на примере использования R. Чепмен и Холл / CRC The R Series, Лондон, 272 стр.
  11. ^ Хассон Ф., Ле С. и Пажес Дж. (2009). Исследовательский многомерный анализ на примере использования R. Чепмен и Холл/CRC The R Series, Лондон. ISBN   978-2-7535-0938-2
[ редактировать ]
  • Ле Ру, Б. и Х. Руане (2004), Анализ геометрических данных, От анализа соответствий к анализу структурированных данных в Google Книгах: [2]
  • Гринакр, Майкл (2008), «Практика анализа корреспонденции» , Фонд BBVA, Мадрид, доступен для бесплатного скачивания на веб-сайте фонда [3]
  • Программное обеспечение FactoMineR AR, предназначенное для разведочного анализа данных.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4f0b1d3e9ac9825998f990ea2dfe6f89__1716616860
URL1:https://arc.ask3.ru/arc/aa/4f/89/4f0b1d3e9ac9825998f990ea2dfe6f89.html
Заголовок, (Title) документа по адресу, URL1:
Multiple correspondence analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)