Факторный анализ смешанных данных
В статистике посвященный факторный анализ смешанных данных или факторный анализ смешанных данных ( FAMD , во французском оригинале: AFDM или Analyse Factorielle de Données Mixtes ) — это факторный метод, таблицам данных, в которых группа людей описывается как количественными и качественные переменные. Он принадлежит к исследовательским методам, разработанным французской школой « Анализ данных» (анализ данных), основанной Жан-Полем Бензекри .
Термин «смешанный» относится к использованию как количественных, так и качественных переменных. Грубо говоря, мы можем сказать, что FAMD работает как анализ главных компонентов (PCA) для количественных переменных и как анализ множественных соответствий (MCA) для качественных переменных.
Объем
[ редактировать ]Если данные включают переменные обоих типов, но активные переменные однородны, можно использовать PCA или MCA.
Действительно, в MCA легко включить дополнительные количественные переменные посредством коэффициентов корреляции между переменными и факторами по индивидам (фактор по индивидуумам — это вектор, собирающий координаты индивидов на факториальной оси); полученное представление представляет собой корреляционный круг (как в PCA).
Точно так же в PCA легко включить дополнительные категориальные переменные. [1] Для этого каждая категория представлена центром тяжести лиц, которые ею обладают (как MCA).
Когда активные переменные смешиваются, обычной практикой является выполнение дискретизации количественных переменных (например, обычно в обследованиях возраст преобразуется в возрастные классы). Полученные таким образом данные могут быть обработаны MCA.
Эта практика достигает своих пределов:
- Когда индивидуумов мало (менее сотни для фиксации идей), в этом случае СМА нестабилен;
- Когда качественных переменных мало по отношению к количественным переменным (можно не захотеть дискретизировать двадцать количественных переменных, чтобы принять во внимание одну качественную переменную).
Критерий
[ редактировать ]Данные включают в себя количественные переменные и качественные переменные .
является количественной переменной. Мы отмечаем:
- коэффициент корреляции между переменными и ;
- квадрат коэффициента корреляции между переменными и .
В СПС , ищем функцию на (функция на присваивает значение каждому индивидууму (это относится к исходным переменным и главным компонентам), наиболее коррелирующим со всеми переменные в следующем смысле:
- максимум.
В MCA Q мы ищем функцию на больше относится ко всем переменные в следующем смысле:
- максимум.
В ФАМД , ищем функцию на тем более связан со всем переменные в следующем смысле:
- максимум.
В этом критерии оба типа переменных играют одну и ту же роль. Вклад каждой переменной в этом критерии ограничен единицей.
Участки
[ редактировать ]Представление индивидов осуществляется непосредственно из факторов .
Представление количественных переменных строится по принципу PCA (корреляционный круг).
Представление категорий качественных переменных такое же, как в MCA: категория находится в центре тяжести индивидов, которые ею обладают. Обратите внимание, что мы берем точный центроид, а не, как это принято в MCA, центроид с точностью до коэффициента, зависящего от оси (в MCA этот коэффициент равен обратному квадратному корню из собственного значения; в FAMD этого было бы недостаточно). ).
Представление переменных называется квадратом отношений . Координата качественной переменной вдоль оси равен квадрату коэффициента корреляции между переменной и фактор ранга (обозначается ). Координаты количественной переменной вдоль оси равен квадрату коэффициента корреляции между переменной и фактор ранга (обозначается ).
Средства интерпретации
[ редактировать ]Показатели связи между исходными переменными объединяются в так называемую матрицу отношений, содержащую на пересечении строк и столбец :
- Если переменные и являются количественными, квадрат коэффициента корреляции между переменными и ;
- Если переменная является качественным, а переменная является количественным, квадрат коэффициента корреляции между и ;
- Если переменные и качественные, показатель между переменными и .
Пример
[ редактировать ]Очень небольшой набор данных (таблица 1) иллюстрирует работу и результаты FAMD. Шесть человек описываются тремя количественными переменными и тремя качественными переменными. Данные были проанализированы с использованием функции пакета R FAMD FactoMineR.
|
|
В матрице отношений коэффициенты равны (количественные переменные), (качественные переменные) или (по одной переменной каждого типа).
Матрица показывает переплетение связей между двумя типами переменных.
Представление индивидов (рис. 1) четко показывает три группы индивидов. Первая ось противопоставляет индивидов 1 и 2 всем остальным. Вторая ось противопоставляет особей 3 и 4 особям 5 и 6.
Представление переменных (квадрат отношений, рис. 2) показывает, что первая ось ( ) тесно связан с переменными , и . Корреляционный круг (рис. 3) указывает знак корреляции между , и ; представление категорий (рисунок 4) проясняет характер связи между и . Наконец, особи 1 и 2, индивидуализированные по первой оси, характеризуются высокими значениями и и по категориям из также.
Этот пример иллюстрирует, как FAMD одновременно анализирует количественные и качественные переменные. Таким образом, в этом примере показано первое измерение, основанное на двух типах переменных.
История
[ редактировать ]Оригинальная работа FAMD принадлежит Бриджит Эскофье. [2] и Гилберт Сапорта. [3] Эту работу возобновил в 2002 году Жером Пажес. [4] Более полное изложение FAMD на английском языке включено в книгу Жерома Пажеса. [5]
Программное обеспечение
[ редактировать ]Метод реализован в пакете R FactoMineR . Метод реализован в библиотеке Python Prince .
Ссылки
[ редактировать ]- ^ Эскофье, Бриджит; Пажес, Жером (2016). Одно- и множественный факторный анализ: курсы и тематические исследования (PDF) (на французском языке). Париж: Дюнод. ISBN 978-2-10-074144-1 . OCLC 951230297 .
- ^ Эскофье Бриджит (1979). «Одновременная обработка количественных и качественных переменных в факторном анализе» (PDF) . Блокноты для анализа данных . 4 (2): 137–146.
- ^ Сапорта Гилберт (1990). Одновременный анализ качественных и количественных данных. Материалы XXXV научного совещания; Итальянское статистическое общество , 63–72. http://cedric.cnam.fr/~saporta/SAQQD.pdf
- ^ Пажи Жером (2002). «Факторный анализ смешанных данных» (PDF) . Журнал прикладной статистики . 52 (4): 93–111.
- ^ Пажес, Жером (2015). Многофакторный анализ на примере использования R. Бока-Ратон: CRC Press. ISBN 978-1-4822-0547-3 . OCLC 894169715 .