Jump to content

Факторный анализ смешанных данных

В статистике посвященный факторный анализ смешанных данных или факторный анализ смешанных данных ( FAMD , во французском оригинале: AFDM или Analyse Factorielle de Données Mixtes ) — это факторный метод, таблицам данных, в которых группа людей описывается как количественными и качественные переменные. Он принадлежит к исследовательским методам, разработанным французской школой « Анализ данных» (анализ данных), основанной Жан-Полем Бензекри .

Термин «смешанный» относится к использованию как количественных, так и качественных переменных. Грубо говоря, мы можем сказать, что FAMD работает как анализ главных компонентов (PCA) для количественных переменных и как анализ множественных соответствий (MCA) для качественных переменных.

Если данные включают переменные обоих типов, но активные переменные однородны, можно использовать PCA или MCA.

Действительно, в MCA легко включить дополнительные количественные переменные посредством коэффициентов корреляции между переменными и факторами по индивидам (фактор по индивидуумам — это вектор, собирающий координаты индивидов на факториальной оси); полученное представление представляет собой корреляционный круг (как в PCA).

Точно так же в PCA легко включить дополнительные категориальные переменные. [1] Для этого каждая категория представлена ​​центром тяжести лиц, которые ею обладают (как MCA).

Когда активные переменные смешиваются, обычной практикой является выполнение дискретизации количественных переменных (например, обычно в обследованиях возраст преобразуется в возрастные классы). Полученные таким образом данные могут быть обработаны MCA.

Эта практика достигает своих пределов:

  • Когда индивидуумов мало (менее сотни для фиксации идей), в этом случае СМА нестабилен;
  • Когда качественных переменных мало по отношению к количественным переменным (можно не захотеть дискретизировать двадцать количественных переменных, чтобы принять во внимание одну качественную переменную).

Критерий

[ редактировать ]

Данные включают в себя количественные переменные и качественные переменные .

является количественной переменной. Мы отмечаем:

  • коэффициент корреляции между переменными и  ;
  • квадрат коэффициента корреляции между переменными и .

В СПС , ищем функцию на (функция на присваивает значение каждому индивидууму (это относится к исходным переменным и главным компонентам), наиболее коррелирующим со всеми переменные в следующем смысле:

максимум.

В MCA Q мы ищем функцию на больше относится ко всем переменные в следующем смысле:

максимум.

В ФАМД , ищем функцию на тем более связан со всем переменные в следующем смысле:

максимум.

В этом критерии оба типа переменных играют одну и ту же роль. Вклад каждой переменной в этом критерии ограничен единицей.

Представление индивидов осуществляется непосредственно из факторов .

Представление количественных переменных строится по принципу PCA (корреляционный круг).

Представление категорий качественных переменных такое же, как в MCA: категория находится в центре тяжести индивидов, которые ею обладают. Обратите внимание, что мы берем точный центроид, а не, как это принято в MCA, центроид с точностью до коэффициента, зависящего от оси (в MCA этот коэффициент равен обратному квадратному корню из собственного значения; в FAMD этого было бы недостаточно). ).

Представление переменных называется квадратом отношений . Координата качественной переменной вдоль оси равен квадрату коэффициента корреляции между переменной и фактор ранга (обозначается ). Координаты количественной переменной вдоль оси равен квадрату коэффициента корреляции между переменной и фактор ранга (обозначается ).

Средства интерпретации

[ редактировать ]

Показатели связи между исходными переменными объединяются в так называемую матрицу отношений, содержащую на пересечении строк и столбец :

  • Если переменные и являются количественными, квадрат коэффициента корреляции между переменными и  ;
  • Если переменная является качественным, а переменная является количественным, квадрат коэффициента корреляции между и ;
  • Если переменные и качественные, показатель между переменными и .

Очень небольшой набор данных (таблица 1) иллюстрирует работу и результаты FAMD. Шесть человек описываются тремя количественными переменными и тремя качественными переменными. Данные были проанализированы с использованием функции пакета R FAMD FactoMineR.

Таблица 1. Данные (тестовый пример).
2 4.5 4
5 4.5 4
3 1 2
4 1 2
1 1 1
6 1 2
Таблица 2. Тестовый пример. Матрица отношений.
1 0.00 0.05 0.91 0.00 0.00
0.00 1 0.90 0.25 0.25 1.00
0.05 0.90 1 0.13 0.40 0.93
0.91 0.25 0.13 2 0.25 1.00
0.00 0.25 0.40 0.25 1 1.00
0.00 1.00 0.93 1.00 1.00 2

В матрице отношений коэффициенты равны (количественные переменные), (качественные переменные) или (по одной переменной каждого типа).

Матрица показывает переплетение связей между двумя типами переменных.

Представление индивидов (рис. 1) четко показывает три группы индивидов. Первая ось противопоставляет индивидов 1 и 2 всем остальным. Вторая ось противопоставляет особей 3 и 4 особям 5 и 6.

Рисунок 1. ФАМД. Тестовый пример. Представительство физических лиц.
Рисунок 2. ФАМД. Тестовый пример. Квадрат отношений.
Рисунок3. ФАМД. Тестовый пример. Корреляционный круг.
Рисунок 4. ФАМД. Тестовый пример. Представление категорий качественных переменных.

Представление переменных (квадрат отношений, рис. 2) показывает, что первая ось ( ) тесно связан с переменными , и . Корреляционный круг (рис. 3) указывает знак корреляции между , и ; представление категорий (рисунок 4) проясняет характер связи между и . Наконец, особи 1 и 2, индивидуализированные по первой оси, характеризуются высокими значениями и и по категориям из также.

Этот пример иллюстрирует, как FAMD одновременно анализирует количественные и качественные переменные. Таким образом, в этом примере показано первое измерение, основанное на двух типах переменных.

Оригинальная работа FAMD принадлежит Бриджит Эскофье. [2] и Гилберт Сапорта. [3] Эту работу возобновил в 2002 году Жером Пажес. [4] Более полное изложение FAMD на английском языке включено в книгу Жерома Пажеса. [5]

Программное обеспечение

[ редактировать ]

Метод реализован в пакете R FactoMineR . Метод реализован в библиотеке Python Prince .

  1. ^ Эскофье, Бриджит; Пажес, Жером (2016). Одно- и множественный факторный анализ: курсы и тематические исследования (PDF) (на французском языке). Париж: Дюнод. ISBN  978-2-10-074144-1 . OCLC   951230297 .
  2. ^ Эскофье Бриджит (1979). «Одновременная обработка количественных и качественных переменных в факторном анализе» (PDF) . Блокноты для анализа данных . 4 (2): 137–146.
  3. ^ Сапорта Гилберт (1990). Одновременный анализ качественных и количественных данных. Материалы XXXV научного совещания; Итальянское статистическое общество , 63–72. http://cedric.cnam.fr/~saporta/SAQQD.pdf
  4. ^ Пажи Жером (2002). «Факторный анализ смешанных данных» (PDF) . Журнал прикладной статистики . 52 (4): 93–111.
  5. ^ Пажес, Жером (2015). Многофакторный анализ на примере использования R. Бока-Ратон: CRC Press. ISBN  978-1-4822-0547-3 . OCLC   894169715 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 58467f95347cc3e66c4ed24f34f8c5bb__1703346240
URL1:https://arc.ask3.ru/arc/aa/58/bb/58467f95347cc3e66c4ed24f34f8c5bb.html
Заголовок, (Title) документа по адресу, URL1:
Factor analysis of mixed data - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)