Jump to content

Анализ корреспонденции

Анализ соответствия ( CA многомерный статистический метод. ) — предложенный [1] Герман Отто Хартли (Хиршфельд) [2] и позже разработан Жан-Полем Бензекри . [3] Он концептуально аналогичен анализу главных компонентов , но применяется к категориальным, а не непрерывным данным. Подобно анализу главных компонентов, он предоставляет средства отображения или обобщения набора данных в двухмерной графической форме. Его цель — отобразить на биграфике любую структуру, скрытую в многомерной настройке таблицы данных. По существу, это техника из области многовариантной ординации . Поскольку описанный здесь вариант СА может применяться как с акцентом на строки, так и на столбцы, его фактически следует называть простым (симметричным) анализом соответствий . [4]

Традиционно он применяется к таблице сопряженности пары номинальных переменных , где каждая ячейка содержит либо счетчик, либо нулевое значение. Если необходимо суммировать более двух категориальных переменных, вариант, называемый анализом множественного соответствия вместо этого следует выбрать . CA также может применяться к двоичным данным , поскольку кодирование присутствия/отсутствия представляет собой упрощенные данные подсчета, т.е. 1 описывает положительный счет, а 0 означает нулевой счет. В зависимости от используемых оценок CA сохраняет расстояние хи-квадрат. [5] [6] между строками или столбцами таблицы. Поскольку CA — это описательный метод, его можно применять к таблицам независимо от значимого критерия хи-квадрат . [7] [8] Хотя Статистика, используемая в статистике выводов , и расстояние хи-квадрат связаны в вычислительном отношении, их не следует путать, поскольку последнее работает как многомерная статистическая мера расстояния в CA, в то время как статистика на самом деле является скаляром, а не метрикой . [9]

Подробности

[ редактировать ]

Подобно анализу главных компонентов , анализ соответствия создает ортогональные компоненты (или оси) и для каждого элемента таблицы, т. е. для каждой строки, набор оценок (иногда называемых факторными оценками, см. Факторный анализ ). Анализ соответствия выполняется для таблицы данных, представленной как матрица C размера m × n, где m — количество строк, а n — количество столбцов. В следующем математическом описании метода заглавные буквы, выделенные курсивом, относятся к матрице, а буквы, выделенные курсивом, относятся к векторам . Понимание следующих вычислений требует знаний матричной алгебры .

Предварительная обработка

[ редактировать ]

Прежде чем перейти к центральному вычислительному шагу алгоритма, значения матрицы C необходимо преобразовать. [10] Сначала вычислите набор весов для столбцов и строк (иногда называемый массами ), [7] [11] где веса строк и столбцов задаются векторами строк и столбцов соответственно:

Здесь представляет собой сумму всех значений ячеек в матрице C или короткую сумму C и представляет собой вектор - столбец из единиц соответствующей размерности.

Говоря простыми словами, - это просто вектор, элементы которого представляют собой суммы строк C, разделенные на сумму C , и — вектор, элементами которого являются суммы столбцов C, на сумму C. деленные

Веса преобразуются в диагональные матрицы

и

где диагональные элементы являются и те из являются соответственно, т.е. векторные элементы являются обратными квадратным корням масс. Все недиагональные элементы равны 0.

Далее вычисляем матрицу разделив по его сумме

Проще говоря, Матрица. — это просто матрица данных (таблица непредвиденных обстоятельств или двоичная таблица), преобразованная в части, т.е. каждое значение ячейки — это просто часть ячейки суммы всей таблицы.

Наконец, вычислите матрицу , иногда называемая матрицей стандартизованных остатков , [10] путем матричного умножения как

Обратите внимание, что векторы и объединяются во внешний продукт, в результате чего получается матрица тех же размеров, что и . Прописью формула звучит так: матрица вычитается из матрицы и полученная матрица масштабируется (взвешивается) диагональными матрицами и . Умножение полученной матрицы на диагональные матрицы эквивалентно умножению i-й ее строки (или столбца) на i-й элемент диагонали или , соответственно [12] .

Интерпретация предварительной обработки

[ редактировать ]

Векторы и — это массы строк и столбцов или предельные вероятности для строк и столбцов соответственно. Вычитающая матрица из матрицы — это версия матричной алгебры двойного центрирования данных. Умножение этой разницы на диагональные весовые матрицы приводит к получению матрицы, содержащей взвешенные отклонения от начала векторного пространства . Это начало координат определяется матрицей .

Фактически матрица идентична матрице ожидаемых частот в тесте хи-квадрат . Поэтому вычислительно связана с моделью независимости, используемой в этом тесте. Но поскольку СА не является методом вывода, термин «модель независимости» здесь неуместен.

Ортогональные компоненты

[ редактировать ]

Стол затем разлагается [10] разложением по сингулярным значениям как

где и — левый и правый сингулярные векторы и представляет собой квадратную диагональную матрицу с сингулярными значениями из по диагонали. имеет размерность следовательно имеет размерность m×p и имеет размер n×p . Ортонормированные векторы и выполнить

.

Другими словами, многомерная информация, содержащаяся в а также в теперь распределено по двум (координатным) матрицам и и диагональная (масштабирующая) матрица . Определенное ими векторное пространство имеет число измерений p, то есть меньшее из двух значений: количество строк и количество столбцов, минус 1.

Хотя можно сказать, что анализ главных компонент разлагает (ко)дисперсию , и, следовательно, его мерой успеха является количество (ко)дисперсии, покрываемой первыми несколькими осями PCA (измеренными в собственных значениях), СА работает с взвешенным значением. (ко-)дисперсия, которая называется инерцией . [13] Сумма квадратов сингулярных значений представляет собой полную инерцию. таблицы данных, рассчитанной как

Полная инерция таблицы данных также можно вычислить непосредственно из как

Величина инерции, покрываемая i-м набором сингулярных векторов, равна , главная инерция. Чем выше доля инерции, покрываемая первыми несколькими сингулярными векторами, т.е. чем больше сумма главных инерций по сравнению с общей инерцией, тем более успешным является КА. [13] Поэтому все основные значения инерции выражаются как доли от общей инерции

и представлены в виде осыпного сюжета . Фактически график осыпи представляет собой просто гистограмму всех основных участков инерции. .

Координаты

[ редактировать ]

Чтобы преобразовать сингулярные векторы в координаты, которые сохраняют хи-квадратные расстояния между строками или столбцами, необходим дополнительный шаг взвешивания. Полученные координаты называются главными координатами. [10] в учебниках СА. Если для строк используются главные координаты, их визуализация называется изометрией строки. [14] масштабирование в эконометрике и масштабирование 1 [15] в экологии. Поскольку взвешивание включает в себя сингулярные значения матрицы стандартизированных остатков эти координаты иногда называют сингулярными векторами в масштабе сингулярного значения или, что немного вводит в заблуждение, как собственными векторами в масштабе собственных значений. В действительности нетривиальные собственные векторы — левые сингулярные векторы из и те из являются правыми сингулярными векторами из а собственные значения любой из этих матриц представляют собой квадраты сингулярных значений . Но поскольку все современные алгоритмы CA основаны на разложении по сингулярным значениям, этой терминологии следует избегать. Во французской традиции CA координаты иногда называют (факторными) оценками .

Факторные оценки или главные координаты строк матрицы C вычисляются по формуле

т.е. левые сингулярные векторы масштабируются по обратным квадратным корням из масс строк и по сингулярным значениям. Поскольку главные координаты вычисляются с использованием сингулярных значений, они содержат информацию о разбросе между строками (или столбцами) исходной таблицы. Вычисление евклидовых расстояний между объектами в главных координатах приводит к значениям, равным их расстояниям хи-квадрат, что является причиной того, почему говорят, что CA «сохраняет расстояния хи-квадрат» .

Вычислите главные координаты столбцов с помощью

Чтобы представить результат CA в правильном биграфике , те категории, которые не отображены в главных координатах, т.е. в координатах, сохраняющих расстояние хи-квадрат, должны быть отображены в так называемых стандартных координатах . [10] Их называют стандартными координатами, потому что каждый вектор стандартных координат стандартизирован так, чтобы иметь среднее значение 0 и дисперсию 1. [16] При вычислении стандартных координат сингулярные значения опускаются, что является прямым результатом применения правила биграфика , согласно которому один из двух наборов сингулярных векторных матриц должен масштабироваться сингулярными значениями, возведенными в степень нуля, т.е. умноженными на единицу, т.е. вычисляться по формуле опуская сингулярные значения, если другой набор сингулярных векторов был масштабирован по сингулярным значениям. Это подтверждает существование внутреннего продукта между двумя наборами координат, т.е. приводит к значимым интерпретациям их пространственных отношений в побочном сюжете.

С практической точки зрения стандартные координаты можно рассматривать как вершины векторного пространства, в которых «существует» набор главных координат (т.е. соответствующих точек). [17] Стандартные координаты строк:

и те, что для столбцов

Обратите внимание, что масштабирование 1 [15] биграфик в экологии подразумевает, что строки должны находиться в основных координатах, а столбцы - в стандартных координатах, тогда как масштабирование 2 подразумевает, что строки должны находиться в стандартных координатах, а столбцы - в главных координатах. Т.е. масштабирование 1 подразумевает побочный график вместе с в то время как масштабирование 2 подразумевает побочный график вместе с .

Графическое представление результата

[ редактировать ]

Визуализация результата СА всегда начинается с отображения графика осыпи основных значений инерции, чтобы оценить успешность суммирования разброса по первым нескольким сингулярным векторам.

Фактическое посвящение представлено в виде графика, который на первый взгляд можно спутать со сложной диаграммой рассеяния . Фактически он состоит из двух точечных диаграмм, напечатанных одна на другой: один набор точек для строк, а другой — для столбцов. Но поскольку это побочный сюжет, четкое правило интерпретации связывает две используемые координатные матрицы.

Обычно первые два измерения решения CA отображаются на графике, поскольку они охватывают максимум информации о таблице данных, которая может быть отображена в 2D, хотя другие комбинации измерений могут быть исследованы с помощью двухграфического графика. Биплот на самом деле представляет собой низкоразмерное отображение части информации, содержащейся в исходной таблице.

Как правило, тот набор (строки или столбцы), который следует проанализировать с точки зрения его состава, измеренного другим набором, отображается в главных координатах, а другой набор отображается в стандартных координатах. Например, таблица, отображающая избирательные округа в строках и политические партии в столбцах с ячейками, содержащими подсчитанные голоса , может отображаться с округами (строками) в главных координатах, когда основное внимание уделяется упорядочиванию округов по аналогичному голосованию.

Традиционно, беря свое начало из французской традиции в Калифорнии, [18] ранние биплоты CA отображали оба объекта в одной и той же версии координат, обычно это основные координаты, но такой вид отображения вводит в заблуждение, поскольку: «Хотя это называется биграфиком, он не имеет какой-либо полезной взаимосвязи внутреннего продукта между оценками строки и столбца». как Брайан Рипли , сопровождающий пакета R MASS. правильно отмечает [19] Сегодня такого рода отображения следует избегать, поскольку непрофессионалы обычно не осознают отсутствия связи между двумя наборами точек.

Масштабирование 1 [15] биграфик (строки в главных координатах, столбцы в стандартных координатах) интерпретируется следующим образом: [20]

  • Расстояния между точками строк приблизительно соответствуют их расстоянию хи-квадрат. Точки, расположенные близко друг к другу, представляют собой строки с очень похожими значениями в исходной таблице данных. Т.е. они могут демонстрировать довольно схожие частоты в случае данных подсчета или близкородственные двоичные значения в случае данных о присутствии/отсутствии.
  • Точки (столбцы) в стандартных координатах представляют собой вершины векторного пространства, т.е. внешний угол чего-то, что в многомерном пространстве имеет форму неправильного многогранника. Проецировать точки строк на линию, соединяющую начало координат и стандартную координату столбца; если проецируемое положение вдоль этой соединительной линии близко к положению стандартной координаты, эта точка строки тесно связана с этим столбцом, т.е. в случае данных подсчета строка имеет высокую частоту этой категории, а в случае данных о наличии/отсутствии строка, скорее всего, будет содержать 1 в этом столбце. Точки строк, проекция которых потребует удлинения линии соединения за пределы начала координат, имеют в этом столбце значение ниже среднего.

Расширения и приложения

[ редактировать ]

Доступно несколько вариантов CA, включая анализ соответствия без тренда (DCA) и анализ канонического соответствия (CCA). Последний (CCA) используется, когда имеется информация о возможных причинах сходства между исследуемыми объектами. Распространение анализа соответствия на множество категориальных переменных называется анализом множественного соответствия . Адаптация анализа соответствия к проблеме дискриминации на основе качественных переменных (т. е. эквивалент дискриминантного анализа для качественных данных) называется дискриминантным анализом соответствия или барицентрическим дискриминантным анализом.

В социальных науках анализ соответствий и, в частности, его расширенный анализ множественных соответствий , стал известен за пределами Франции благодаря французским социологом Пьером Бурдье . его применению [21]

Реализации

[ редактировать ]
  • В систему визуализации данных Orange входит модуль: orngCA.
  • Язык статистического программирования R включает несколько пакетов, которые предлагают функцию (простого симметричного) анализа соответствий. Используя нотацию R [имя_пакета::имя_функции], пакеты и соответствующие функции будут следующими: ade4::dudi.coa(), ca::ca() , ExPosition::epCA(), FactoMineR::CA(), MASS::corresp(), vegan::cca(). Самый простой подход для новичков ca::ca() так как есть обширный учебник [22] сопровождающий этот пакет.
  • Бесплатное ПО PAST (ПАЛЕОНТОЛОГИЧЕСКАЯ СТАТИСТИКА) [23] предлагает (простой симметричный) анализ соответствия через меню «Многомерность/Родификация/Соответствие (CA)».

См. также

[ редактировать ]
  1. ^ Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP ISBN   0-19-850994-4
  2. ^ Хиршфельд, Х.О. (1935) «Связь между корреляцией и непредвиденными обстоятельствами», Proc. Кембриджское философское общество , 31, 520–524.
  3. ^ Бенсекри, Ж.-П. (1973). Анализ данных. Том II. Анализ корреспонденции . Париж, Франция: Дюно.
  4. ^ Бех, Эрик; Ломбардо, Розария (2014). Анализ корреспонденции. Теория, практика и новые стратегии . Чичестер: Уайли. п. 120. ИСБН  978-1-119-95324-1 .
  5. ^ Гринакр, Майкл (2007). Анализ соответствия на практике . Бока-Ратон: CRC Press. п. 204. ИСБН  9781584886167 .
  6. ^ Лежандр, Пьер; Лежандр, Луи (2012). Численная экология . Амстердам: Эльзевир. п. 465. ИСБН  978-0-444-53868-0 .
  7. ^ Jump up to: а б Гринакр, Майкл (1983). Теория и приложения анализа соответствий . Лондон: Академическая пресса. ISBN  0-12-299050-1 .
  8. ^ Гринакр, Майкл (2007). Анализ корреспонденции на практике, второе издание . Лондон: Чепмен и Холл/CRC.
  9. ^ Гринакр, Майкл (2017). Анализ соответствия на практике (3-е изд.). Бока-Ратон: CRC Press. стр. 26–29. ISBN  9781498731775 .
  10. ^ Jump up to: а б с д и Гринакр, Майкл (2007). Анализ соответствия на практике . Бока-Ратон: CRC Press. п. 202. ИСБН  9781584886167 .
  11. ^ Гринакр, Майкл (2007). Анализ корреспонденции на практике, второе издание . Лондон: Чепмен и Холл/CRC. п. 202.
  12. ^ Абадир, Карим; Магнус, Ян (2005). Матричная алгебра . Кембридж: Издательство Кембриджского университета. п. 24. ISBN  9786612394256 .
  13. ^ Jump up to: а б Бех, Эрик; Ломбардо, Розария (2014). Анализ корреспонденции. Теория, практика и новые стратегии . Чичестер: Уайли. стр. 87, 129. ISBN.  978-1-119-95324-1 .
  14. ^ Бех, Эрик; Ломбардо, Розария (2014). Анализ корреспонденции. Теория, практика и новые стратегии . Чичестер: Уайли. стр. 132–134. ISBN  978-1-119-95324-1 .
  15. ^ Jump up to: а б с Лежандр, Пьер; Лежандр, Луи (2012). Численная экология . Амстердам: Эльзевир. п. 470. ИСБН  978-0-444-53868-0 .
  16. ^ Гринакр, Майкл (2017). Анализ соответствия на практике (3-е изд.). Бока-Ратон: CRC Press. п. 62. ИСБН  9781498731775 .
  17. ^ Блазиус, Йорг (2001). Анализ переписки (на немецком языке). Берлин: Вальтер де Грюйтер. стр. 40, 60. ISBN.  9783486257304 .
  18. ^ Гринакр, Майкл (2017). Анализ соответствия на практике (3-е изд.). Бока-Ратон: CRC Press. п. 70. дои : 10.1201/9781315369983 . ISBN  9781498731775 .
  19. ^ Рипли, Брайан (13 января 2022 г.). «Руководство по упаковке MASS R» . Документация пакета R (rdrr.io) . Подробности . Проверено 17 марта 2022 г.
  20. ^ Боркард, Дэниел; Жилле, Франсуа; Лежандр, Пьер (2018). Численная экология с R (2-е изд.). Чам: Спрингер. п. 175. дои : 10.1007/978-3-319-71404-2 . ISBN  9783319714042 .
  21. ^ Бурдье, Пьер (1984). Различие . Рутледж . стр. 41 . ISBN  0674212770 .
  22. ^ Гринакр, Майкл (2021). Анализ соответствия на практике (третье изд.). Лондон: CRC PRESS. ISBN  9780367782511 .
  23. ^ Хаммер, Эйвинд. «Прошлое 4 – Прошлое будущего» . Архивировано из оригинала 01.11.2020 . Проверено 14 сентября 2021 г.
[ редактировать ]
  • Гринакр, Майкл (2008), La Práctica del Análisis de Correspondencias , Фонд BBVA, Мадрид, испанский перевод книги «Анализ соответствия на практике» , доступный для бесплатной загрузки из публикаций Фонда BBVA.
  • Гринакр, Майкл (2010), Биплоты на практике , Фонд BBVA, Мадрид, доступно для бесплатного скачивания на multivariatestatistics.org.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 62e80ba82f3346fa36fce13d83527019__1698856920
URL1:https://arc.ask3.ru/arc/aa/62/19/62e80ba82f3346fa36fce13d83527019.html
Заголовок, (Title) документа по адресу, URL1:
Correspondence analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)