Jump to content

Каноническая корреляция

В статистике канонический корреляционный анализ ( CCA ), также называемый анализом канонических переменных , представляет собой способ вывода информации из матриц перекрестной ковариации . Если у нас есть два вектора X = ( X 1 , ..., X n ) и Y = ( Y 1 , ..., Y m ) случайных величин существуют корреляции и между переменными , то канонически-корреляционный анализ позволит найдите линейные комбинации X и Y , которые имеют максимальную корреляцию друг с другом. [1] Т. Р. Кнапп отмечает, что «практически все часто встречающиеся параметрические критерии значимости можно рассматривать как частные случаи канонически-корреляционного анализа, который представляет собой общую процедуру исследования отношений между двумя наборами переменных». [2] Впервые метод был предложен Гарольдом Хотеллингом в 1936 году. [3] хотя в контексте углов между плоскостями математическая концепция была опубликована Камиллой Жорданом в 1875 году. [4]

CCA в настоящее время является краеугольным камнем многомерной статистики и многоракурсного обучения, и было предложено большое количество интерпретаций и расширений, таких как вероятностный CCA, разреженный CCA, многоракурсный CCA, Deep CCA и DeepGeoCCA. [5] К сожалению, возможно из-за своей популярности, литература может быть несовместима с обозначениями. Мы пытаемся подчеркнуть такие несоответствия в этой статье, чтобы помочь читателю наилучшим образом использовать существующую литературу и доступные методы.

Как и его родственный метод PCA , CCA можно рассматривать в форме совокупности (соответствующей случайным векторам и их ковариационным матрицам) или в форме выборки (соответствующей наборам данных и их выборочным ковариационным матрицам). Эти две формы являются почти точными аналогами друг друга, поэтому их различие часто упускается из виду, но они могут вести себя совершенно по-разному в условиях больших измерений. [6] Затем мы даем явные математические определения проблемы народонаселения и выделяем различные объекты в так называемой канонической декомпозиции — понимание различий между этими объектами имеет решающее значение для интерпретации метода.

Определение CCA населения посредством корреляций

[ редактировать ]

Учитывая два вектора-столбца и с случайных величин конечными вторыми моментами можно определить кросс-ковариацию быть матрица, чья запись - это ковариация . На практике мы будем оценивать ковариационную матрицу на основе выборочных данных из и (т.е. из пары матриц данных).

Канонически-корреляционный анализ ищет последовательность векторов. ( ) и ( ) такие, что случайные величины и максимизировать корреляцию . (Скалярные) случайные величины и являются первой парой канонических переменных . Затем ищут векторы, максимизирующие ту же корреляцию, при условии, что они не должны быть коррелированы с первой парой канонических переменных; это дает вторую пару канонических переменных . Эту процедуру можно продолжать до раз.

Наборы векторов называются каноническими направлениями , весовыми векторами или просто весами . «Двойные» наборы векторов называются каноническими векторами нагрузки или просто нагрузками ; их часто легче интерпретировать, чем веса. [7]

Вычисление

[ редактировать ]

Позволять быть матрицей перекрестной ковариации для любой пары (векторных) случайных величин. и . Целевая функция, которую нужно максимизировать, равна

Первым шагом является определение изменения базиса и определение

где и может быть получено из собственного разложения (или путем диагонализации ):

и

Таким образом

По неравенству Коши–Шварца ,

Равенство имеет место, если векторы и коллинеарны. При этом максимум корреляции достигается, если - собственный вектор с максимальным собственным значением матрицы (см. коэффициент Рэлея ). Последующие пары находятся с использованием собственных значений уменьшающихся величин. Ортогональность гарантируется симметрией корреляционных матриц.

Другой взгляд на это вычисление состоит в том, что и — левый и правый сингулярные векторы корреляционной матрицы X и Y, соответствующие наибольшему сингулярному значению.

Поэтому решение таково:

  • является собственным вектором
  • пропорционально

Взаимно также есть:

  • является собственным вектором
  • пропорционально

Обращая замену координат, мы имеем, что

  • является собственным вектором ,
  • пропорционально
  • является собственным вектором
  • пропорционально .

Канонические переменные определяются следующим образом:

Выполнение

[ редактировать ]

CCA можно вычислить с помощью разложения по сингулярным значениям корреляционной матрицы. [8] Он доступен как функция в [9]

Вычисление CCA с использованием разложения по сингулярным значениям на корреляционной матрице связано с косинусом углов между плоскостями . Функция косинуса ​​для плохо обусловлена малых углов, что приводит к очень неточным вычислениям сильно коррелированных главных векторов в конечной точности компьютерной арифметике . Чтобы исправить эту проблему , альтернативные алгоритмы [11] доступны в

Проверка гипотез

[ редактировать ]

Каждую строку можно проверить на значимость с помощью следующего метода. Поскольку корреляции отсортированы, говоря, что строка равно нулю, подразумевает, что все дальнейшие корреляции также равны нулю. Если у нас есть независимые наблюдения в выборке и это предполагаемая корреляция для . Для В-й строке тестовая статистика такова:

который асимптотически распределяется как хи-квадрат с степени свободы для больших . [12] Поскольку все корреляции из к логически равны нулю (и оцениваются таким же образом), произведение членов после этой точки не имеет значения.

Обратите внимание, что в ограничении размера небольшой выборки с то мы гарантируем, что вершина корреляции будут тождественно равны 1, и, следовательно, тест не имеет смысла. [13]

Практическое использование

[ редактировать ]

Типичное использование канонической корреляции в экспериментальном контексте — взять два набора переменных и посмотреть, что общего между этими двумя наборами. [14] Например, при психологическом тестировании можно использовать два хорошо зарекомендовавших себя многомерных личностных теста , такие как Миннесотский многофазный личностный опросник (MMPI-2) и NEO . Увидев, как факторы MMPI-2 соотносятся с факторами NEO, можно было понять, какие параметры были общими между тестами и какая разница была общей. Например, можно обнаружить, что аспекты экстраверсии или невротизма составляют значительную часть общей дисперсии между двумя тестами.

Можно также использовать канонический корреляционный анализ для создания уравнения модели, которое связывает два набора переменных, например набор показателей эффективности и набор объясняющих переменных или набор выходных данных и набор входных данных. На такую ​​модель могут быть наложены ограничения, чтобы гарантировать, что она отражает теоретические требования или интуитивно очевидные условия. Этот тип модели известен как модель максимальной корреляции. [15]

Визуализация результатов канонической корреляции обычно осуществляется с помощью гистограмм коэффициентов двух наборов переменных для пар канонических переменных, демонстрирующих значительную корреляцию. Некоторые авторы предполагают, что их лучше всего визуализировать, отображая их в виде гелиографов, кругового формата с лучеобразными полосами, каждая половина которых представляет два набора переменных. [16]

Позволять с нулевым ожидаемым значением , т.е. .

  1. Если , то есть, и полностью коррелированы, то, например, и , так что первая (и единственная в этом примере) пара канонических переменных равна и .
  2. Если , то есть, и совершенно антикоррелированы, то, например, и , так что первая (и единственная в этом примере) пара канонических переменных равна и .

Заметим, что в обоих случаях , который показывает, что канонический корреляционный анализ одинаково рассматривает коррелированные и антикоррелированные переменные.

Соединение с главными углами

[ редактировать ]

Предполагая, что и иметь нулевые ожидаемые значения , т.е. , их ковариационные матрицы и можно рассматривать как матрицы Грама во внутреннем продукте для записей и , соответственно. В этой интерпретации случайные величины, записи из и из рассматриваются как элементы векторного пространства со скалярным произведением, определяемым ковариацией ; см. Ковариация#Связь с внутренними продуктами .

Определение канонических переменных и тогда эквивалентно определению главных векторов для пары подпространств, натянутых элементами и относительно этого внутреннего продукта . Канонические корреляции равен косинусу главных углов .

Отбеливание и вероятностный канонический корреляционный анализ

[ редактировать ]

CCA также можно рассматривать как специальное преобразование отбеливания , при котором случайные векторы и одновременно преобразуются таким образом, что взаимная корреляция между забеленными векторами и является диагональным. [17] Канонические корреляции затем интерпретируются как коэффициенты регрессии, связывающие и а может быть и отрицательным. Регрессионный взгляд на CCA также дает возможность построить вероятностную генеративную модель со скрытыми переменными для CCA с некоррелированными скрытыми переменными, представляющими общую и неразделенную изменчивость.

См. также

[ редактировать ]
  1. ^ Хердле, Вольфганг; Симар, Леопольд (2007). «Канонический корреляционный анализ». Прикладной многомерный статистический анализ . стр. 321–330. CiteSeerX   10.1.1.324.403 . дои : 10.1007/978-3-540-72244-1_14 . ISBN  978-3-540-72243-4 .
  2. ^ Кнапп, Т.Р. (1978). «Канонический корреляционный анализ: общая параметрическая система проверки значимости». Психологический вестник . 85 (2): 410–416. дои : 10.1037/0033-2909.85.2.410 .
  3. ^ Хотеллинг, Х. (1936). «Отношения между двумя наборами переменных». Биометрика . 28 (3–4): 321–377. дои : 10.1093/biomet/28.3-4.321 . JSTOR   2333955 .
  4. ^ Джордан, К. (1875). «Сочинение по геометрии. Размеры» . Бюлл. Соц. Матем. Франция . 3 : 103.
  5. ^ Джу, Се; Коблер, Рейнмар Дж; Тан, Лияо; Гуань, Кунтай; Каванабэ, Мотоаки (2024). Глубокий геодезический канонический корреляционный анализ для данных нейровизуализации на основе ковариации . Двенадцатая Международная конференция по обучению представлениям (ICLR 2024, в центре внимания).
  6. ^ «Статистическое обучение с разреженностью: лассо и обобщения» . hastie.su.domains . Проверено 12 сентября 2023 г.
  7. ^ Гу, Фэй; Ву, Хао (01 апреля 2018 г.). «Совместный канонический корреляционный анализ с инвариантными каноническими нагрузками» . Поведенческая метрика . 45 (1): 111–132. дои : 10.1007/s41237-017-0042-8 . ISSN   1349-6964 .
  8. ^ Сюй, Д.; Какаде, С.М.; Чжан, Т. (2012). «Спектральный алгоритм для изучения скрытых марковских моделей» (PDF) . Журнал компьютерных и системных наук . 78 (5): 1460. arXiv : 0811.4413 . дои : 10.1016/j.jcss.2011.12.025 . S2CID   220740158 .
  9. ^ Хуанг, Ю.Ю.; Ли, Миннесота; Сяо, СК (2009). «Нелинейные меры связи с каноническим корреляционным анализом ядра и приложениями» (PDF) . Журнал статистического планирования и выводов . 139 (7): 2162. doi : 10.1016/j.jspi.2008.10.011 . Архивировано из оригинала (PDF) 13 марта 2017 г. Проверено 4 сентября 2015 г.
  10. ^ Чепмен, Джеймс; Ван, Хао-Тин (18 декабря 2021 г.). «CCA-Zoo: коллекция регуляризованных, основанных на глубоком обучении, ядерных и вероятностных методов CCA в рамках стиля научного обучения» . Журнал программного обеспечения с открытым исходным кодом . 6 (68): 3823. Бибкод : 2021JOSS....6.3823C . дои : 10.21105/joss.03823 . ISSN   2475-9066 .
  11. ^ Князев А.В.; Арджентати, Мэн (2002), «Основные углы между подпространствами в скалярном произведении на основе A: алгоритмы и оценки возмущений», SIAM Journal on Scientific Computing , 23 (6): 2009–2041, Bibcode : 2002SJSC...23.2008K , CiteSeerX   10.1.1.73.2914 , номер doi : 10.1137/S1064827500377332
  12. ^ Канти В. Мардия , Дж. Т. Кент и Дж. М. Бибби (1979). Многомерный анализ . Академическая пресса .
  13. ^ Ян Сонг, Питер Дж. Шрайер, Дэвид Рамирес и Танудж Хасия Канонический корреляционный анализ многомерных данных с поддержкой очень маленькой выборки arXiv : 1604.02047
  14. ^ Сиераноя, С.; Сахидулла, Мэриленд; Киннунен, Т.; Комулайнен, Ю.; Хадид, А. (июль 2018 г.). «Аудиовизуальное обнаружение синхронизации с оптимизированными функциями звука» (PDF) . 2018 Третья Международная конференция IEEE по обработке сигналов и изображений (ICSIP) . стр. 377–381. дои : 10.1109/SIPROCESS.2018.8600424 . ISBN  978-1-5386-6396-7 . S2CID   51682024 .
  15. ^ Тофаллис, К. (1999). «Построение модели с множеством зависимых переменных и ограничений». Журнал Королевского статистического общества, серия D. 48 (3): 371–378. arXiv : 1109.0725 . дои : 10.1111/1467-9884.00195 . S2CID   8942357 .
  16. ^ Дегани, А.; Шафто, М.; Олсон, Л. (2006). «Канонический корреляционный анализ: использование составных гелиографов для представления нескольких закономерностей» (PDF) . Схематическое представление и вывод . Конспекты лекций по информатике. Том. 4045. с. 93. CiteSeerX   10.1.1.538.5217 . дои : 10.1007/11783183_11 . ISBN  978-3-540-35623-3 .
  17. ^ Джендуби, Т.; Стриммер, К. (2018). «Отбеливающий подход к вероятностному каноническому корреляционному анализу для интеграции данных омики» . БМК Биоинформатика . 20 (1): 15. arXiv : 1802.03490 . дои : 10.1186/s12859-018-2572-9 . ПМК   6327589 . ПМИД   30626338 .
[ редактировать ]


  1. ^ Хагигат, Мохаммед; Абдель-Мотталеб, Мохамед; Алхалаби, Вади (2016). «Дискриминантный корреляционный анализ: объединение уровней признаков в реальном времени для мультимодального биометрического распознавания» . Транзакции IEEE по информационной криминалистике и безопасности . 11 (9): 1984–1996. дои : 10.1109/TIFS.2016.2569061 . S2CID   15624506 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b08de0818c7a45fc4fd8cf58f3363315__1719664560
URL1:https://arc.ask3.ru/arc/aa/b0/15/b08de0818c7a45fc4fd8cf58f3363315.html
Заголовок, (Title) документа по адресу, URL1:
Canonical correlation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)