Jump to content

Разреженный PCA

Разреженный анализ главных компонент (SPCA или разреженный PCA) — это метод, используемый в статистическом анализе и, в частности, при анализе многомерных наборов данных. Он расширяет классический метод анализа главных компонентов (PCA) для уменьшения размерности данных путем введения структур разреженности во входные переменные.

Особым недостатком обычного PCA является то, что основные компоненты обычно представляют собой линейные комбинации всех входных переменных. SPCA преодолевает этот недостаток, находя компоненты, которые представляют собой линейные комбинации всего нескольких входных переменных (SPC). Это означает, что некоторые коэффициенты линейных комбинаций, определяющих SPC, называемые нагрузками , [примечание 1] равны нулю. Число ненулевых нагрузок называется мощностью СПК.

Математическая формулировка

[ редактировать ]

данных Рассмотрим матрицу , , где каждый из столбцы представляют собой входную переменную, и каждый из строки представляют собой независимую выборку из совокупности данных. Предполагается, что каждый столбец имеет нулевое среднее значение, в противном случае можно вычесть среднее значение по столбцу из каждого элемента .Позволять быть эмпирической ковариационной матрицей , который имеет размерность .

Учитывая целое число с , проблему разреженного PCA можно сформулировать как максимизацию дисперсии вдоль направления, представленного вектором при ограничении его мощности:

уравнение 1

Первое ограничение указывает, что v является единичным вектором. Во втором ограничении представляет собой псевдонорма v , которая определяется как количество его ненулевых компонентов. Таким образом, второе ограничение указывает, что количество ненулевых компонентов в v меньше или равно k , которое обычно является целым числом, намного меньшим, чем размерность p . Оптимальное значение уравнения. 1 известен как k -разреженное наибольшее собственное значение .

Если взять k=p , проблема сводится к обычному PCA , и оптимальным значением становится наибольшее собственное значение ковариационной матрицы Σ .

Найдя оптимальное решение v , можно сдуть Σ, чтобы получить новую матрицу

и повторите этот процесс, чтобы получить дополнительные основные компоненты. Однако, в отличие от PCA, разреженный PCA не может гарантировать, что различные главные компоненты ортогональны . Для достижения ортогональности необходимо ввести дополнительные ограничения.

Следующее эквивалентное определение дано в матричной форме.Позволять быть симметричной матрицей p × p , можно переписать разреженную задачу PCA как

уравнение 2

Tr матричный след , а представляет ненулевые элементы в матрице V .Последняя строка указывает, что V имеет матричный ранг один и является положительно полуопределенным .Последняя строка означает, что у вас есть , поэтому уравнение 2 эквивалентно уравнению. 1 .

Более того, ограничение ранга в этой формулировке на самом деле избыточно, и поэтому разреженную PCA можно представить как следующую смешанно-целочисленную полуопределенную программу [1]

уравнение 3

Из-за ограничения мощности задачу максимизации трудно решить точно, особенно когда размерность p велика. Фактически, проблема разреженной PCA в уравнении. 1 является NP-трудным в сильном смысле. [2]

Вычислительные соображения

[ редактировать ]

Как и большинство разреженных задач, выбор переменных в SPCA представляет собой вычислительно неразрешимую невыпуклую NP-трудную задачу. [3] поэтому для поиска решений требуются жадные неоптимальные алгоритмы.

Алгоритмы для SPCA

[ редактировать ]

несколько альтернативных подходов ( уравнения 1 Было предложено ), в том числе

  • модель регрессии, [4]
  • система штрафной матричной декомпозиции, [5]
  • структура выпуклого релаксации/полуопределенного программирования, [6]
  • структура обобщенного степенного метода [7]
  • альтернативная структура максимизации [8]
  • жадный поиск вперед-назад и точные методы с использованием методов ветвей и границ, [9]
  • сертифицированно оптимальный подход ветвей и границ [10]
  • Байесовская формулировка. [11]
  • Сертифицированно оптимальный смешанно-целочисленный полуопределенный подход ветвей и разрезов [1]

Методологические и теоретические разработки Sparse PCA, а также его применение в научных исследованиях недавно рассматриваются в обзорной статье. [12]

Заметки о релаксации полуопределенного программирования

[ редактировать ]

Было предложено, что разреженный PCA может быть аппроксимирован с помощью полуопределенного программирования (SDP). [6] ограничения с 1 нормой Если отбросить ограничение ранга и ослабить ограничение мощности с помощью выпуклого , мы получим полуопределенное программное расслабление, которое можно эффективно решить за полиномиальное время:

уравнение 3

Во втором ограничении представляет собой p × 1 вектор единиц , а |V| элементы которой являются абсолютными значениями элементов V. — матрица ,

Оптимальное решение к расслабленной задаче (уравнение). 3 не обязательно будет иметь первый ранг. В этом случае может быть усечен, чтобы сохранить только доминирующий собственный вектор.

Хотя полуопределенная программа не масштабируется за пределы n = 300 ковариат, было показано, что конусная релаксация второго порядка полуопределенной релаксации почти столь же точна и успешно решает проблемы с n = 1000 ковариат. [13]

Приложения

[ редактировать ]

Анализ финансовых данных

[ редактировать ]

Предположим, что обычный PCA применяется к набору данных, где каждая входная переменная представляет собой отдельный актив. Он может генерировать основные компоненты, которые представляют собой взвешенную комбинацию всех активов. Напротив, разреженный PCA будет создавать основные компоненты, которые представляют собой взвешенную комбинацию всего лишь нескольких входных активов, поэтому можно легко интерпретировать его значение. Более того, если использовать торговую стратегию, основанную на этих основных компонентах, меньшее количество активов означает меньшие транзакционные издержки.

Биология

[ редактировать ]

Рассмотрим набор данных, в котором каждая входная переменная соответствует определенному гену. Разреженный PCA может производить основной компонент, включающий лишь несколько генов, поэтому исследователи могут сосредоточиться на этих конкретных генах для дальнейшего анализа.

Многомерная проверка гипотез

[ редактировать ]

Современные наборы данных часто имеют количество входных переменных ( ), сравнимое или даже намного превышающее количество выборок ( ). Было показано, что если не сходится к нулю, классический PCA несовместен . Другими словами, если мы позволим в уравнении 1 , тогдаоптимальное значение не сходится к наибольшему собственному значению совокупности данных, когда размер выборки , и оптимальное решение не сходится к направлению максимальной дисперсии.Но разреженный PCA может сохранять согласованность, даже если

k - разреженное наибольшее собственное значение (оптимальное значение уравнения 1 ) можно использовать для отличия изометрической модели, в которой каждое направление имеет одинаковую дисперсию, от модели с пиковой ковариацией в многомерной обстановке. [14] Рассмотрим проверку гипотезы, в которой нулевая гипотеза указывает, что данные генерируются из многомерного нормального распределения со средним значением 0 и ковариацией, равной единичной матрице, а альтернативная гипотеза указывает, что данные генерируется на основе пиковой модели с уровнем сигнала :

где имеет только k ненулевых координат. Наибольшее k -разреженное собственное значение может различать две гипотезы тогда и только тогда, когда .

Поскольку вычисление k -разреженного собственного значения является NP-трудным, его можно аппроксимировать оптимальным значением релаксации полуопределенного программирования ( уравнение 3 ). В этом случае мы можем различить две гипотезы, если . Дополнительный Этот термин не может быть улучшен каким-либо другим алгоритмом с полиномиальным временем, если верна гипотеза о посещенной клике .

Программное обеспечение/исходный код

[ редактировать ]
  • amanpg — пакет R для разреженного PCA с использованием метода проксимального градиента чередующегося многообразия [15]
  • elasticnet — пакет R для разреженной оценки и разреженной PCA с использованием Elastic-Nets [16]
  • epca – пакет R для исследовательского анализа главных компонентов крупномасштабных наборов данных, включая анализ разреженных главных компонентов и аппроксимацию разреженной матрицы. [17]
  • nsprcomp — пакет R для разреженного и/или неотрицательного PCA на основе итераций пороговой мощности [18]
  • scikit-learn — библиотека Python для машинного обучения, которая содержит Sparse PCA и другие методы в модуле декомпозиции. [19]


Примечания

[ редактировать ]
  1. ^ Термин « нагрузки» неправильно используется для этих векторов, которые вместо этого следует называть коэффициентами. Название происходит от термина «нагрузки», используемого в факторном анализе для разработки значений, генерирующих общую ковариационную матрицу. Поскольку в стандартном PCA нагрузки равны коэффициентам, для коэффициентов использовался термин «нагрузки». Это весьма прискорбно, поскольку в SPCA коэффициенты не равны нагрузкам.


  1. ^ Jump up to: а б Димитрис Берцимас; Райан Кори-Райт; Жан Пофиле (2020). «Решение крупномасштабной разреженной PCA до поддающейся сертификации (почти) оптимальности». arXiv : 2005.05195 [ math.OC ].
  2. ^ Андреас М. Тиллманн; Марк Э. Пфетч (2013). «Вычислительная сложность свойства ограниченной изометрии, свойства нулевого пространства и связанных с ним концепций в сжатом измерении». Транзакции IEEE по теории информации . 60 (2): 1248–1259. arXiv : 1205.2081 . CiteSeerX   10.1.1.760.2559 . дои : 10.1109/TIT.2013.2290112 . S2CID   2788088 .
  3. ^ Могаддам, Бабак; Вайс, Яир; Авидан, Шай (7 сентября 2007 г.). Шёлкопф, Бернхард; Платт, Джон; Хофманн, Томас (ред.). Достижения в области нейронных систем обработки информации 19: Материалы конференции 2006 года . Массачусетский технологический институт Пресс. стр. 915–922. дои : 10.7551/mitpress/7503.001.0001 . ISBN  978-0-262-25691-9 .
  4. ^ Хуэй Цзоу; Тревор Хэсти; Роберт Тибширани (2006). «Анализ разреженных главных компонентов» (PDF) . Журнал вычислительной и графической статистики . 15 (2): 262–286. CiteSeerX   10.1.1.62.580 . дои : 10.1198/106186006x113430 . S2CID   5730904 .
  5. ^ Фань Чен; Карл Роэ (2021). «Новая основа для анализа разреженных главных компонентов» . Журнал вычислительной и графической статистики . arXiv : 2007.00596 . дои : 10.1080/10618600.2023.2256502 .
  6. ^ Jump up to: а б Александр д'Аспремон; Лоран Эль Гауи; Майкл И. Джордан; Герт Р.Г. Ланкриет (2007). «Прямая формулировка разреженного PCA с использованием полуопределенного программирования» (PDF) . Обзор СИАМ . 49 (3): 434–448. arXiv : cs/0406021 . дои : 10.1137/050645506 . S2CID   5490061 .
  7. ^ Мишель Журне; Юрий Нестеров; Питер Рихтарик; Родольф Гробница (2010). «Обобщенный степенной метод для анализа разреженных главных компонентов» (PDF) . Журнал исследований машинного обучения . 11 : 517–553. arXiv : 0811.4724 . Бибкод : 2008arXiv0811.4724J . CORE Дискуссионный документ 2008/70.
  8. ^ Питер Рихтарик; Маджид Джахани; С. Дамла Ахипасаоглу; Мартин Такач (2021). «Попеременная максимизация: унификация структуры для 8 разреженных формулировок PCA и эффективных параллельных кодов» . Оптимизация и инжиниринг . 22 (3): 1493–1519. arXiv : 1212.4137 . дои : 10.1007/s11081-020-09562-3 . S2CID   2549610 .
  9. ^ Бабак Могаддам; Яир Вайс; Шай Авидан (2005). «Спектральные границы для разреженного PCA: точные и жадные алгоритмы» (PDF) . Достижения в области нейронных систем обработки информации . Том. 18. МИТ Пресс.
  10. ^ Лорен Берк; Димитрис Берцимас (2019). «Сертифицированно оптимальный анализ разреженных главных компонентов». Математическое программирование вычислений . 11 (3). Спрингер: 381–420. дои : 10.1007/s12532-018-0153-6 . hdl : 1721.1/131566 . S2CID   126998398 .
  11. ^ Юэ Гуань; Дженнифер Дай (2009). «Разреженный вероятностный анализ главных компонентов» (PDF) . Журнал семинаров по исследованиям в области машинного обучения и материалы конференций . 5 : 185.
  12. ^ Хуэй Цзоу; Линчжоу Сюэ (2018). «Выборочный обзор анализа разреженных главных компонентов» . Труды IEEE . 106 (8): 1311–1320. дои : 10.1109/jproc.2018.2846588 .
  13. ^ Димитрис Берцимас; Райан Кори-Райт (2020). «О многогранных и конусных разложениях второго порядка полуопределенных задач оптимизации» . Письма об исследованиях операций . 48 (1). Эльзевир: 78–85. arXiv : 1910.03143 . дои : 10.1016/j.orl.2019.12.003 .
  14. ^ Квентин Берте; Филипп Риголле (2013). «Оптимальное обнаружение редких главных компонентов в больших размерностях». Анналы статистики . 41 (1): 1780–1815. arXiv : 1202.5070 . дои : 10.1214/13-aos1127 . S2CID   7162068 .
  15. ^ [1] https://cran.r-project.org/web/packages/amanpg/index.html .
  16. ^ [2] https://cran.r-project.org/web/packages/elasticnet/index.html.
  17. ^ [3] https://cran.r-project.org/web/packages/epca/index.html.
  18. ^ [4] https://cran.r-project.org/web/packages/nsprcomp/index.html.
  19. ^ [5] http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.SparsePCA.html
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 58af170ff7138305ee3ea206329263ab__1718831700
URL1:https://arc.ask3.ru/arc/aa/58/ab/58af170ff7138305ee3ea206329263ab.html
Заголовок, (Title) документа по адресу, URL1:
Sparse PCA - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)