Функциональный анализ главных компонентов
Функциональный анализ главных компонентов ( FPCA ) представляет собой статистический метод исследования доминирующих режимов изменения функциональных данных . С помощью этого метода случайная функция представляется в собственном базисе, который является ортонормированным базисом гильбертова пространства L 2 который состоит из собственных функций автоковариационного оператора . FPCA представляет функциональные данные наиболее экономным способом в том смысле, что при использовании фиксированного числа базисных функций базис собственных функций объясняет больше вариаций, чем любое другое расширение базиса. FPCA может применяться для представления случайных функций, [1] или в функциональной регрессии [2] и классификация.
Формулировка
[ редактировать ]Для ), интегрируемого с квадратом случайного процесса X ( t , t ∈ 𝒯, пусть
и
где являются собственными значениями и , , ... — ортонормированные собственные функции линейного оператора Гильберта–Шмидта
По теореме Карунена-Лёва можно выразить центрированный процесс в собственном базисе:
где
– главная компонента, связанная с k -й собственной функцией , со свойствами
Тогда центрированный процесс эквивалентен ξ 1 , ξ 2 , .... Обычное предположение состоит в том, что X может быть представлен только несколькими первыми собственными функциями (после вычитания средней функции), т.е.
где
Интерпретация собственных функций
[ редактировать ]Первая собственная функция изображает доминирующий способ изменения X .
где
k -я собственная функция является доминирующим способом изменения, ортогональным , , ... , ,
где
Оценка
[ редактировать ]Пусть Y ij = X i ( t ij ) + ε ij — наблюдения, сделанные в точках (обычно в моменты времени) t ij , где X i — i -я реализация гладкого случайного процесса, который генерирует данные, а ij ε одинаково и независимо распределенная нормальная случайная величина со средним значением 0 и дисперсией σ 2 , j знак равно 1, 2, ..., м я . Чтобы получить оценку функции среднего µ ( t ij ), если доступна плотная выборка на регулярной сетке, можно взять среднее значение в каждом месте t ij :
Если наблюдения редки, необходимо сгладить данные, объединенные из всех наблюдений, чтобы получить среднюю оценку: [3] использование таких методов сглаживания, как локальное линейное сглаживание или сплайновое сглаживание .
Тогда оценка ковариационной функции получается путем усреднения (в плотном случае) или сглаживания (в разреженном случае) необработанных ковариаций
Обратите внимание, что диагональные элементы Gi . следует удалить, поскольку они содержат ошибку измерения [4]
На практике, дискретизируется до плотной равноотстоящей сетки, а оценка собственных значений λ k и собственных векторов v k выполняется с помощью численной линейной алгебры. [5] Оценки собственных функций затем можно получить интерполяцией собственных векторов
Подобранная ковариация должна быть положительно определенной и симметричной и тогда получается как
Позволять быть сглаженной версией диагональных элементов G i ( t ij , t ij ) необработанных ковариационных матриц. Затем является оценкой ( G ( t , t ) + σ 2 ). Оценка σ 2 получается путем
- если в противном случае
Если наблюдения X ij , j =1, 2, ..., m i плотны в 𝒯, то k -ый ФПК ξ k можно оценить путем численного интегрирования , реализуя
Однако если наблюдений мало, этот метод не сработает. Вместо этого можно использовать лучшие линейные несмещенные предикторы , [3] уступчивость
где
- ,
и оценивается в точках сетки, генерируемых t ij , j = 1, 2, ..., m i . Алгоритм PACE имеет доступный пакет Matlab. [6] и пакет R [7]
Исследованы свойства асимптотической сходимости этих оценок. [3] [8] [9]
Приложения
[ редактировать ]FPCA может применяться для отображения режимов функциональных изменений , [1] [10] в диаграммах рассеяния FPC друг против друга или ответов на FPC для моделирования разреженных продольных данных , [3] или для функциональной регрессии и классификации (например, функциональной линейной регрессии). [2] осыпные графики Для определения количества включенных компонентов можно использовать и другие методы. Функциональный анализ главных компонентов имеет различные применения в анализе временных рядов. В настоящее время этот метод адаптируется из традиционных многомерных методов для анализа наборов финансовых данных, таких как индексы фондового рынка, и создания графиков подразумеваемой волатильности. [11] Хорошим примером преимуществ функционального подхода является метод Smoothed FPCA (SPCA), разработанный Сильверманом [1996] и изученный Пеццулли и Сильверманом [1993], который позволяет напрямую комбинировать FPCA вместе с общим подходом сглаживания, который позволяет использовать информацию хранятся в некоторых возможных линейных дифференциальных операторах. Важное применение FPCA, уже известное из многомерного PCA, мотивировано разложением Карунена-Лоэва случайной функции на набор функциональных параметров - фактор-функций и соответствующих факторных нагрузок (скалярных случайных величин). Это приложение гораздо важнее, чем стандартный многомерный PCA, поскольку распределение случайной функции, как правило, слишком сложно для непосредственного анализа, а разложение Карунена-Лоэва сводит анализ к интерпретации фактор-функций и распределению скалярных случайных величин. переменные. Благодаря уменьшению размерности, а также точности представления данных, существует широкий простор для дальнейшего развития методов функциональных главных компонентов в финансовой области.
Применение PCA в автомобилестроении. [12] [13] [14] [15]
Связь с анализом главных компонент
[ редактировать ]В следующей таблице показано сравнение различных элементов анализа главных компонентов (PCA) и FPCA. Оба метода используются для уменьшения размерности . В реализациях FPCA используется шаг PCA.
Однако PCA и FPCA различаются в некоторых важных аспектах. Во-первых, порядок многомерных данных в PCA может быть изменен , что не влияет на анализ, но порядок функциональных данных несет в себе информацию о времени или пространстве и не может быть переупорядочен. Во-вторых, интервал наблюдений в FPCA имеет значение, тогда как в PCA проблемы с интервалом нет. В-третьих, обычный PCA не работает для многомерных данных без регуляризации , тогда как FPCA имеет встроенную регуляризацию из-за гладкости функциональных данных и усечения до конечного числа включенных компонентов.
Элемент | В ПКА | В ФПКА |
---|---|---|
Данные | ||
Измерение | ||
Иметь в виду | ||
Ковариация | ||
Собственные значения | ||
Собственные векторы/собственные функции | ||
Внутренний продукт | ||
Основные компоненты |
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Перейти обратно: а б Джонс, MC; Райс, Дж. А. (1992). «Отображение важных особенностей больших коллекций подобных кривых». Американский статистик . 46 (2): 140. дои : 10.1080/00031305.1992.10475870 .
- ^ Перейти обратно: а б Яо, Ф.; Мюллер, Х.Г.; Ван, JL (2005). «Функциональный линейный регрессионный анализ продольных данных». Анналы статистики . 33 (6): 2873. arXiv : math/0603132 . дои : 10.1214/009053605000000660 .
- ^ Перейти обратно: а б с д Яо, Ф.; Мюллер, Х.Г.; Ван, JL (2005). «Функциональный анализ данных для разреженных продольных данных». Журнал Американской статистической ассоциации . 100 (470): 577. дои : 10.1198/016214504000001745 .
- ^ Станисвалис, Дж.Г .; Ли, Джей-Джей (1998). «Непараметрический регрессионный анализ продольных данных». Журнал Американской статистической ассоциации . 93 (444): 1403. doi : 10.1080/01621459.1998.10473801 .
- ^ Райс, Джон; Сильверман, Б. (1991). «Непараметрическая оценка среднего и ковариационной структуры, когда данные представляют собой кривые». Журнал Королевского статистического общества. Серия Б (Методическая) . 53 (1): 233–243. дои : 10.1111/j.2517-6161.1991.tb01821.x .
- ^ «ПАСЕ: Принципиальный анализ на основе условного ожидания» .
- ^ «fdapace: функциональный анализ данных и эмпирическая динамика» . 2018-02-25.
- ^ Холл, П.; Мюллер, Х.Г.; Ван, JL (2006). «Свойства методов главных компонент функционального и продольного анализа данных». Анналы статистики . 34 (3): 1493. arXiv : math/0608022 . дои : 10.1214/009053606000000272 .
- ^ Ли, Ю.; Хсинг, Т. (2010). «Единые скорости сходимости для непараметрической регрессии и анализа главных компонентов в функциональных/продольных данных». Анналы статистики . 38 (6): 3321. arXiv : 1211.2137 . дои : 10.1214/10-AOS813 .
- ^ Мадригал, Педро; Краевский, Павел (2015). «Выявление коррелированной изменчивости в наборах эпигеномных данных с помощью преобразования Карунена-Лёве» . Добыча биоданных . 8:20 . doi : 10.1186/s13040-015-0051-7 . ПМЦ 4488123 . ПМИД 26140054 .
- ^ Функциональный анализ данных с применением в финансах, Михал Бенко
- ^ Ли, Сэнгдон (2012). «Вариационные режимы ускорения автомобиля и разработка идеального ускорения автомобиля». Труды Института инженеров-механиков. Часть D. Журнал автомобильной техники . 226 : 1185–1201. дои : 10.1177/0954407012442775 .
- ^ Ли, Сэнгдон (2010). «Характеристика и разработка идеального усилия на педали, хода педали и времени отклика тормозной системы для перевода голоса клиента в технические спецификации». Труды Института инженеров-механиков. Часть D. Журнал автомобильной техники . 224 : 1433–1450. дои : 10.1243/09544070JAUTO1585 .
- ^ Ли, Сэнгдон (2008). «Анализ главных компонент усиления ускорения автомобиля и трансляция голоса клиента». Труды Института инженеров-механиков. Часть D. Журнал автомобильной техники . 222 : 191–203. дои : 10.1243/09544070JAUTO351 .
- ^ Ли, Сэнгдон (2006). «Многомерный статистический анализ шума холостого хода и положения автомобиля». Международный журнал автомобильного шума и вибрации . 2 : 156–175. дои : 10.1504/IJVNV.2006.011052 .
Ссылки
[ редактировать ]- Джеймс О. Рамзи; Б.В. Сильверман (8 июня 2005 г.). Функциональный анализ данных . Спрингер. ISBN 978-0-387-40080-8 .