Функциональный анализ данных

Функциональный анализ данных (FDA) — это раздел статистики , который анализирует данные, предоставляя информацию о кривых, поверхностях или чем-либо еще, изменяющемся в континууме. В самой общей форме, в рамках FDA, каждый элемент выборки функциональных данных считается случайной функцией. Физическим континуумом, в котором определяются эти функции, часто является время, но также может быть пространственное местоположение, длина волны, вероятность и т. д. По своей сути функциональные данные бесконечномерны. Высокая внутренняя размерность этих данных создает проблемы как для теории, так и для вычислений, причем эти проблемы зависят от того, как были выбраны функциональные данные. Однако многомерная или бесконечномерная структура данных является богатым источником информации, и существует множество интересных задач для исследований и анализа данных.

История

Функциональный анализ данных уходит своими корнями в работы Гренандера и Кархунена в 1940-х и 1950-х годах. ^[1]^[2]^[3]^[4] Они рассмотрели разложение интегрируемого с квадратом стохастического процесса с непрерывным временем на собственные компоненты, теперь известное как разложение Карунена-Лоэва . Строгий анализ анализа главных функциональных компонентов был проведен в 1970-х годах Клеффе, Досуа и Пуссом, включая результаты об асимптотическом распределении собственных значений. ^[5]^[6] Совсем недавно, в 1990-х и 2000-х годах, эта область больше сосредоточилась на приложениях и понимании эффектов плотных и разреженных схем наблюдений. Термин «Функциональный анализ данных» был придуман Джеймсом О. Рамзи . ^[7]

Математический формализм

Случайные функции можно рассматривать как случайные элементы, принимающие значения в гильбертовом пространстве , или как случайный процесс . Первое математически удобно, тогда как второе несколько более пригодно с прикладной точки зрения. Эти два подхода совпадают, если случайные функции непрерывны и условие, называемое среднеквадратичной непрерывностью . выполняется ^[8]

Гильбертовы случайные величины

С точки зрения гильбертова пространства рассматривается $H$ -значный случайный элемент $X$ , где $H$ - сепарабельное гильбертово пространство, такое как пространство интегрируемых с квадратом функций $L^{2}[0,1]$ . При условии интегрируемости, что $\mathbb {E} \|X\|_{L^{2}}^{2}=\mathbb {E} (\int _{0}^{1}|X(t)|^{2}dt)<\infty$ , можно определить среднее значение $X$ как уникальный элемент $\mu \in H$ удовлетворяющий

\mathbb {E} \langle X,h\rangle =\langle \mu ,h\rangle ,\qquad h\in H.

Эта формулировка представляет собой интеграл Петтиса , но среднее значение также можно определить как интеграл Бохнера. $\mu =\mathbb {E} X$ . При условии интегрируемости, что $\mathbb {E} \|X\|_{L^{2}}^{2}$ конечен, оператор ковариационный $X$ является линейным оператором ${\mathcal {C}}:H\to H$ однозначно определяемое соотношением

{\mathcal {C}}h=\mathbb {E} [\langle h,X-\mu \rangle (X-\mu )],\qquad h\in H,

или, в тензорной форме, ${\mathcal {C}}=\mathbb {E} [(X-\mu )\otimes (X-\mu )]$ . Спектральная теорема позволяет разложить $X$ как разложение Карунена-Лоэва

X=\mu +\sum _{i=1}^{\infty }\langle X,\varphi _{i}\rangle \varphi _{i},

где $\varphi _{i}$ являются собственными векторами ${\mathcal {C}}$ , соответствующие неотрицательным собственным значениям ${\mathcal {C}}$ , в невозрастающем порядке. Усечение этого бесконечного ряда до конечного порядка лежит в основе функционального анализа главных компонент .

Случайные процессы

Гильбертова точка зрения математически удобна, но абстрактна; приведенные выше соображения не обязательно даже рассматривают $X$ вообще как функция, поскольку общий выбор $H$ нравиться $L^{2}[0,1]$ и пространства Соболева состоят из классов эквивалентности, а не из функций. Перспективы стохастического процесса $X$ как набор случайных величин

\{X(t)\}_{t\in [0,1]}

индексируется единичным интервалом (или, в более общем смысле, интервалом ${\mathcal {T}}$ ). Функции среднего и ковариации определяются поточечно как

\mu (t)=\mathbb {E} X(t),\qquad \Sigma (s,t)={\textrm {Cov}}(X(s),X(t)),\qquad s,t\in [0,1]

(если $\mathbb {E} [X(t)^{2}]<\infty$ для всех $t\in [0,1]$ ).

При среднеквадратичной непрерывности $\mu$ и $\Sigma$ являются непрерывными функциями, а затем ковариационная функция $\Sigma$ определяет ковариационный оператор ${\mathcal {C}}:H\to H$ данный

({\mathcal {C}}f)(t)=\int _{0}^{1}\Sigma (s,t)f(s)\,\mathrm {d} s.

( 1 )

Спектральная теорема применима к ${\mathcal {C}}$ , что дает собственные пары $(\lambda _{j},\varphi _{j})$ , так что в тензорного произведения записи ${\mathcal {C}}$ пишет

{\mathcal {C}}=\sum _{j=1}^{\infty }\lambda _{j}\varphi _{j}\otimes \varphi _{j}.

Более того, поскольку ${\mathcal {C}}f$ является непрерывным для всех $f\in H$ , все $\varphi _{j}$ являются непрерывными. Теорема Мерсера утверждает, что

\sup _{s,t\in [0,1]}\left|\Sigma (s,t)-\sum _{j=1}^{K}\lambda _{j}\varphi _{j}(s)\varphi _{j}(t)\right|\to 0,\qquad K\to \infty .

Наконец, при дополнительном предположении, что $X$ имеет непрерывные пути выборки, а именно, что с вероятностью единица случайная функция $X:[0,1]\to \mathbb {R}$ является непрерывным, приведенное выше разложение Карунена-Лёва справедливо для $X$ и впоследствии может быть применена космическая машина Гильберта. Непрерывность выборочных путей можно показать с помощью теоремы о непрерывности Колмогорова .

Функциональный дизайн данных

Функциональные данные рассматриваются как реализации случайного процесса. $X(t),\ t\in [0,1]$ это $L^{2}$ процесс на ограниченном и замкнутом интервале $[0,1]$ со средней функцией $\mu (t)=\mathbb {E} (X(t))$ и ковариационная функция $\Sigma (s,t)={\textrm {Cov}}(X(s),X(t))$ . Реализация процесса для i-го субъекта равна $X_{i}(\cdot )$ , и предполагается, что выборка состоит из $n$ самостоятельные субъекты. График отбора проб может варьироваться в зависимости от субъекта, обозначаемого как $T_{i1},...,T_{iN_{i}}$ по i-му предмету. Соответствующее i-е наблюдение обозначается как ${\textbf {X}}_{i}=(X_{i1},...,X_{iN_{i}})$ , где $X_{ij}=X_{i}(T_{ij})$ . Кроме того, измерение $X_{ij}$ предполагается, что он имеет случайный шум $\epsilon _{ij}$ с $\mathbb {E} (\epsilon _{ij})=0$ и ${\textrm {Var}}(\epsilon _{ij})=\sigma _{ij}^{2}$ , которые независимы во всех $i$ и $j$ .

1. Полностью наблюдаемые функции без шума на произвольно плотной сетке.

Измерения $Y_{it}=X_{i}(t)$ доступен для всех $t\in {\mathcal {I}},\,i=1,\ldots ,n$

Часто нереально, но математически удобно.

Пример из реальной жизни: спектральные данные Tecator. ^[7]

2. Функции с плотной выборкой и измерениями с шумом (плотный дизайн)

Измерения $Y_{ij}=X_{i}(T_{ij})+\varepsilon _{ij}$ , где $T_{ij}$ записываются на регулярной сетке,

$T_{i1},\ldots ,T_{iN_{i}}$ , и $N_{i}\rightarrow \infty$ применяется к типичным функциональным данным.

Пример из реальной жизни: данные исследования роста Беркли и данные о запасах

3. Разреженные функции с зашумленными измерениями (продольные данные)

Измерения $Y_{ij}=X_{i}(T_{ij})+\varepsilon _{ij}$ , где $T_{ij}$ случайные моменты времени и их количество $N_{i}$ на каждого субъекта случайна и конечна.

Пример из реальной жизни: данные по количеству CD4 у больных СПИДом. ^[9]

Функциональный анализ главных компонентов

Функциональный анализ главных компонентов (FPCA) является наиболее распространенным инструментом в FDA, отчасти потому, что FPCA облегчает уменьшение размерности изначально бесконечномерных функциональных данных до конечномерного случайного вектора оценок. Более конкретно, уменьшение размерности достигается за счет расширения наблюдаемых случайных траекторий. $X_{i}(t)$ в функциональном базисе, состоящем из собственных функций ковариационного оператора на $X$ . Рассмотрим ковариационный оператор ${\mathcal {C}}:L^{2}[0,1]\rightarrow L^{2}[0,1]$ как в ( 1 ), который является компактным оператором в гильбертовом пространстве .

По теореме Мерсера ядро ${\mathcal {C}}$ , т. е. ковариационная функция $\Sigma (\cdot ,\cdot )$ , имеет спектральное разложение $\Sigma (s,t)=\sum _{k=1}^{\infty }\lambda _{k}\varphi _{k}(s)\varphi _{k}(t)$ , где сходимость ряда абсолютна и равномерна, и $\lambda _{k}$ являются действительными неотрицательными собственными значениями в порядке убывания с соответствующими ортонормированными собственными функциями. $\varphi _{k}(t)$ . По теореме Карунена-Лоэва разложение FPCA базовой случайной траектории равно $X_{i}(t)=\mu (t)+\sum _{k=1}^{\infty }A_{ik}\varphi _{k}(t)$ , где $A_{ik}=\int _{0}^{1}(X_{i}(t)-\mu (t))\varphi _{k}(t)dt$ являются функциональными главными компонентами (FPC), иногда называемыми баллами. Разложение Карунена-Лоэва облегчает уменьшение размерности в том смысле, что частичная сумма сходится равномерно, т. е. $\sup _{t\in [0,1]}\mathbb {E} [X_{i}(t)-\mu (t)-\sum _{k=1}^{K}A_{ik}\varphi _{k}(t)]^{2}\rightarrow 0$ как $K\rightarrow \infty$ и, таким образом, частичная сумма с достаточно большим $K$ дает хорошее приближение к бесконечной сумме. Тем самым информация в $X_{i}$ сводится из бесконечномерного к $K$ -мерный вектор $A_{i}=(A_{i1},...,A_{iK})$ с приближенным процессом:

X_{i}^{(K)}(t)=\mu (t)+\sum _{k=1}^{K}A_{ik}\varphi _{k}(t)

( 2 )

Другие популярные базы включают сплайны , ряды Фурье и вейвлеты. Важные применения FPCA включают режимы вариации и регрессию главных функциональных компонентов.

Модели функциональной линейной регрессии

Функциональные линейные модели можно рассматривать как расширение традиционных многомерных линейных моделей , которые связывают векторные реакции с векторными ковариатами. Традиционная линейная модель со скалярным откликом $Y\in \mathbb {R}$ и векторная ковариата $X\in \mathbb {R} ^{p}$ может быть выражено как

Y=\beta _{0}+\langle X,\beta \rangle +\varepsilon =\beta _{0}+X_{1}\beta _{1}+\dots +X_{p}\beta _{p}+\varepsilon ,

( 3 )

где $\langle \cdot ,\cdot \rangle$ обозначает скалярный продукт в евклидовом пространстве , $\beta _{0}\in \mathbb {R}$ и $\beta \in \mathbb {R} ^{p}$ обозначаем коэффициенты регрессии, а $\varepsilon$ — случайная ошибка (шум) с нулевой средней конечной дисперсией . Функциональные линейные модели можно разделить на два типа в зависимости от ответов.

Модели функциональной регрессии со скалярным откликом

Замена векторной ковариаты $X$ и вектор коэффициентов $\beta$ в модели ( 3 ) по центрированной функциональной ковариате $X^{c}(t)=X(t)-\mu (t)$ и коэффициентная функция $\beta =\beta (t)$ для $t\in [0,1]$ и заменив скалярный продукт в евклидовом пространстве на продукт в гильбертовом пространстве. $L^{2}$ , приходим к функциональной линейной модели

Y=\beta _{0}+\langle X^{c},\beta \rangle +\varepsilon =\beta _{0}+\int _{0}^{1}X^{c}(t)\beta (t)\,dt+\varepsilon .

( 4 )

Простая функциональная линейная модель ( 4 ) может быть расширена до нескольких функциональных ковариат, $\{X_{j}\}_{j=1}^{p}$ , включая дополнительные векторные ковариаты $Z=(Z_{1},\cdots ,Z_{q})$ , где $Z_{1}=1$ , к

Y=\langle Z,\theta \rangle +\sum _{j=1}^{p}\int _{0}^{1}X_{j}^{c}(t)\beta _{j}(t)\,dt+\varepsilon ,

( 5 )

где $\theta \in \mathbb {R^{q}}$ коэффициент регрессии для $Z$ , область $X_{j}$ является $[0,1]$ , $X_{j}^{c}$ - это центрированная функциональная ковариата, определяемая формулой $X_{j}^{c}(t)=X_{j}(t)-\mu _{j}(t)$ , и $\beta _{j}$ — функция коэффициента регрессии для $X_{j}^{c}$ , для $j=1,\ldots ,p$ . Модели ( 4 ) и ( 5 ) были тщательно изучены. ^[10]^[11]^[12]

Модели функциональной регрессии с функциональным ответом

Рассмотрим функциональный ответ $Y(s)$ на $[0,1]$ и несколько функциональных ковариат $X_{j}(t)$ , $t\in [0,1]$ , $j=1,\ldots ,p$ . В этой установке были рассмотрены две основные модели. ^[13]^[7] Одну из этих двух моделей, обычно называемую функциональной линейной моделью (FLM), можно записать как:

Y(s)=\alpha _{0}(s)+\sum _{j=1}^{p}\int _{0}^{1}\alpha _{j}(s,t)X_{j}^{c}(t)\,dt+\varepsilon (s),\ {\text{for}}\ s\in [0,1]

( 6 )

где $\alpha _{0}(s)$ является функциональным перехватом, поскольку $j=1,\ldots ,p$ , $X_{j}^{c}(t)=X_{j}(t)-\mu _{j}(t)$ представляет собой центрированную функциональную ковариату $[0,1]$ , $\alpha _{j}(s,t)$ — соответствующие функциональные наклоны с той же областью соответственно, и $\varepsilon (s)$ обычно представляет собой случайный процесс с нулевым средним значением и конечной дисперсией. ^[13] В этом случае в любой момент времени $s\in [0,1]$ , значение $Y$ , то есть, $Y(s)$ , зависит от всей траектории $\{X_{j}(t)\}_{j=1}^{p}$ . Модель ( 6 ) тщательно изучалась. ^[14]^[15]^[16]^[17]^[18]

Регрессия функции на скаляре

В частности, взяв $X_{j}(\cdot )$ как постоянная функция дает частный случай модели ( 6 ) $Y(s)=\alpha _{0}(s)+\sum _{j=1}^{p}X_{j}\alpha _{j}(s)+\varepsilon (s),\ {\text{for}}\ s\in [0,1],$ которая представляет собой функциональную линейную модель с функциональными откликами и скалярными ковариатами.

Модели параллельной регрессии

Эта модель определяется

Y(s)=\beta _{0}(s)+\sum _{j=1}^{p}\beta _{j}(s)X_{j}(s)+\varepsilon (s),\ {\text{for}}\ s\in [0,1],

( 7 )

где $X_{1},\ldots ,X_{p}$ являются функциональными ковариатами $[0,1]$ , $\beta _{0},\beta _{1},\ldots ,\beta _{p}$ являются коэффициентными функциями, определенными на одном и том же интервале, и $\varepsilon (s)$ обычно предполагается, что это случайный процесс с нулевым средним значением и конечной дисперсией. ^[13] Эта модель предполагает, что значение $Y(s)$ зависит от текущей стоимости $\{X_{j}(s)\}_{j=1}^{p}$ только и не история $\{X_{j}(t):t\leq s\}_{j=1}^{p}$ или будущая стоимость. Следовательно, это «модель параллельной регрессии», которую также называют моделью «с переменным коэффициентом». Кроме того, были предложены различные методы оценки. ^[19]^[20]^[21]^[22]^[23]^[24]

Модели функциональной нелинейной регрессии

Прямые нелинейные расширения классических моделей функциональной линейной регрессии (FLM) по-прежнему включают линейный предиктор, но объединяют его с нелинейной функцией связи, аналогично идее обобщенной линейной модели из традиционной линейной модели. Разработка моделей полностью непараметрической регрессии для функциональных данных сталкивается с такими проблемами, как проклятие размерности . Чтобы обойти «проклятие» и проблему выбора метрик, мы стремимся рассмотреть модели нелинейной функциональной регрессии, которые подвержены некоторым структурным ограничениям, но не слишком нарушают гибкость. Желательны модели, сохраняющие полиномиальную скорость сходимости, но при этом более гибкие, чем, скажем, функциональные линейные модели. Такие модели особенно полезны, когда диагностика функциональной линейной модели указывает на несоответствие, что часто встречается в реальных жизненных ситуациях. В частности, функциональные полиномиальные модели, функциональные модели с одним и несколькими индексами и функциональные аддитивные модели. представляют собой три особых случая моделей функциональной нелинейной регрессии.

Модели функциональной полиномиальной регрессии

Модели функциональной полиномиальной регрессии можно рассматривать как естественное расширение функциональных линейных моделей (FLM) со скалярными откликами, аналогично расширению модели линейной регрессии до полиномиальной регрессии модели . Для скалярного ответа $Y$ и функциональная ковариата $X(\cdot )$ с доменом $[0,1]$ и соответствующие центрированные процессы прогнозирования $X^{c}$ Самым простым и наиболее известным членом семейства моделей функциональной полиномиальной регрессии является квадратичная функциональная регрессия. ^[25] дано следующим образом: $\mathbb {E} (Y|X)=\alpha +\int _{0}^{1}\beta (t)X^{c}(t)\,dt+\int _{0}^{1}\int _{0}^{1}\gamma (s,t)X^{c}(s)X^{c}(t)\,ds\,dt$ где $X^{c}(\cdot )=X(\cdot )-\mathbb {E} (X(\cdot ))$ - центрированная функциональная ковариата, $\alpha$ скалярный коэффициент, $\beta (\cdot )$ и $\gamma (\cdot ,\cdot )$ являются коэффициентными функциями с областями определения $[0,1]$ и $[0,1]\times [0,1]$ , соответственно. В дополнение к функции параметра β, которую вышеупомянутая модель функциональной квадратичной регрессии разделяет с FLM, она также имеет поверхность параметра γ. По аналогии с FLM со скалярными откликами, оценку функциональных полиномиальных моделей можно получить путем расширения как центрированной ковариаты $X^{c}$ и коэффициентные функции $\beta$ и $\gamma$ в ортонормированном базисе. ^[25]^[26]

Функциональные модели с одним и несколькими индексами

Ниже представлена функциональная модель с несколькими индексами, где символы имеют свои обычные значения, описанные ранее: $\mathbb {E} (Y|X)=g\left(\int _{0}^{1}X^{c}(t)\beta _{1}(t)\,dt,\ldots ,\int _{0}^{1}X^{c}(t)\beta _{p}(t)\,dt\right)$ Здесь g представляет собой (неизвестную) общую гладкую функцию, определенную в p-мерной области. Дело $p=1$ дает функциональную модель с одним индексом, тогда как модели с несколькими индексами соответствуют случаю $p>1$ . Однако для $p>1$ Эта модель проблематична из-за проклятия размерности . С $p>1$ и относительно небольших размерах выборки, оценка, данная этой моделью, часто имеет большую дисперсию. ^[27]^[28]

Функционально-аддитивные модели (ФАМ)

Для данного ортонормированного базиса $\{\phi _{k}\}_{k=1}^{\infty }$ на $L^{2}[0,1]$ , мы можем расширить $X^{c}(t)=\sum _{k=1}^{\infty }x_{k}\phi _{k}(t)$ в домене $[0,1]$ .

Таким образом, функциональную линейную модель со скалярными откликами (см. ( 3 )) можно записать следующим образом: $\mathbb {E} (Y|X)=\mathbb {E} (Y)+\sum _{k=1}^{\infty }\beta _{k}x_{k}.$ Одна из форм FAM получается заменой линейной функции $x_{k}$ в приведенном выше выражении (т.е. $\beta _{k}x_{k}$ ) общей гладкой функцией $f_{k}$ , аналогично расширению моделей множественной линейной регрессии до аддитивных моделей и выражается как: $\mathbb {E} (Y|X)=\mathbb {E} (Y)+\sum _{k=1}^{\infty }f_{k}(x_{k}),$ где $f_{k}$ удовлетворяет $\mathbb {E} (f_{k}(x_{k}))=0$ для $k\in \mathbb {N}$ . ^[13]^[7] Это ограничение на общие гладкие функции $f_{k}$ обеспечивает идентифицируемость в том смысле, что оценки этих аддитивных компонентных функций не мешают оценке члена $\mathbb {E} (Y)$ . Другой формой FAM является непрерывно-аддитивная модель. ^[29] выражается как, $\mathbb {E} (Y|X)=\mathbb {E} (Y)+\int _{0}^{1}g(t,X(t))dt$ для двумерной гладкой аддитивной поверхности $g:[0,1]\times \mathbb {R} \longrightarrow \mathbb {R}$ который необходим для удовлетворения $\mathbb {E} [g(t,X(t))]=0$ для всех $t\in [0,1]$ , чтобы обеспечить идентификацию.

Обобщенная функциональная линейная модель

Очевидным и прямым расширением FLM со скалярными откликами (см. ( 3 )) является добавление функции связи, ведущей к обобщенной функциональной линейной модели (GFLM). ^[30] по аналогии с обобщенной линейной моделью (ОЛМ). Тремя компонентами GFLM являются:

Линейный предиктор $\eta =\beta _{0}+\int _{0}^{1}X^{c}(t)\beta (t)\,dt$ ; [систематический компонент]
Функция дисперсии ${\text{Var}}(Y|X)=V(\mu )$ , где $\mu =\mathbb {E} (Y|X)$ – условное среднее ; [случайный компонент]
Функция связи $g$ соединяющее условное среднее $\mu$ и линейный предиктор $\eta$ через $\mu =g(\eta )$ . [систематический компонент]

Кластеризация и классификация функциональных данных

Для векторных многомерных данных двумя основными подходами являются методы разделения k-средних и иерархическая кластеризация . Эти классические концепции кластеризации векторных многомерных данных были распространены на функциональные данные. Для кластеризации функциональных данных методы кластеризации k-средних более популярны, чем методы иерархической кластеризации. Для кластеризации k-средних по функциональным данным средние функции обычно рассматриваются как центры кластеров. Ковариационные структуры также были приняты во внимание. ^[31] Помимо кластеризации типа k-средних, функциональная кластеризация ^[32] основанный на смешанных моделях , также широко используется при кластеризации векторных многомерных данных и был расширен до функциональной кластеризации данных. ^[33]^[34]^[35]^[36]^[37] Кроме того, байесовская иерархическая кластеризация также играет важную роль в разработке функциональной кластеризации на основе моделей. ^[38]^[39]^[40]^[41]

Функциональная классификация присваивает членство в группе новому объекту данных либо на основе функциональной регрессии, либо функционального дискриминантного анализа. Методы классификации функциональных данных, основанные на моделях функциональной регрессии, используют уровни классов в качестве ответов, а наблюдаемые функциональные данные и другие ковариаты в качестве предикторов. Для моделей функциональной классификации, основанных на регрессии, обычно используются функциональные обобщенные линейные модели или, более конкретно, функциональная бинарная регрессия, такая как функциональная логистическая регрессия для бинарных ответов. обобщенная модель функциональной линейной регрессии, основанная на подходе FPCA . В более общем смысле используется ^[42] Функциональный линейный дискриминантный анализ (FLDA) также рассматривается как метод классификации функциональных данных. ^[43]^[44]^[45]^[46]^[47] Также была предложена функциональная классификация данных, включающая коэффициенты плотности. ^[48] Исследование асимптотического поведения предложенных классификаторов в пределе большой выборки показывает, что при определенных условиях уровень ошибочной классификации стремится к нулю - явление, которое получило название «идеальная классификация». ^[49]

Искажение времени

Мотивации

Помимо изменения амплитуды, ^[50] Можно также предположить, что изменение во времени присутствует в функциональных данных. Изменение времени происходит, когда время определенных интересующих событий, специфичное для субъекта, различается у разных субъектов. Одним из классических примеров являются данные исследования экономического роста Беркли . ^[51] где изменение амплитуды представляет собой скорость роста, а изменение во времени объясняет разницу в биологическом возрасте детей, в котором произошел пубертатный и препубертатный всплеск роста. При наличии изменений во времени функция поперечного среднего может оказаться неэффективной оценкой, поскольку пики и минимумы расположены случайным образом, и, таким образом, значимые сигналы могут быть искажены или скрыты.

Искажение времени, также известное как регистрация кривой, ^[52] выравнивание кривой или синхронизация времени направлено на выявление и разделение изменений амплитуды и изменений во времени. Если присутствуют изменения как во времени, так и в амплитуде, то наблюдаемые функциональные данные $Y_{i}$ можно смоделировать как $Y_{i}(t)=X_{i}[h_{i}^{-1}(t)],t\in [0,1]$ , где $X_{i}{\overset {iid}{\sim }}X$ является функцией скрытой амплитуды и $h_{i}{\overset {iid}{\sim }}h$ — это скрытая функция деформации времени, которая соответствует кумулятивной функции распределения. Функции деформации времени $h$ предполагаются обратимыми и удовлетворяющими $\mathbb {E} (h^{-1}(t))=t$ .

Простейшим случаем семейства функций деформации для задания изменения фазы является линейное преобразование, то есть $h(t)=\delta +\gamma t$ , который искажает время базовой функции шаблона за счет смещения и масштаба, специфичного для субъекта. Более общий класс функций деформации включает диффеоморфизмы области в себя, то есть, грубо говоря, класс обратимых функций, которые отображают компактную область в себя так, что и функция, и ее обратная являются гладкими. Множество линейных преобразований содержится в множестве диффеоморфизмов . ^[53] Одной из проблем при искажении времени является идентифицируемость изменения амплитуды и фазы. Чтобы преодолеть эту неидентифицируемость, необходимы конкретные предположения.

Методы

Более ранние подходы включают динамическое искажение времени (DTW), используемое для таких приложений, как распознавание речи . ^[54] Еще одним традиционным методом искажения времени является регистрация ориентиров. ^[55]^[56] который выравнивает специальные функции, такие как пиковые местоположения, со средним местоположением. Другие соответствующие методы деформации включают парную деформацию, ^[57] регистрация с помощью ${\mathcal {L}}^{2}$ расстояние ^[53] и упругая деформация. ^[58]

Динамическое искажение времени

Функция шаблона определяется посредством итерационного процесса, начиная со среднего значения поперечного сечения, выполняя регистрацию и пересчитывая среднее значение поперечного сечения для искривленных кривых, ожидая сходимости после нескольких итераций. DTW минимизирует функцию стоимости посредством динамического программирования. Проблемы негладких дифференцируемых искажений или жадных вычислений в DTW можно решить, добавив член регуляризации в функцию стоимости.

Регистрация ориентира

Регистрация ориентиров (или выравнивание признаков) предполагает наличие хорошо выраженных признаков во всех выборочных кривых и использует расположение таких признаков в качестве золотого стандарта. Специальные функции, такие как местоположения пиков или впадин в функциях или производных, выравниваются по их средним местоположениям в шаблонной функции. ^[53] Затем вводится функция деформации посредством плавного преобразования среднего местоположения в местоположения, специфичные для объекта. Проблема регистрации ориентиров заключается в том, что объекты могут отсутствовать или их трудно идентифицировать из-за шума в данных.

Расширения

До сих пор мы рассматривали скалярнозначный случайный процесс, $\{X(t)\}_{t\in {\mathcal {T}}}$ , определенный в одномерной временной области.

Многомерная область $X(\cdot )$

Домен $X(\cdot )$ может быть в $R^{p}$ , например, данные могут представлять собой выборку случайных поверхностей. ^[59]^[60]

Многомерный случайный процесс

Набор диапазонов случайного процесса может быть расширен от $R$ к $R^{p}$ ^[61]^[62]^[63] и далее к нелинейным многообразиям, ^[64] гильбертовые пространства ^[65] и, в конечном итоге, к метрическим пространствам. ^[59]

Python Пакеты

Существуют пакеты Python для работы с функциональными данными и их представления, выполнения исследовательского анализа или предварительной обработки, а также других задач, таких как вывод, классификация, регрессия или кластеризация функциональных данных.

scikit-FDA

R- пакеты

Некоторые пакеты могут обрабатывать функциональные данные как в плотном, так и в продольном исполнении.

См. также

Дальнейшее чтение

Рамзи, Дж.О. и Сильверман, Б.В. (2005) Функциональный анализ данных , 2-е изд., Нью-Йорк: Springer, ISBN 0-387-40080-X
Хорват Л. и Кокошка П. (2012) Вывод функциональных данных с помощью приложений , Нью-Йорк: Springer, ISBN 978-1-4614-3654-6
Хсинг, Т. и Юбанк, Р. (2015) Теоретические основы функционального анализа данных, с введением в линейные операторы , ряды Вили по вероятности и статистике, John Wiley & Sons, Ltd, ISBN 978-0-470-01691-6
Моррис, Дж. (2015) Функциональная регрессия, Ежегодный обзор статистики и ее применения, Том. 2, 321–359, https://doi.org/10.1146/annurev-statistics-010814-020413.
Ван и др. (2016) Функциональный анализ данных, Ежегодный обзор статистики и ее применения, Том. 3, 257-295, https://doi.org/10.1146/annurev-statistics-041715-033624

Категория:Регрессионный анализ

Ссылки

^ Гренандер, У. (1950). «Стохастические процессы и статистический вывод» . Архив по математике 1 (3): 195–277. Бибкод : 1950АрМ.....1..195Г . дои : 10.1007/BF02590638 . S2CID 120451372 .
^ Райс, Дж.А.; Сильверман, Б.В. (1991). «Непараметрическая оценка среднего и ковариационной структуры, когда данные представляют собой кривые». Журнал Королевского статистического общества . 53 (1): 233–243. дои : 10.1111/j.2517-6161.1991.tb01821.x .
^ Мюллер, ХГ. (2016). «Питер Холл, функциональный анализ данных и случайные объекты» . Анналы статистики . 44 (5): 1867–1887. дои : 10.1214/16-AOS1492 .
^ Кархунен, К (1946). К спектральной теории случайных процессов . Annales Academiae scientiarum Fennicae.
^ Клефф, Дж. (1973). «Главные компоненты случайных величин со значениями в сепарабельном гильбертовом пространстве». Исследование математических операций и статистика . 4 (5): 391–406. дои : 10.1080/02331887308801137 .
^ Даксуа, Дж; Пусс, А; Ромен, Ю. (1982). «Асимптотическая теория анализа главных компонент векторной случайной функции: некоторые приложения к статистическому выводу» . Журнал многомерного анализа . 12 (1): 136–154. дои : 10.1016/0047-259X(82)90088-4 .
^ Jump up to: ^а ^б ^с ^д ^и Рамзи, Дж; Сильверман, Б.В. (2005). Функциональный анализ данных, 2-е изд . Спрингер.
^ Хсинг, Т; Юбанк, Р. (2015). Теоретические основы функционального анализа данных с введением в линейные операторы . Ряд Уайли по вероятности и статистике.
^ Ши, М; Вайс, Р.Э.; Тейлор, JMG. (1996). «Анализ количества CD4 у детей при синдроме приобретенного иммунодефицита с использованием гибких случайных кривых». Журнал Королевского статистического общества. Серия C (Прикладная статистика) . 45 (2): 151–163.
^ Хильгерт, Н; Мас, А; Верзелен, Н. (2013). «Минимаксные адаптивные тесты функциональной линейной модели». Анналы статистики . 41 (2): 838–869. arXiv : 1206.1194 . дои : 10.1214/13-AOS1093 . S2CID 13119710 .
^ Конг, Д; Сюэ, К; Яо, Ф; Чжан, Х.Х. (2016). «Частично функциональная линейная регрессия в больших измерениях». Биометрика . 103 (1): 147–159. дои : 10.1093/biomet/asv062 .
^ Хорват, Л; Кокошка, П. (2012). Вывод функциональных данных с помощью приложений . Серия Спрингера по статистике. Спрингер-Верлаг.
^ Jump up to: ^а ^б ^с ^д Ван, Дж.Л.; Чиу, Дж. М.; Мюллер, ХГ. (2016). «Функциональный анализ данных» . Ежегодный обзор статистики и ее применения . 3 (1): 257–295. Бибкод : 2016AnRSA...3..257W . doi : 10.1146/annurev-statistics-041715-033624 . S2CID 13709250 .
^ Рамзи, Джо; Далзелл, CJ. (1991). «Некоторые инструменты функционального анализа данных». Журнал Королевского статистического общества, серия B (методологический) . 53 (3): 539–561. дои : 10.1111/j.2517-6161.1991.tb01844.x . S2CID 118960346 .
^ Малфейт, Н.; Рамзи, Дж.О. (2003). «Историческая функциональная линейная модель». Канадский статистический журнал . 31 (2): 115–128. дои : 10.2307/3316063 . JSTOR 3316063 . S2CID 55092204 .
^ Он, Г; Мюллер, Х.Г.; Ван, Дж.Л. (2003). «Функциональный канонический анализ квадратично интегрируемых случайных процессов». Журнал многомерного анализа . 85 (1): 54–77. дои : 10.1016/S0047-259X(02)00056-8 .
^ Jump up to: ^а ^б Яо, Ф; Мюллер, Х.Г.; Ван, Дж.Л. (2005). «Функциональный анализ данных для редких продольных данных». Журнал Американской статистической ассоциации . 100 (470): 577–590. дои : 10.1198/016214504000001745 . S2CID 1243975 .
^ Он, Г; Мюллер, Х.Г.; Ван, Дж.Л.; Ян, У.Дж. (2010). «Функциональная линейная регрессия посредством канонического анализа». Журнал многомерного анализа . 16 (3): 705–729. arXiv : 1102.5212 . дои : 10.3150/09-BEJ228 . S2CID 17843044 .
^ Фан, Дж; Чжан, В. (1999). «Статистическая оценка в моделях с переменными коэффициентами» . Анналы статистики . 27 (5): 1491–1518. дои : 10.1214/aos/1017939139 . S2CID 16758288 .
^ Ву, Колорадо; Ю, КФ. (2002). «Непараметрические модели с переменными коэффициентами для анализа продольных данных». Международный статистический обзор . 70 (3): 373–393. дои : 10.1111/j.1751-5823.2002.tb00176.x . S2CID 122007787 .
^ Хуанг, JZ; Ву, Колорадо; Чжоу, Л. (2002). «Модели с переменными коэффициентами и аппроксимации базисной функции для анализа повторных измерений». Биометрика . 89 (1): 111–128. дои : 10.1093/biomet/89.1.111 .
^ Хуанг, JZ; Ву, Колорадо; Чжоу, Л. (2004). «Оценка полиномиального сплайна и вывод для моделей с различными коэффициентами с продольными данными». Статистика Синица . 14 (3): 763–788.
^ Шентюрк, Д; Мюллер, ХГ. (2010). «Модели функциональных переменных коэффициентов для продольных данных». Журнал Американской статистической ассоциации . 105 (491): 1256–1264. дои : 10.1198/jasa.2010.tm09228 . S2CID 14296231 .
^ Эггермонт, ППБ; Юбанк, Род-Айленд; ЛаРичча, В.Н. (2010). «Степень сходимости для сглаживающих сплайновых оценок в моделях с различными коэффициентами». Журнал статистического планирования и выводов . 140 (2): 369–381. дои : 10.1016/j.jspi.2009.06.017 .
^ Jump up to: ^а ^б Яо, Ф; Мюллер, ХГ. (2010). «Функциональная квадратичная регрессия». Биометрика . 97 (1): 49–64.
^ Хорват, Л; Ридер, Р. (2013). «Тест значимости функциональной квадратичной регрессии» . Бернулли . 19 (5А): 2120–2151. arXiv : 1105.0014 . дои : 10.3150/12-BEJ446 . S2CID 88512527 .
^ Чен, Д; Холл, П; Мюллер ХГ. (2011). «Одно- и множественные индексные модели функциональной регрессии с непараметрической связью». Анналы статистики . 39 (3): 1720–1747.
^ Цзян, ЧР; Ван Дж.Л. (2011). «Функциональные модели с одним индексом для продольных данных». Анналы статистики . 39 (1): 362–388.
^ Мюллер Х.Г.; У Ю; Яо, Ф. (2013). «Непрерывно аддитивные модели нелинейной функциональной регрессии». Биометрика . 100 (3): 607–622. doi : 10.1093/biomet/ast004 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Мюллер Х.Г.; Стадмюллер, У. (2005). «Обобщенные функциональные линейные модели». Анналы статистики . 33 (2): 774–805. arXiv : math/0505638 . дои : 10.1214/009053604000001156 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Чиу, Дж. М.; Ли, ПЛ. (2007). «Функциональная кластеризация и выявление подструктур продольных данных» . Журнал Королевского статистического общества, серия B (статистическая методология) . 69 (4): 679–699. дои : 10.1111/j.1467-9868.2007.00605.x . S2CID 120883171 .
^ Банфилд, доктор медицинских наук; Рафтери, А.Е. (1993). «Гауссова и негауссова кластеризация на основе модели». Биометрия . 49 (3): 803–821. дои : 10.2307/2532201 . JSTOR 2532201 .
^ Джеймс, генеральный менеджер; Шугар, Калифорния. (2003). «Кластеризация функциональных данных с редкой выборкой». Журнал Американской статистической ассоциации . 98 (462): 397–408. дои : 10.1198/016214503000189 . S2CID 9487422 .
^ Жак, Дж; Преда, К. (2013). «Funclust: метод кластеризации кривых с использованием аппроксимации плотности функциональных случайных величин» (PDF) . Нейрокомпьютинг . 112 : 164–171. дои : 10.1016/j.neucom.2012.11.042 . S2CID 33591208 .
^ Жак, Дж; Преда, К. (2014). «Кластеризация на основе моделей для многомерных функциональных данных». Вычислительная статистика и анализ данных . 71 (С): 92–106. дои : 10.1016/j.csda.2012.12.004 .
^ Коффи, Н.; Хинде, Дж; Холиан, Э. (2014). «Кластеризация продольных профилей с использованием P-сплайнов и моделей смешанных эффектов, применяемых к данным об экспрессии генов в зависимости от времени». Вычислительная статистика и анализ данных . 71 (С): 14–29. дои : 10.1016/j.csda.2013.04.001 .
^ Хайнцль, Ф; Тутц, Г. (2014). «Кластеризация в линейно-смешанных моделях со штрафом за групповое слитое лассо». Биометрический журнал . 56 (1): 44–68. дои : 10.1002/bimj.201200111 . ПМИД 24249100 . S2CID 10969266 .
^ Анджелини, К; Кандитис, Д.Д.; Пенский, М. (2012). «Кластеризация данных микрочипа с временной динамикой с использованием функциональной байесовской модели бесконечной смеси». Журнал прикладной статистики . 39 (1): 129–149. Бибкод : 2012JApSt..39..129A . дои : 10.1080/02664763.2011.578620 . S2CID 8902492 .
^ Родригес, А; Дансон, Д.Б.; Гельфанд, А.Е. (2009). «Байесовский непараметрический функциональный анализ данных посредством оценки плотности» . Биометрика . 96 (1): 149–162. doi : 10.1093/biomet/asn054 . ПМК 2650433 . ПМИД 19262739 .
^ Петроне, С; Гуиндани, М; Гельфанд, А.Е. (2009). «Гибридные модели смеси Дирихле для функциональных данных». Журнал Королевского статистического общества . 71 (4): 755–782. дои : 10.1111/j.1467-9868.2009.00708.x . S2CID 18638091 .
^ Хайнцль, Ф; Тутц, Г. (2013). «Кластеризация в линейных смешанных моделях с приближенными смесями процесса Дирихле с использованием алгоритма EM» (PDF) . Статистическое моделирование . 13 (1): 41–67. дои : 10.1177/1471082X12471372 . S2CID 11448616 .
^ Ленг, Х; Мюллер, ХГ. (2006). «Классификация с использованием функционального анализа данных для данных временной экспрессии генов» (PDF) . Биоинформатика . 22 (1): 68–76. doi : 10.1093/биоинформатика/bti742 . ПМИД 16257986 .
^ Джеймс, генеральный менеджер; Хасти, Ти Джей. (2001). «Функциональный линейный дискриминантный анализ для кривых с нерегулярной выборкой» . Журнал Королевского статистического общества . 63 (3): 533–550. дои : 10.1111/1467-9868.00297 . S2CID 16050693 .
^ Холл, П; Поскитт, Д.С.; Преснелл, Б. (2001). «Функциональные данные — аналитический подход к различению сигналов». Технометрика . 43 (1): 1–9. дои : 10.1198/00401700152404273 . S2CID 21662019 .
^ Феррати, Ф; Вье, П. (2003). «Дискриминация кривых: непараметрический функциональный подход». Вычислительная статистика и анализ данных . 44 (1–2): 161–173. дои : 10.1016/S0167-9473(03)00032-X .
^ Чанг, К; Чен, Ю; Огден, RT. (2014). «Функциональная классификация данных: вейвлет-подход» . Вычислительная статистика . 29 (6): 1497–1513. дои : 10.1007/s00180-014-0503-4 . ПМЦ 11192549 . S2CID 120454400 .
^ Чжу, Х; Браун, ПиДжей; Моррис, Дж.С. (2012). «Надежная классификация функциональных и количественных данных изображений с использованием функциональных смешанных моделей» . Биометрия . 68 (4): 1260–1268. дои : 10.1111/j.1541-0420.2012.01765.x . ПМЦ 3443537 . ПМИД 22670567 .
^ Дай, Х; Мюллер, Х.Г.; Яо, Ф. (2017). «Оптимальные классификаторы Байеса для функциональных данных и коэффициентов плотности». Биометрика . 104 (3): 545–560. arXiv : 1605.03707 .
^ Делагль, А; Холл, П. (2012). «Достижение почти идеальной классификации функциональных данных» . Журнал Королевского статистического общества. Серия B (Статистическая методология) . 74 (2): 267–286. дои : 10.1111/j.1467-9868.2011.01003.x . ISSN 1369-7412 . S2CID 124261587 .
^ Ван, Дж.Л.; Чиу, Дж. М.; Мюллер, ХГ. (2016). «Функциональный анализ данных» . Ежегодный обзор статистики и ее применения . 3 (1): 257–295. Бибкод : 2016AnRSA...3..257W . doi : 10.1146/annurev-statistics-041715-033624 . S2CID 13709250 .
^ Гассер, Т; Мюллер, Х.Г.; Колер, В; Молинари, Л; Прадер, А. (1984). «Непараметрический регрессионный анализ кривых роста». Анналы статистики . 12 (1): 210–229.
^ Рамзи, Джо; Ли, X. (1998). «Регистрация кривых» . Журнал Королевского статистического общества, серия B. 60 (2): 351–363. дои : 10.1111/1467-9868.00129 . S2CID 17175587 .
^ Jump up to: ^а ^б ^с Маррон, Дж. С.; Рамзи, Джо; Сангалли, LM; Шривастава, А (2015). «Функциональный анализ данных изменения амплитуды и фазы». Статистическая наука . 30 (4): 468–484. arXiv : 1512.03216 . дои : 10.1214/15-STS524 . S2CID 55849758 .
^ Сакоэ, Х; Чиба, С. (1978). «Оптимизация алгоритма динамического программирования для распознавания устной речи». Транзакции IEEE по акустике, речи и обработке сигналов . 26 : 43–49. дои : 10.1109/ТАССП.1978.1163055 . S2CID 17900407 .
^ Кнайп, А; Гассер, Т. (1992). «Статистические инструменты для анализа данных, представляющих выборку кривых» . Анналы статистики . 20 (3): 1266–1305. дои : 10.1214/aos/1176348769 .
^ Гассер, Т; Кнайп, А (1995). «Поиск структуры в образце кривой». Журнал Американской статистической ассоциации . 90 (432): 1179–1188.
^ Тан, Р; Мюллер, ХГ. (2008). «Попарная синхронизация кривых функциональных данных». Биометрика . 95 (4): 875–889. дои : 10.1093/biomet/asn047 .
^ Jump up to: ^а ^б Анирудх, Р; Турага, П; Су, Дж; Шривастава, А (2015). «Эластичное функциональное кодирование действий человека: от векторных полей к скрытым переменным». Материалы конференции IEEE по компьютерному зрению и распознаванию образов : 3147–3155.
^ Jump up to: ^а ^б Дубей, П; Мюллер, Х.Г. (2021). «Моделирование изменяющихся во времени случайных объектов и динамических сетей». Журнал Американской статистической ассоциации . 117 (540): 2252–2267. arXiv : 2104.04628 . дои : 10.1080/01621459.2021.1917416 . S2CID 233210300 .
^ Пиголи, Д; Хаджипантелис, ПЗ; Коулман, Дж.С.; Астон, JAD (2017). «Статистический анализ акустических фонетических данных: изучение различий между разговорными романскими языками». Журнал Королевского статистического общества. Серия C (Прикладная статистика) . 67 (5): 1130–1145.
^ Хапп, К; Гревен, С (2018). «Многомерный анализ функциональных главных компонентов для данных, наблюдаемых в различных (мерных) областях». Журнал Американской статистической ассоциации . 113 (522): 649–659. arXiv : 1509.02029 . дои : 10.1080/01621459.2016.1273115 . S2CID 88521295 .
^ Чиу, Дж. М.; Ян, Ю.Ф.; Чен, Ю.Т. (2014). «Многомерный функциональный анализ главных компонентов: подход нормализации». Статистика Синица . 24 : 1571–1596.
^ Кэрролл, К; Мюллер, Х.Г.; Кнайп, А (2021). «Межкомпонентная регистрация многомерных функциональных данных с применением к кривым роста». Биометрия . 77 (3): 839–851. arXiv : 1811.01429 . дои : 10.1111/biom.13340 . S2CID 220687157 .
^ Дай, Х; Мюллер, Х.Г. (2018). «Анализ главных компонент функциональных данных на римановых многообразиях и сферах». Анналы статистики . 46 (6Б): 3334–3361. arXiv : 1705.06226 . дои : 10.1214/17-AOS1660 . S2CID 13671221 .
^ Чен, К; Деликадо, П; Мюллер, Х.Г. (2017). «Моделирование функционально-стохастических процессов с применением к динамике рождаемости». Журнал Королевского статистического общества. Серия B (Статистическая методология) . 79 (1): 177–196. дои : 10.1111/rssb.12160 . hdl : 2117/126653 . S2CID 13719492 .

[1] Гренандер, У. (1950). «Стохастические процессы и статистический вывод» . Архив по математике 1 (3): 195–277. Бибкод : 1950АрМ.....1..195Г . дои : 10.1007/BF02590638 . S2CID 120451372 .

[:4-2] Райс, Дж.А.; Сильверман, Б.В. (1991). «Непараметрическая оценка среднего и ковариационной структуры, когда данные представляют собой кривые». Журнал Королевского статистического общества . 53 (1): 233–243. дои : 10.1111/j.2517-6161.1991.tb01821.x .

[3] Мюллер, ХГ. (2016). «Питер Холл, функциональный анализ данных и случайные объекты» . Анналы статистики . 44 (5): 1867–1887. дои : 10.1214/16-AOS1492 .

[4] Кархунен, К (1946). К спектральной теории случайных процессов . Annales Academiae scientiarum Fennicae.

[5] Клефф, Дж. (1973). «Главные компоненты случайных величин со значениями в сепарабельном гильбертовом пространстве». Исследование математических операций и статистика . 4 (5): 391–406. дои : 10.1080/02331887308801137 .

[6] Даксуа, Дж; Пусс, А; Ромен, Ю. (1982). «Асимптотическая теория анализа главных компонент векторной случайной функции: некоторые приложения к статистическому выводу» . Журнал многомерного анализа . 12 (1): 136–154. дои : 10.1016/0047-259X(82)90088-4 .

[:7-7] Jump up to: ^а ^б ^с ^д ^и Рамзи, Дж; Сильверман, Б.В. (2005). Функциональный анализ данных, 2-е изд . Спрингер.

[8] Хсинг, Т; Юбанк, Р. (2015). Теоретические основы функционального анализа данных с введением в линейные операторы . Ряд Уайли по вероятности и статистике.

[9] Ши, М; Вайс, Р.Э.; Тейлор, JMG. (1996). «Анализ количества CD4 у детей при синдроме приобретенного иммунодефицита с использованием гибких случайных кривых». Журнал Королевского статистического общества. Серия C (Прикладная статистика) . 45 (2): 151–163.

[10] Хильгерт, Н; Мас, А; Верзелен, Н. (2013). «Минимаксные адаптивные тесты функциональной линейной модели». Анналы статистики . 41 (2): 838–869. arXiv : 1206.1194 . дои : 10.1214/13-AOS1093 . S2CID 13119710 .

[11] Конг, Д; Сюэ, К; Яо, Ф; Чжан, Х.Х. (2016). «Частично функциональная линейная регрессия в больших измерениях». Биометрика . 103 (1): 147–159. дои : 10.1093/biomet/asv062 .

[12] Хорват, Л; Кокошка, П. (2012). Вывод функциональных данных с помощью приложений . Серия Спрингера по статистике. Спрингер-Верлаг.

[wang:162-13] Jump up to: ^а ^б ^с ^д Ван, Дж.Л.; Чиу, Дж. М.; Мюллер, ХГ. (2016). «Функциональный анализ данных» . Ежегодный обзор статистики и ее применения . 3 (1): 257–295. Бибкод : 2016AnRSA...3..257W . doi : 10.1146/annurev-statistics-041715-033624 . S2CID 13709250 .

[14] Рамзи, Джо; Далзелл, CJ. (1991). «Некоторые инструменты функционального анализа данных». Журнал Королевского статистического общества, серия B (методологический) . 53 (3): 539–561. дои : 10.1111/j.2517-6161.1991.tb01844.x . S2CID 118960346 .

[15] Малфейт, Н.; Рамзи, Дж.О. (2003). «Историческая функциональная линейная модель». Канадский статистический журнал . 31 (2): 115–128. дои : 10.2307/3316063 . JSTOR 3316063 . S2CID 55092204 .

[16] Он, Г; Мюллер, Х.Г.; Ван, Дж.Л. (2003). «Функциональный канонический анализ квадратично интегрируемых случайных процессов». Журнал многомерного анализа . 85 (1): 54–77. дои : 10.1016/S0047-259X(02)00056-8 .

[:5-17] Jump up to: ^а ^б Яо, Ф; Мюллер, Х.Г.; Ван, Дж.Л. (2005). «Функциональный анализ данных для редких продольных данных». Журнал Американской статистической ассоциации . 100 (470): 577–590. дои : 10.1198/016214504000001745 . S2CID 1243975 .

[18] Он, Г; Мюллер, Х.Г.; Ван, Дж.Л.; Ян, У.Дж. (2010). «Функциональная линейная регрессия посредством канонического анализа». Журнал многомерного анализа . 16 (3): 705–729. arXiv : 1102.5212 . дои : 10.3150/09-BEJ228 . S2CID 17843044 .

[19] Фан, Дж; Чжан, В. (1999). «Статистическая оценка в моделях с переменными коэффициентами» . Анналы статистики . 27 (5): 1491–1518. дои : 10.1214/aos/1017939139 . S2CID 16758288 .

[20] Ву, Колорадо; Ю, КФ. (2002). «Непараметрические модели с переменными коэффициентами для анализа продольных данных». Международный статистический обзор . 70 (3): 373–393. дои : 10.1111/j.1751-5823.2002.tb00176.x . S2CID 122007787 .

[21] Хуанг, JZ; Ву, Колорадо; Чжоу, Л. (2002). «Модели с переменными коэффициентами и аппроксимации базисной функции для анализа повторных измерений». Биометрика . 89 (1): 111–128. дои : 10.1093/biomet/89.1.111 .

[22] Хуанг, JZ; Ву, Колорадо; Чжоу, Л. (2004). «Оценка полиномиального сплайна и вывод для моделей с различными коэффициентами с продольными данными». Статистика Синица . 14 (3): 763–788.

[23] Шентюрк, Д; Мюллер, ХГ. (2010). «Модели функциональных переменных коэффициентов для продольных данных». Журнал Американской статистической ассоциации . 105 (491): 1256–1264. дои : 10.1198/jasa.2010.tm09228 . S2CID 14296231 .

[24] Эггермонт, ППБ; Юбанк, Род-Айленд; ЛаРичча, В.Н. (2010). «Степень сходимости для сглаживающих сплайновых оценок в моделях с различными коэффициентами». Журнал статистического планирования и выводов . 140 (2): 369–381. дои : 10.1016/j.jspi.2009.06.017 .

[yao:10-25] Jump up to: ^а ^б Яо, Ф; Мюллер, ХГ. (2010). «Функциональная квадратичная регрессия». Биометрика . 97 (1): 49–64.

[26] Хорват, Л; Ридер, Р. (2013). «Тест значимости функциональной квадратичной регрессии» . Бернулли . 19 (5А): 2120–2151. arXiv : 1105.0014 . дои : 10.3150/12-BEJ446 . S2CID 88512527 .

[chen:11-27] Чен, Д; Холл, П; Мюллер ХГ. (2011). «Одно- и множественные индексные модели функциональной регрессии с непараметрической связью». Анналы статистики . 39 (3): 1720–1747.

[28] Цзян, ЧР; Ван Дж.Л. (2011). «Функциональные модели с одним индексом для продольных данных». Анналы статистики . 39 (1): 362–388.

[29] Мюллер Х.Г.; У Ю; Яо, Ф. (2013). «Непрерывно аддитивные модели нелинейной функциональной регрессии». Биометрика . 100 (3): 607–622. doi : 10.1093/biomet/ast004 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[30] Мюллер Х.Г.; Стадмюллер, У. (2005). «Обобщенные функциональные линейные модели». Анналы статистики . 33 (2): 774–805. arXiv : math/0505638 . дои : 10.1214/009053604000001156 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[31] Чиу, Дж. М.; Ли, ПЛ. (2007). «Функциональная кластеризация и выявление подструктур продольных данных» . Журнал Королевского статистического общества, серия B (статистическая методология) . 69 (4): 679–699. дои : 10.1111/j.1467-9868.2007.00605.x . S2CID 120883171 .

[32] Банфилд, доктор медицинских наук; Рафтери, А.Е. (1993). «Гауссова и негауссова кластеризация на основе модели». Биометрия . 49 (3): 803–821. дои : 10.2307/2532201 . JSTOR 2532201 .

[33] Джеймс, генеральный менеджер; Шугар, Калифорния. (2003). «Кластеризация функциональных данных с редкой выборкой». Журнал Американской статистической ассоциации . 98 (462): 397–408. дои : 10.1198/016214503000189 . S2CID 9487422 .

[34] Жак, Дж; Преда, К. (2013). «Funclust: метод кластеризации кривых с использованием аппроксимации плотности функциональных случайных величин» (PDF) . Нейрокомпьютинг . 112 : 164–171. дои : 10.1016/j.neucom.2012.11.042 . S2CID 33591208 .

[35] Жак, Дж; Преда, К. (2014). «Кластеризация на основе моделей для многомерных функциональных данных». Вычислительная статистика и анализ данных . 71 (С): 92–106. дои : 10.1016/j.csda.2012.12.004 .

[:03-36] Коффи, Н.; Хинде, Дж; Холиан, Э. (2014). «Кластеризация продольных профилей с использованием P-сплайнов и моделей смешанных эффектов, применяемых к данным об экспрессии генов в зависимости от времени». Вычислительная статистика и анализ данных . 71 (С): 14–29. дои : 10.1016/j.csda.2013.04.001 .

[37] Хайнцль, Ф; Тутц, Г. (2014). «Кластеризация в линейно-смешанных моделях со штрафом за групповое слитое лассо». Биометрический журнал . 56 (1): 44–68. дои : 10.1002/bimj.201200111 . ПМИД 24249100 . S2CID 10969266 .

[38] Анджелини, К; Кандитис, Д.Д.; Пенский, М. (2012). «Кластеризация данных микрочипа с временной динамикой с использованием функциональной байесовской модели бесконечной смеси». Журнал прикладной статистики . 39 (1): 129–149. Бибкод : 2012JApSt..39..129A . дои : 10.1080/02664763.2011.578620 . S2CID 8902492 .

[39] Родригес, А; Дансон, Д.Б.; Гельфанд, А.Е. (2009). «Байесовский непараметрический функциональный анализ данных посредством оценки плотности» . Биометрика . 96 (1): 149–162. doi : 10.1093/biomet/asn054 . ПМК 2650433 . ПМИД 19262739 .

[40] Петроне, С; Гуиндани, М; Гельфанд, А.Е. (2009). «Гибридные модели смеси Дирихле для функциональных данных». Журнал Королевского статистического общества . 71 (4): 755–782. дои : 10.1111/j.1467-9868.2009.00708.x . S2CID 18638091 .

[41] Хайнцль, Ф; Тутц, Г. (2013). «Кластеризация в линейных смешанных моделях с приближенными смесями процесса Дирихле с использованием алгоритма EM» (PDF) . Статистическое моделирование . 13 (1): 41–67. дои : 10.1177/1471082X12471372 . S2CID 11448616 .

[42] Ленг, Х; Мюллер, ХГ. (2006). «Классификация с использованием функционального анализа данных для данных временной экспрессии генов» (PDF) . Биоинформатика . 22 (1): 68–76. doi : 10.1093/биоинформатика/bti742 . ПМИД 16257986 .

[43] Джеймс, генеральный менеджер; Хасти, Ти Джей. (2001). «Функциональный линейный дискриминантный анализ для кривых с нерегулярной выборкой» . Журнал Королевского статистического общества . 63 (3): 533–550. дои : 10.1111/1467-9868.00297 . S2CID 16050693 .

[44] Холл, П; Поскитт, Д.С.; Преснелл, Б. (2001). «Функциональные данные — аналитический подход к различению сигналов». Технометрика . 43 (1): 1–9. дои : 10.1198/00401700152404273 . S2CID 21662019 .

[45] Феррати, Ф; Вье, П. (2003). «Дискриминация кривых: непараметрический функциональный подход». Вычислительная статистика и анализ данных . 44 (1–2): 161–173. дои : 10.1016/S0167-9473(03)00032-X .

[46] Чанг, К; Чен, Ю; Огден, RT. (2014). «Функциональная классификация данных: вейвлет-подход» . Вычислительная статистика . 29 (6): 1497–1513. дои : 10.1007/s00180-014-0503-4 . ПМЦ 11192549 . S2CID 120454400 .

[47] Чжу, Х; Браун, ПиДжей; Моррис, Дж.С. (2012). «Надежная классификация функциональных и количественных данных изображений с использованием функциональных смешанных моделей» . Биометрия . 68 (4): 1260–1268. дои : 10.1111/j.1541-0420.2012.01765.x . ПМЦ 3443537 . ПМИД 22670567 .

[:0-48] Дай, Х; Мюллер, Х.Г.; Яо, Ф. (2017). «Оптимальные классификаторы Байеса для функциональных данных и коэффициентов плотности». Биометрика . 104 (3): 545–560. arXiv : 1605.03707 .

[49] Делагль, А; Холл, П. (2012). «Достижение почти идеальной классификации функциональных данных» . Журнал Королевского статистического общества. Серия B (Статистическая методология) . 74 (2): 267–286. дои : 10.1111/j.1467-9868.2011.01003.x . ISSN 1369-7412 . S2CID 124261587 .

[wang:16-50] Ван, Дж.Л.; Чиу, Дж. М.; Мюллер, ХГ. (2016). «Функциональный анализ данных» . Ежегодный обзор статистики и ее применения . 3 (1): 257–295. Бибкод : 2016AnRSA...3..257W . doi : 10.1146/annurev-statistics-041715-033624 . S2CID 13709250 .

[51] Гассер, Т; Мюллер, Х.Г.; Колер, В; Молинари, Л; Прадер, А. (1984). «Непараметрический регрессионный анализ кривых роста». Анналы статистики . 12 (1): 210–229.

[52] Рамзи, Джо; Ли, X. (1998). «Регистрация кривых» . Журнал Королевского статистического общества, серия B. 60 (2): 351–363. дои : 10.1111/1467-9868.00129 . S2CID 17175587 .

[:6-53] Jump up to: ^а ^б ^с Маррон, Дж. С.; Рамзи, Джо; Сангалли, LM; Шривастава, А (2015). «Функциональный анализ данных изменения амплитуды и фазы». Статистическая наука . 30 (4): 468–484. arXiv : 1512.03216 . дои : 10.1214/15-STS524 . S2CID 55849758 .

[54] Сакоэ, Х; Чиба, С. (1978). «Оптимизация алгоритма динамического программирования для распознавания устной речи». Транзакции IEEE по акустике, речи и обработке сигналов . 26 : 43–49. дои : 10.1109/ТАССП.1978.1163055 . S2CID 17900407 .

[55] Кнайп, А; Гассер, Т. (1992). «Статистические инструменты для анализа данных, представляющих выборку кривых» . Анналы статистики . 20 (3): 1266–1305. дои : 10.1214/aos/1176348769 .

[56] Гассер, Т; Кнайп, А (1995). «Поиск структуры в образце кривой». Журнал Американской статистической ассоциации . 90 (432): 1179–1188.

[:1-57] Тан, Р; Мюллер, ХГ. (2008). «Попарная синхронизация кривых функциональных данных». Биометрика . 95 (4): 875–889. дои : 10.1093/biomet/asn047 .

[:2-58] Jump up to: ^а ^б Анирудх, Р; Турага, П; Су, Дж; Шривастава, А (2015). «Эластичное функциональное кодирование действий человека: от векторных полей к скрытым переменным». Материалы конференции IEEE по компьютерному зрению и распознаванию образов : 3147–3155.

[:3-59] Jump up to: ^а ^б Дубей, П; Мюллер, Х.Г. (2021). «Моделирование изменяющихся во времени случайных объектов и динамических сетей». Журнал Американской статистической ассоциации . 117 (540): 2252–2267. arXiv : 2104.04628 . дои : 10.1080/01621459.2021.1917416 . S2CID 233210300 .

[60] Пиголи, Д; Хаджипантелис, ПЗ; Коулман, Дж.С.; Астон, JAD (2017). «Статистический анализ акустических фонетических данных: изучение различий между разговорными романскими языками». Журнал Королевского статистического общества. Серия C (Прикладная статистика) . 67 (5): 1130–1145.

[61] Хапп, К; Гревен, С (2018). «Многомерный анализ функциональных главных компонентов для данных, наблюдаемых в различных (мерных) областях». Журнал Американской статистической ассоциации . 113 (522): 649–659. arXiv : 1509.02029 . дои : 10.1080/01621459.2016.1273115 . S2CID 88521295 .

[62] Чиу, Дж. М.; Ян, Ю.Ф.; Чен, Ю.Т. (2014). «Многомерный функциональный анализ главных компонентов: подход нормализации». Статистика Синица . 24 : 1571–1596.

[63] Кэрролл, К; Мюллер, Х.Г.; Кнайп, А (2021). «Межкомпонентная регистрация многомерных функциональных данных с применением к кривым роста». Биометрия . 77 (3): 839–851. arXiv : 1811.01429 . дои : 10.1111/biom.13340 . S2CID 220687157 .

[64] Дай, Х; Мюллер, Х.Г. (2018). «Анализ главных компонент функциональных данных на римановых многообразиях и сферах». Анналы статистики . 46 (6Б): 3334–3361. arXiv : 1705.06226 . дои : 10.1214/17-AOS1660 . S2CID 13671221 .

[65] Чен, К; Деликадо, П; Мюллер, Х.Г. (2017). «Моделирование функционально-стохастических процессов с применением к динамике рождаемости». Журнал Королевского статистического общества. Серия B (Статистическая методология) . 79 (1): 177–196. дои : 10.1111/rssb.12160 . hdl : 2117/126653 . S2CID 13719492 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]