Сеть радиальных базисных функций

В области математического моделирования сеть радиальных базисных функций представляет собой искусственную нейронную сеть , которая использует радиальные базисные функции в качестве функций активации . Выход сети представляет собой линейную комбинацию радиальных базисных функций входов и параметров нейрона. Сети радиальных базисных функций имеют множество применений, включая аппроксимацию функций , прогнозирование временных рядов , классификацию и управление системой . Впервые они были сформулированы в статье 1988 года Брумхедом и Лоу, исследователями из Королевского института сигналов и радаров . ^[1]^[2]^[3]

Сетевая архитектура [ править ]

Архитектура радиальной сети базисных функций. Входной вектор $x$ используется в качестве входных данных для всех радиальных базисных функций, каждая из которых имеет разные параметры. Выходные данные сети представляют собой линейную комбинацию выходных сигналов радиальных базисных функций.

Сети с радиальной базисной функцией (RBF) обычно имеют три уровня: входной уровень, скрытый уровень с нелинейной функцией активации RBF и линейный выходной уровень. Входные данные можно смоделировать как вектор действительных чисел. $\mathbf {x} \in \mathbb {R} ^{n}$ . Выходной сигнал сети тогда является скалярной функцией входного вектора: $\varphi :\mathbb {R} ^{n}\to \mathbb {R}$ , и определяется выражением

\varphi (\mathbf {x} )=\sum _{i=1}^{N}a_{i}\rho (||\mathbf {x} -\mathbf {c} _{i}||)

где $N$ — количество нейронов в скрытом слое, $\mathbf {c} _{i}$ центральный вектор нейрона $i$ , и $a_{i}$ это вес нейрона $i$ в линейном выходном нейроне. Функции, которые зависят только от расстояния от центрального вектора, радиально симметричны относительно этого вектора, отсюда и название радиальная базисная функция. В базовой форме все входы подключены к каждому скрытому нейрону. обычно За норму принимается евклидово расстояние (хотя расстояние Махаланобиса , по-видимому, лучше работает с распознаванием образов). ^[4]^[5]^{[ редакция ]}), а радиальная базисная функция обычно считается гауссовой

\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}=\exp \left[-\beta _{i}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert ^{2}\right]

.

Гауссовы базисные функции локальны по отношению к центральному вектору в том смысле, что

\lim _{||x||\to \infty }\rho (\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert )=0

т.е. изменение параметров одного нейрона имеет лишь небольшой эффект для входных значений, которые находятся далеко от центра этого нейрона.

При определенных мягких условиях на форму функции активации сети RBF являются аппроксиматорами подмножества компактного универсальными $\mathbb {R} ^{n}$ . ^[6] Это означает, что RBF-сеть с достаточным количеством скрытых нейронов может аппроксимировать любую непрерывную функцию на замкнутом ограниченном множестве с произвольной точностью.

Параметры $a_{i}$ , $\mathbf {c} _{i}$ , и $\beta _{i}$ определяются таким образом, который оптимизирует соответствие между $\varphi$ и данные.

Нормализованный [ править ]

Две нормализованные радиальные базисные функции в одном входном измерении ( сигмоиды ). Базисные функциональные центры расположены в г.

c_{1}=0.75

и

c_{2}=3.25

.

Три нормализованные радиальные базисные функции в одном входном измерении. Дополнительная базисная функция имеет центр в

c_{3}=2.75

.

Четыре нормализованные радиальные базисные функции в одном входном измерении. Четвертая базисная функция имеет центр в

c_{4}=0

. Обратите внимание, что первая базисная функция (темно-синяя) стала локализованной.

Нормализованная архитектура [ править ]

Помимо вышеописанной ненормализованной архитектуры, сети RBF могут быть нормализованы . В этом случае отображение

\varphi (\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\sum _{i=1}^{N}a_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}a_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

где

u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{j=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{j}\right\Vert {\big )}}}

известна как нормализованная радиальная базисная функция .

мотивация нормализации Теоретическая

Существует теоретическое обоснование такой архитектуры в случае стохастического потока данных. Предположим , что используется стохастическое ядро для совместной плотности вероятности.

P\left(\mathbf {x} \land y\right)={1 \over N}\sum _{i=1}^{N}\,\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\,\sigma {\big (}\left\vert y-e_{i}\right\vert {\big )}

где веса $\mathbf {c} _{i}$ и $e_{i}$ являются образцами данных, и мы требуем, чтобы ядра были нормализованы

\int \rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\,d^{n}\mathbf {x} =1

и

\int \sigma {\big (}\left\vert y-e_{i}\right\vert {\big )}\,dy=1

.

Плотности вероятности во входном и выходном пространствах равны

P\left(\mathbf {x} \right)=\int P\left(\mathbf {x} \land y\right)\,dy={1 \over N}\sum _{i=1}^{N}\,\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

и

Ожидание y с учетом входных данных $\mathbf {x}$ является

\varphi \left(\mathbf {x} \right)\ {\stackrel {\mathrm {def} }{=}}\ E\left(y\mid \mathbf {x} \right)=\int y\,P\left(y\mid \mathbf {x} \right)dy

где

P\left(y\mid \mathbf {x} \right)

- условная вероятность y при условии $\mathbf {x}$ .Условная вероятность связана с совместной вероятностью посредством теоремы Байеса.

P\left(y\mid \mathbf {x} \right)={\frac {P\left(\mathbf {x} \land y\right)}{P\left(\mathbf {x} \right)}}

что дает

\varphi \left(\mathbf {x} \right)=\int y\,{\frac {P\left(\mathbf {x} \land y\right)}{P\left(\mathbf {x} \right)}}\,dy

.

Это становится

\varphi \left(\mathbf {x} \right)={\frac {\sum _{i=1}^{N}e_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}e_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

когда выполняются интеграции.

Локальные линейные модели [ править ]

Иногда удобно расширить архитектуру, включив в нее локальные линейные модели. В этом случае архитектуры становятся, в первую очередь,

\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{N}\left(a_{i}+\mathbf {b} _{i}\cdot \left(\mathbf {x} -\mathbf {c} _{i}\right)\right)\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

и

\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{N}\left(a_{i}+\mathbf {b} _{i}\cdot \left(\mathbf {x} -\mathbf {c} _{i}\right)\right)u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

в ненормированном и нормализованном случаях соответственно. Здесь $\mathbf {b} _{i}$ являются весами, подлежащими определению. Возможны также линейные члены более высокого порядка.

Этот результат можно записать

\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{2N}\sum _{j=1}^{n}e_{ij}v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}

где

e_{ij}={\begin{cases}a_{i},&{\mbox{if }}i\in [1,N]\\b_{ij},&{\mbox{if }}i\in [N+1,2N]\end{cases}}

и

v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\begin{cases}\delta _{ij}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [1,N]\\\left(x_{ij}-c_{ij}\right)\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [N+1,2N]\end{cases}}

в ненормированном случае и

v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\begin{cases}\delta _{ij}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [1,N]\\\left(x_{ij}-c_{ij}\right)u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [N+1,2N]\end{cases}}

в нормированном случае.

Здесь $\delta _{ij}$ представляет собой дельта-функцию Кронекера, определяемую как

\delta _{ij}={\begin{cases}1,&{\mbox{if }}i=j\\0,&{\mbox{if }}i\neq j\end{cases}}

.

Обучение [ править ]

Сети RBF обычно обучаются на основе пар входных и целевых значений. $\mathbf {x} (t),y(t)$ , $t=1,\dots ,T$ по двухшаговому алгоритму.

На первом этапе центральные векторы $\mathbf {c} _{i}$ функций RBF в скрытом слое. Этот шаг можно выполнить несколькими способами; центры могут быть выбраны случайным образом из некоторого набора примеров или они могут быть определены с помощью кластеризации k-средних . Обратите внимание, что этот шаг не контролируется .

Второй шаг просто соответствует линейной модели с коэффициентами $w_{i}$ к выводам скрытого слоя относительно некоторой целевой функции. Общей целевой функцией, по крайней мере для оценки регрессии/функции, является функция наименьших квадратов:

K(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{T}K_{t}(\mathbf {w} )

где

K_{t}(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}^{2}

.

Мы явно включили зависимость от весов. Минимизация целевой функции наименьших квадратов за счет оптимального выбора весов оптимизирует точность подбора.

Бывают случаи, когда необходимо оптимизировать несколько целей, таких как плавность и точность. В этом случае полезно оптимизировать регуляризованную целевую функцию, такую как

H(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ K(\mathbf {w} )+\lambda S(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{T}H_{t}(\mathbf {w} )

где

S(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{T}S_{t}(\mathbf {w} )

и

H_{t}(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ K_{t}(\mathbf {w} )+\lambda S_{t}(\mathbf {w} )

где оптимизация S максимизирует гладкость и $\lambda$ известен как параметр регуляризации .

Третий дополнительный шаг обратного распространения ошибки может быть выполнен для точной настройки всех параметров сети RBF. ^[3]

Интерполяция [ править ]

Сети RBF можно использовать для интерполяции функции. $y:\mathbb {R} ^{n}\to \mathbb {R}$ когда значения этой функции известны в конечном числе точек: $y(\mathbf {x} _{i})=b_{i},i=1,\ldots ,N$ . Взяв известные точки $\mathbf {x} _{i}$ быть центрами радиальных базисных функций и оценивать значения базисных функций в тех же точках $g_{ij}=\rho (||\mathbf {x} _{j}-\mathbf {x} _{i}||)$ веса можно решить из уравнения

\left[{\begin{matrix}g_{11}&g_{12}&\cdots &g_{1N}\\g_{21}&g_{22}&\cdots &g_{2N}\\\vdots &&\ddots &\vdots \\g_{N1}&g_{N2}&\cdots &g_{NN}\end{matrix}}\right]\left[{\begin{matrix}w_{1}\\w_{2}\\\vdots \\w_{N}\end{matrix}}\right]=\left[{\begin{matrix}b_{1}\\b_{2}\\\vdots \\b_{N}\end{matrix}}\right]

Можно показать, что интерполяционная матрица в приведенном выше уравнении невырождена, если точки $\mathbf {x} _{i}$ различны, поэтому веса $w$ можно решить простой линейной алгеброй:

\mathbf {w} =\mathbf {G} ^{-1}\mathbf {b}

где $G=(g_{ij})$ .

Аппроксимация функции [ править ]

Если цель состоит не в выполнении строгой интерполяции, а в более общей аппроксимации или классификации функций, оптимизация несколько сложнее, поскольку нет очевидного выбора для центров. Обучение обычно проводится в два этапа: сначала фиксируется ширина и центры, а затем вес. Это можно оправдать, если принять во внимание различную природу нелинейных скрытых нейронов и линейного выходного нейрона.

Обучение базовых функциональных центров [ править ]

Центры базисных функций могут быть случайным образом выбраны среди входных экземпляров или получены с помощью алгоритма ортогонального наименьших квадратов или найдены путем кластеризации выборок и выбора средних значений кластера в качестве центров.

Ширина RBF обычно фиксируется на одном и том же значении, пропорциональном максимальному расстоянию между выбранными центрами.

линейных Псевдообратное решение для весов

После центров $c_{i}$ были фиксированы, веса, которые минимизируют ошибку на выходе, могут быть вычислены с помощью линейного псевдообратного решения:

\mathbf {w} =\mathbf {G} ^{+}\mathbf {b}

,

где элементы G представляют собой значения радиальных базисных функций, оцененных в точках $x_{i}$ : $g_{ji}=\rho (||x_{j}-c_{i}||)$ .

Существование этого линейного решения означает, что в отличие от сетей многослойного перцептрона (MLP), сети RBF имеют явный минимизатор (когда центры фиксированы).

линейных Обучение градиентному спуску весов

Другой возможный алгоритм обучения — градиентный спуск . При обучении градиентному спуску веса корректируются на каждом временном шаге путем перемещения их в направлении, противоположном градиенту целевой функции (таким образом позволяя найти минимум целевой функции),

\mathbf {w} (t+1)=\mathbf {w} (t)-\nu {\frac {d}{d\mathbf {w} }}H_{t}(\mathbf {w} )

где $\nu$ является «параметром обучения».

В случае обучения линейных весов $a_{i}$ , алгоритм становится

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}\rho {\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}

в ненормированном случае и

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}

в нормированном случае.

Для локальных линейных архитектур обучение градиентному спуску

e_{ij}(t+1)=e_{ij}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}v_{ij}{\big (}\mathbf {x} (t)-\mathbf {c} _{i}{\big )}

линейных операторов проектирования Обучение весов

В случае обучения линейных весов $a_{i}$ и $e_{ij}$ , алгоритм становится

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {\rho {\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho ^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

в ненормированном случае и

a_{i}(t+1)=a_{i}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}u^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

в нормированном случае и

e_{ij}(t+1)=e_{ij}(t)+\nu {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {v_{ij}{\big (}\mathbf {x} (t)-\mathbf {c} _{i}{\big )}}{\sum _{i=1}^{N}\sum _{j=1}^{n}v_{ij}^{2}{\big (}\mathbf {x} (t)-\mathbf {c} _{i}{\big )}}}

в локально-линейном случае.

Для одной базовой функции обучение операторов прогнозирования сводится к методу Ньютона .

Примеры [ править ]

Логистическая карта [ править ]

Основные свойства радиальных базисных функций можно проиллюстрировать с помощью простой математической карты, логистической карты , которая отображает единичный интервал сам на себя. Его можно использовать для создания удобного потока данных прототипа. Логистическую карту можно использовать для изучения аппроксимации функций , прогнозирования временных рядов и теории управления . Карта возникла из области динамики населения и стала прототипом хаотических временных рядов. Карта в полностью хаотическом режиме имеет вид

x(t+1)\ {\stackrel {\mathrm {def} }{=}}\ f\left[x(t)\right]=4x(t)\left[1-x(t)\right]

где t — индекс времени. Значение x в момент времени t+1 является параболической функцией x в момент времени t. Это уравнение представляет собой основную геометрию хаотического временного ряда, созданного логистической картой.

Генерация временного ряда из этого уравнения является прямой задачей . Приведенные здесь примеры иллюстрируют обратную задачу ; идентификация основной динамики или фундаментального уравнения логистической карты на основе образцов временного ряда. Цель – найти оценку

x(t+1)=f\left[x(t)\right]\approx \varphi (t)=\varphi \left[x(t)\right]

для ф.

Аппроксимация функции [ править ]

Ненормированные радиальные базисные функции [ править ]

Архитектура

\varphi (\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{i=1}^{N}a_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

где

\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}=\exp \left[-\beta _{i}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert ^{2}\right]=\exp \left[-\beta _{i}\left(x(t)-c_{i}\right)^{2}\right]

.

Поскольку входные данные являются скаляром , а не вектором , размерность входных данных равна единице. Мы выбираем количество базисных функций N = 5 и размер обучающего набора, равный 100 экземплярам, сгенерированным хаотичным временным рядом. Вес $\beta$ принимается константа, равная 5. Веса $c_{i}$ пять примеров из временного ряда. Веса $a_{i}$ проходят подготовку операторов проекции:

a_{i}(t+1)=a_{i}(t)+\nu {\big [}x(t+1)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {\rho {\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho ^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

где скорость обучения $\nu$ принимается равным 0,3. Обучение проводится за один проход по 100 тренировочным точкам. Среднеквадратическая ошибка составляет 0,15.

Нормализованные радиальные базисные функции [ править ]

Нормализованная архитектура RBF

\varphi (\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\sum _{i=1}^{N}a_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}a_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

где

u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}

.

Снова:

\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}=\exp \left[-\beta \left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert ^{2}\right]=\exp \left[-\beta \left(x(t)-c_{i}\right)^{2}\right]

.

Опять же, мы выбираем количество базисных функций равным пяти, а размер обучающего набора — 100 экземпляров, созданных хаотичным временным рядом. Вес $\beta$ принимается константа, равная 6. Веса $c_{i}$ пять примеров из временного ряда. Веса $a_{i}$ проходят подготовку операторов проекции:

a_{i}(t+1)=a_{i}(t)+\nu {\big [}x(t+1)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}{\frac {u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}u^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

где скорость обучения $\nu$ снова принимается равным 0,3. Обучение проводится за один проход по 100 тренировочным точкам. Среднеквадратическая ошибка на тестовом наборе из 100 образцов составляет 0,084, что меньше ненормализованной ошибки. Нормализация приводит к повышению точности. Обычно точность нормализованных базисных функций увеличивается даже больше, чем ненормализованных функций, по мере увеличения размерности входных данных.

временных Прогнозирование рядов

После оценки базовой геометрии временного ряда, как в предыдущих примерах, прогноз временного ряда можно сделать путем итерации:

\varphi (0)=x(1)

{x}(t)\approx \varphi (t-1)

{x}(t+1)\approx \varphi (t)=\varphi [\varphi (t-1)]

.

На рисунке показано сравнение фактического и расчетного временных рядов. Предполагаемый временной ряд начинается в нулевой момент времени с точным знанием x(0). Затем он использует оценку динамики для обновления оценки временного ряда для нескольких временных шагов.

Обратите внимание, что оценка точна только для нескольких временных шагов. Это общая характеристика хаотических временных рядов. Это свойство чувствительной зависимости от начальных условий, характерное для хаотических временных рядов. Небольшая первоначальная ошибка со временем усиливается. Мера расхождения временных рядов с почти одинаковыми начальными условиями известна как показатель Ляпунова .

Управление хаотичным временным рядом [ править ]

Мы предполагаем, что выходными данными логистической карты можно управлять с помощью управляющего параметра. $c[x(t),t]$ такой, что

{x}_{}^{}(t+1)=4x(t)[1-x(t)]+c[x(t),t]

.

Цель состоит в том, чтобы выбрать параметр управления таким образом, чтобы привести временной ряд к желаемому результату. $d(t)$ . Это можно сделать, если мы выберем параметр управления

c_{}^{}[x(t),t]\ {\stackrel {\mathrm {def} }{=}}\ -\varphi [x(t)]+d(t+1)

где

y[x(t)]\approx f[x(t)]=x(t+1)-c[x(t),t]

является приближением к основной естественной динамике системы.

Алгоритм обучения имеет вид

a_{i}(t+1)=a_{i}(t)+\nu \varepsilon {\frac {u{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}u^{2}{\big (}\left\Vert \mathbf {x} (t)-\mathbf {c} _{i}\right\Vert {\big )}}}

где

\varepsilon \ {\stackrel {\mathrm {def} }{=}}\ f[x(t)]-\varphi [x(t)]=x(t+1)-c[x(t),t]-\varphi [x(t)]=x(t+1)-d(t+1)

.

См. также [ править ]

Ссылки [ править ]

^ Брумхед, Д.С.; Лоу, Дэвид (1988). Радиальные базисные функции, многопараметрическая функциональная интерполяция и адаптивные сети (Технический отчет). РСРЭ . 4148. Архивировано из оригинала 9 апреля 2013 года.
^ Брумхед, Д.С.; Лоу, Дэвид (1988). «Многомерная функциональная интерполяция и адаптивные сети» (PDF) . Сложные системы . 2 : 321–355. Архивировано (PDF) из оригинала 1 декабря 2020 г. Проверено 29 января 2019 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Швенкер, Фридхельм; Кестлер, Ганс А.; Пальм, Гюнтер (2001). «Три этапа обучения для сетей с радиальными базисными функциями». Нейронные сети . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . дои : 10.1016/s0893-6080(01)00027-2 . ПМИД 11411631 .
^ Бехайм, Ларби; Зитуни, Адель; Беллуар, Фабьен (январь 2004 г.). «Новый классификатор нейронных сетей RBF с оптимизированным количеством скрытых нейронов» .
^ Ибрикчи, Тургай; Брандт, Мэн; Ван, Гуаньюй; Ачиккар, Мустафа (23–26 октября 2002 г.). Расстояние Махаланобиса с радиальной сетью базисных функций на вторичных структурах белка . Материалы второй совместной 24-й ежегодной конференции и ежегодного осеннего собрания Общества биомедицинской инженерии . Общество инженерии в медицине и биологии, Труды ежегодной международной конференции IEEE . Том. 3. Хьюстон, Техас, США (опубликовано 6 января 2003 г.). стр. 2184–5. дои : 10.1109/IEMBS.2002.1053230 . ISBN 0-7803-7612-9 . ISSN 1094-687X .
^ Парк, Дж.; И.В. Сандберг (лето 1991 г.). «Универсальное приближение с использованием сетей с радиальными базисными функциями». Нейронные вычисления . 3 (2): 246–257. дои : 10.1162/neco.1991.3.2.246 . ПМИД 31167308 . S2CID 34868087 .

Дальнейшее чтение [ править ]

Дж. Муди и К. Дж. Даркен, «Быстрое обучение в сетях локально настроенных процессоров», Neural Computation, 1, 281–294 (1989). Также см. Сети радиальных базисных функций согласно Муди и Даркену.
Т. Поджо и Ф. Джирози, « Сети для аппроксимации и обучения », Proc. IEEE 78(9), 1484-1487 (1990).
Роджер Д. Джонс , Ю.К. Ли, К.В. Барнс, Г.В. Флейк, К. Ли, П.С. Льюис и С. Цянь, Аппроксимация функций и прогнозирование временных рядов с помощью нейронных сетей , Материалы Международной совместной конференции по нейронным сетям, 17–21 июня , с. И-649 (1990 г.).
Мартин Д. Буманн (2003). Радиальные базисные функции: теория и реализации . Кембриджский университет. ISBN 0-521-63338-9 .
Йи, Пол В. и Хайкин, Саймон (2001). Регуляризованные радиальные сети базисных функций: теория и приложения . Джон Уайли. ISBN 0-471-35349-3 .
Дэвис, Джон Р.; Коггешолл, Стивен В.; Джонс, Роджер Д .; Шутцер, Дэниел (1995). «Интеллектуальные системы безопасности». У Фридмана, Рой С.; Флейн, Роберт А.; Ледерман, Джесс (ред.). Искусственный интеллект на рынках капитала . Чикаго: Ирвин. ISBN 1-55738-811-3 .
Саймон Хайкин (1999). Нейронные сети: комплексный фундамент (2-е изд.). Река Аппер-Сэдл, Нью-Джерси: Прентис-Холл. ISBN 0-13-908385-5 .
С. Чен, К.Ф.Н. Коуэн и П.М. Грант, « Алгоритм обучения ортогональным методом наименьших квадратов для сетей с радиальными базисными функциями », Транзакции IEEE в нейронных сетях, том 2, № 2 (март) 1991 г.

[1] Брумхед, Д.С.; Лоу, Дэвид (1988). Радиальные базисные функции, многопараметрическая функциональная интерполяция и адаптивные сети (Технический отчет). РСРЭ . 4148. Архивировано из оригинала 9 апреля 2013 года.

[2] Брумхед, Д.С.; Лоу, Дэвид (1988). «Многомерная функциональная интерполяция и адаптивные сети» (PDF) . Сложные системы . 2 : 321–355. Архивировано (PDF) из оригинала 1 декабря 2020 г. Проверено 29 января 2019 г.

[schwenker-3] Перейти обратно: Перейти обратно: ^а ^б Швенкер, Фридхельм; Кестлер, Ганс А.; Пальм, Гюнтер (2001). «Три этапа обучения для сетей с радиальными базисными функциями». Нейронные сети . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . дои : 10.1016/s0893-6080(01)00027-2 . ПМИД 11411631 .

[4] Бехайм, Ларби; Зитуни, Адель; Беллуар, Фабьен (январь 2004 г.). «Новый классификатор нейронных сетей RBF с оптимизированным количеством скрытых нейронов» .

[5] Ибрикчи, Тургай; Брандт, Мэн; Ван, Гуаньюй; Ачиккар, Мустафа (23–26 октября 2002 г.). Расстояние Махаланобиса с радиальной сетью базисных функций на вторичных структурах белка . Материалы второй совместной 24-й ежегодной конференции и ежегодного осеннего собрания Общества биомедицинской инженерии . Общество инженерии в медицине и биологии, Труды ежегодной международной конференции IEEE . Том. 3. Хьюстон, Техас, США (опубликовано 6 января 2003 г.). стр. 2184–5. дои : 10.1109/IEMBS.2002.1053230 . ISBN 0-7803-7612-9 . ISSN 1094-687X .

[Park-6] Парк, Дж.; И.В. Сандберг (лето 1991 г.). «Универсальное приближение с использованием сетей с радиальными базисными функциями». Нейронные вычисления . 3 (2): 246–257. дои : 10.1162/neco.1991.3.2.246 . ПМИД 31167308 . S2CID 34868087 .

[1]

[2]

[3]

[4]

[5]

[6]

Сетевая архитектура [ править ]

Нормализованный [ править ]

Нормализованная архитектура [ править ]

мотивация нормализации ​ Теоретическая

Локальные линейные модели [ править ]

Обучение [ править ]

Интерполяция [ править ]

Аппроксимация функции [ править ]

Обучение базовых функциональных центров [ править ]

линейных Псевдообратное решение для весов

линейных Обучение градиентному спуску весов

линейных операторов проектирования Обучение весов

Примеры [ править ]

Логистическая карта [ править ]

Аппроксимация функции [ править ]

Ненормированные радиальные базисные функции [ править ]

Нормализованные радиальные базисные функции [ править ]

временных Прогнозирование рядов ​

Управление хаотичным временным рядом [ править ]

См. также [ править ]

Ссылки [ править ]

Дальнейшее чтение [ править ]

мотивация нормализации Теоретическая

временных Прогнозирование рядов