Архитектура радиальной сети базисных функций. Входной вектор используется в качестве входных данных для всех радиальных базисных функций, каждая из которых имеет разные параметры. Выходные данные сети представляют собой линейную комбинацию выходных сигналов радиальных базисных функций.
Сети с радиальной базисной функцией (RBF) обычно имеют три уровня: входной уровень, скрытый уровень с нелинейной функцией активации RBF и линейный выходной уровень. Входные данные можно смоделировать как вектор действительных чисел. . Выходной сигнал сети тогда является скалярной функцией входного вектора: , и определяется выражением
где — количество нейронов в скрытом слое, центральный вектор нейрона , и это вес нейрона в линейном выходном нейроне. Функции, которые зависят только от расстояния от центрального вектора, радиально симметричны относительно этого вектора, отсюда и название радиальная базисная функция. В базовой форме все входы подключены к каждому скрытому нейрону. обычно За норму принимается евклидово расстояние (хотя расстояние Махаланобиса , по-видимому, лучше работает с распознаванием образов). [4] [5] [ редакция ] ), а радиальная базисная функция обычно считается гауссовой
.
Гауссовы базисные функции локальны по отношению к центральному вектору в том смысле, что
т.е. изменение параметров одного нейрона имеет лишь небольшой эффект для входных значений, которые находятся далеко от центра этого нейрона.
При определенных мягких условиях на форму функции активации сети RBF являются аппроксиматорами подмножества компактного универсальными . [6] Это означает, что RBF-сеть с достаточным количеством скрытых нейронов может аппроксимировать любую непрерывную функцию на замкнутом ограниченном множестве с произвольной точностью.
Параметры , , и определяются таким образом, который оптимизирует соответствие между и данные.
Две ненормализованные радиальные базисные функции в одном входном измерении. Базисные функциональные центры расположены в г. и .
Две нормализованные радиальные базисные функции в одном входном измерении ( сигмоиды ). Базисные функциональные центры расположены в г. и .
Три нормализованные радиальные базисные функции в одном входном измерении. Дополнительная базисная функция имеет центр в .
Четыре нормализованные радиальные базисные функции в одном входном измерении. Четвертая базисная функция имеет центр в . Обратите внимание, что первая базисная функция (темно-синяя) стала локализованной.
Существует теоретическое обоснование такой архитектуры в случае стохастического потока данных. Предположим , что используется стохастическое ядро для совместной плотности вероятности.
где веса и являются образцами данных, и мы требуем, чтобы ядра были нормализованы
и
.
Плотности вероятности во входном и выходном пространствах равны
и
Ожидание y с учетом входных данных является
где
- условная вероятность y при условии .Условная вероятность связана с совместной вероятностью посредством теоремы Байеса.
Иногда удобно расширить архитектуру, включив в нее локальные линейные модели. В этом случае архитектуры становятся, в первую очередь,
и
в ненормированном и нормализованном случаях соответственно. Здесь являются весами, подлежащими определению. Возможны также линейные члены более высокого порядка.
Сети RBF обычно обучаются на основе пар входных и целевых значений. , по двухшаговому алгоритму.
На первом этапе центральные векторы функций RBF в скрытом слое. Этот шаг можно выполнить несколькими способами; центры могут быть выбраны случайным образом из некоторого набора примеров или они могут быть определены с помощью кластеризации k-средних . Обратите внимание, что этот шаг не контролируется .
Второй шаг просто соответствует линейной модели с коэффициентами к выводам скрытого слоя относительно некоторой целевой функции. Общей целевой функцией, по крайней мере для оценки регрессии/функции, является функция наименьших квадратов:
где
.
Мы явно включили зависимость от весов. Минимизация целевой функции наименьших квадратов за счет оптимального выбора весов оптимизирует точность подбора.
Бывают случаи, когда необходимо оптимизировать несколько целей, таких как плавность и точность. В этом случае полезно оптимизировать регуляризованную целевую функцию, такую как
Сети RBF можно использовать для интерполяции функции. когда значения этой функции известны в конечном числе точек: . Взяв известные точки быть центрами радиальных базисных функций и оценивать значения базисных функций в тех же точках веса можно решить из уравнения
Можно показать, что интерполяционная матрица в приведенном выше уравнении невырождена, если точки различны, поэтому веса можно решить простой линейной алгеброй:
Если цель состоит не в выполнении строгой интерполяции, а в более общей аппроксимации или классификации функций, оптимизация несколько сложнее, поскольку нет очевидного выбора для центров. Обучение обычно проводится в два этапа: сначала фиксируется ширина и центры, а затем вес. Это можно оправдать, если принять во внимание различную природу нелинейных скрытых нейронов и линейного выходного нейрона.
Обучение базовых функциональных центров [ править ]
Центры базисных функций могут быть случайным образом выбраны среди входных экземпляров или получены с помощью алгоритма ортогонального наименьших квадратов или найдены путем кластеризации выборок и выбора средних значений кластера в качестве центров.
Ширина RBF обычно фиксируется на одном и том же значении, пропорциональном максимальному расстоянию между выбранными центрами.
После центров были фиксированы, веса, которые минимизируют ошибку на выходе, могут быть вычислены с помощью линейного псевдообратного решения:
,
где элементы G представляют собой значения радиальных базисных функций, оцененных в точках : .
Существование этого линейного решения означает, что в отличие от сетей многослойного перцептрона (MLP), сети RBF имеют явный минимизатор (когда центры фиксированы).
Другой возможный алгоритм обучения — градиентный спуск . При обучении градиентному спуску веса корректируются на каждом временном шаге путем перемещения их в направлении, противоположном градиенту целевой функции (таким образом позволяя найти минимум целевой функции),
где является «параметром обучения».
В случае обучения линейных весов , алгоритм становится
в ненормированном случае и
в нормированном случае.
Для локальных линейных архитектур обучение градиентному спуску
В случае обучения линейных весов и , алгоритм становится
в ненормированном случае и
в нормированном случае и
в локально-линейном случае.
Для одной базовой функции обучение операторов прогнозирования сводится к методу Ньютона .
Рисунок 6: Временной ряд логистической карты. Повторная итерация логистической карты порождает хаотичный временной ряд. Значения лежат между нулем и единицей. Здесь показаны 100 баллов обучения, использованных для обучения примерам в этом разделе. Веса c — это первые пять точек этого временного ряда.
Основные свойства радиальных базисных функций можно проиллюстрировать с помощью простой математической карты, логистической карты , которая отображает единичный интервал сам на себя. Его можно использовать для создания удобного потока данных прототипа. Логистическую карту можно использовать для изучения аппроксимации функций , прогнозирования временных рядов и теории управления . Карта возникла из области динамики населения и стала прототипом хаотических временных рядов. Карта в полностью хаотическом режиме имеет вид
где t — индекс времени. Значение x в момент времени t+1 является параболической функцией x в момент времени t. Это уравнение представляет собой основную геометрию хаотического временного ряда, созданного логистической картой.
Генерация временного ряда из этого уравнения является прямой задачей . Приведенные здесь примеры иллюстрируют обратную задачу ; идентификация основной динамики или фундаментального уравнения логистической карты на основе образцов временного ряда. Цель – найти оценку
Ненормированные радиальные базисные функции [ править ]
Архитектура
Рисунок 7: Ненормализованные базисные функции. Логистическая карта (синяя) и аппроксимация логистической карты (красная) после одного прохождения обучающего набора.
где
.
Поскольку входные данные являются скаляром , а не вектором , размерность входных данных равна единице. Мы выбираем количество базисных функций N = 5 и размер обучающего набора, равный 100 экземплярам, сгенерированным хаотичным временным рядом. Вес принимается константа, равная 5. Веса пять примеров из временного ряда. Веса проходят подготовку операторов проекции:
где скорость обучения принимается равным 0,3. Обучение проводится за один проход по 100 тренировочным точкам. Среднеквадратическая ошибка составляет 0,15.
Рисунок 8: Нормализованные базисные функции. Логистическая карта (синяя) и аппроксимация логистической карты (красная) после одного прохождения обучающего набора. Обратите внимание на улучшение по сравнению с ненормализованным случаем.
Нормализованные радиальные базисные функции [ править ]
Нормализованная архитектура RBF
где
.
Снова:
.
Опять же, мы выбираем количество базисных функций равным пяти, а размер обучающего набора — 100 экземпляров, созданных хаотичным временным рядом. Вес принимается константа, равная 6. Веса пять примеров из временного ряда. Веса проходят подготовку операторов проекции:
где скорость обучения снова принимается равным 0,3. Обучение проводится за один проход по 100 тренировочным точкам. Среднеквадратическая ошибка на тестовом наборе из 100 образцов составляет 0,084, что меньше ненормализованной ошибки. Нормализация приводит к повышению точности. Обычно точность нормализованных базисных функций увеличивается даже больше, чем ненормализованных функций, по мере увеличения размерности входных данных.
Рисунок 9: Нормализованные базисные функции. Логистическая карта (синяя) и аппроксимация логистической карты (красная) в зависимости от времени. Обратите внимание, что аппроксимация хороша только для нескольких временных шагов. Это общая характеристика хаотических временных рядов.
После оценки базовой геометрии временного ряда, как в предыдущих примерах, прогноз временного ряда можно сделать путем итерации:
.
На рисунке показано сравнение фактического и расчетного временных рядов. Предполагаемый временной ряд начинается в нулевой момент времени с точным знанием x(0). Затем он использует оценку динамики для обновления оценки временного ряда для нескольких временных шагов.
Обратите внимание, что оценка точна только для нескольких временных шагов. Это общая характеристика хаотических временных рядов. Это свойство чувствительной зависимости от начальных условий, характерное для хаотических временных рядов. Небольшая первоначальная ошибка со временем усиливается. Мера расхождения временных рядов с почти одинаковыми начальными условиями известна как показатель Ляпунова .
Рисунок 10: Управление логистической картой. Системе позволено развиваться естественным путем в течение 49 временных шагов. В момент времени 50 включается управление. Желаемая траектория временного ряда выделена красным цветом. Подконтрольная система изучает основную динамику и доводит временной ряд до желаемого результата. Архитектура такая же, как и в примере прогнозирования временных рядов.
Мы предполагаем, что выходными данными логистической карты можно управлять с помощью управляющего параметра. такой, что
.
Цель состоит в том, чтобы выбрать параметр управления таким образом, чтобы привести временной ряд к желаемому результату. . Это можно сделать, если мы выберем параметр управления
где
является приближением к основной естественной динамике системы.
Arc.Ask3.Ru Номер скриншота №: 55dd4531033e9f0447431dc3a8babe27__1714493280 URL1:https://arc.ask3.ru/arc/aa/55/27/55dd4531033e9f0447431dc3a8babe27.html Заголовок, (Title) документа по адресу, URL1: Radial basis function network - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)