Сеть гипербазисных функций
В машинном обучении сеть базисных функций Hyper или сеть HyperBF представляет собой обобщение концепции сетей радиальных базисных функций (RBF) , где Махаланобису вместо евклидовой меры расстояния используется расстояние, подобное . Сети гипербазисных функций были впервые представлены Поджо и Джирози в статье 1990 года «Сети для аппроксимации и обучения». [1] [2]
Сетевая архитектура
[ редактировать ]Типичная сетевая структура HyperBF состоит из реального входного вектора. , скрытый слой функций активации и слой линейного вывода. Выход сети является скалярной функцией входного вектора, , определяется
где количество нейронов в скрытом слое, и центр и вес нейрона . Функция активации в сети HyperBF принимает следующий вид
где является положительно определенным матрица. В зависимости от применения используются следующие типы матриц обычно считаются [3]
- , где . Этот случай соответствует обычной сети RBF.
- , где . В этом случае базисные функции радиально симметричны, но масштабируются с разной шириной.
- , где . Каждый нейрон имеет эллиптическую форму и разный размер.
- Положительно определенная матрица, но не диагональная.
Обучение
[ редактировать ]Обучение сетей HyperBF включает оценку весов. , форма и центры нейронов и . Поджио и Джирози (1990) описывают метод обучения с использованием движущихся центров и адаптируемой формы нейронов. Краткое описание метода представлено ниже.
Рассмотрим квадратичные потери сети . В оптимальном случае должны быть соблюдены следующие условия:
где . Тогда в методе градиентного спуска значения которые минимизируют можно найти как устойчивую неподвижную точку следующей динамической системы:
где определяет скорость сходимости.
В целом, обучение сетей HyperBF может оказаться сложной вычислительной задачей. Более того, высокая степень свободы HyperBF приводит к переобучению и плохому обобщению. Однако сети HyperBF имеют важное преимущество: для обучения сложным функциям достаточно небольшого количества нейронов. [2]
Ссылки
[ редактировать ]- ^ Т. Поджо и Ф. Джирози (1990). «Сети для аппроксимации и обучения». Учеб. IEEE Том. 78, № 9 : 1481-1497.
- ^ Jump up to: а б Р.Н. Махди, ЕС.Рушка (2011). «Сокращенные сети HyperBF: регуляризация путем явного снижения сложности и масштабированного обучения на основе Rprop» . Транзакции нейронных сетей IEEE 2 : 673–686.
- ^ Ф. Швенкер, Х. А. Кестлер и Г. Палм (2001). «Три фазы обучения для сети с радиальными базисными функциями» Neural Netw. 14 :439-458.