Математика искусственных нейронных сетей
Искусственная нейронная сеть (ИНС) сочетает биологические принципы с расширенной статистикой для решения проблем в таких областях, как распознавание образов и игровой процесс. ИНС принимают базовую модель аналогов нейронов, связанных друг с другом различными способами.
Структура
[ редактировать ]Нейрон
[ редактировать ]Нейрон с меткой получение входных данных из нейронов-предшественников состоит из следующих компонентов: [1]
- активация , состояние нейрона в зависимости от дискретного параметра времени,
- дополнительный порог , который остается неизменным, пока не будет изменен в результате обучения,
- функция активации который вычисляет новую активацию в заданный момент времени от , и чистый вход порождая отношение
- и функция вывода вычисление результата активации
Часто выходная функция — это просто тождественная функция .
не Входной нейрон имеет предшественника, но служит входным интерфейсом для всей сети. Аналогично, выходной нейрон не имеет преемника и, таким образом, служит выходным интерфейсом всей сети.
Функция распространения
[ редактировать ]Функция распространения вычисляет входные данные к нейрону из выходов и обычно имеет вид [1]
Предвзятость
[ редактировать ]Можно добавить термин смещения, изменив форму на следующую: [2]
- где это предвзятость.
Нейронные сети как функции
[ редактировать ]Модели нейронных сетей можно рассматривать как определение функции, которая принимает входные данные (наблюдение) и выдает выходные данные (решение). или распределение по или оба и . Иногда модели тесно связаны с определенным правилом обучения. Обычное использование фразы «модель ИНС» на самом деле представляет собой определение класса таких функций (где члены класса получаются путем изменения параметров, весов соединений или особенностей архитектуры, таких как количество нейронов, количество слоев). или их связь).
Математически сетевая функция нейрона определяется как композиция других функций , которые в дальнейшем можно разложить на другие функции. Это удобно представить в виде сетевой структуры со стрелками, обозначающими зависимости между функциями. Широко используемым типом композиции является нелинейная взвешенная сумма , где , где (обычно называемую функцией активации [3] ) — это некоторая предопределенная функция, такая как гиперболический тангенс , сигмовидная функция , функция softmax или функция выпрямителя . Важной характеристикой функции активации является то, что она обеспечивает плавный переход при изменении входных значений, т. е. небольшое изменение входных данных приводит к небольшому изменению выходных данных. Следующее относится к набору функций как вектор .
На этом рисунке изображено такое разложение , причем зависимости между переменными обозначены стрелками. Их можно интерпретировать двояко.
Первое представление — функциональное: ввод преобразуется в трехмерный вектор , который затем преобразуется в двумерный вектор , который окончательно преобразуется в . Эта точка зрения чаще всего встречается в контексте оптимизации .
Второй взгляд — вероятностный: случайная величина зависит от случайной величины , что зависит от , который зависит от случайной величины . Это представление чаще всего встречается в контексте графических моделей .
Эти две точки зрения во многом эквивалентны. В любом случае для этой конкретной архитектуры компоненты отдельных уровней независимы друг от друга (например, компоненты независимы друг от друга, учитывая их входные данные ). Это, естественно, обеспечивает определенную степень параллелизма в реализации.
Сети, подобные предыдущей, обычно называют прямыми , поскольку их граф представляет собой ориентированный ациклический граф . Сети с циклами обычно называют рекуррентными . Такие сети обычно изображаются так, как показано вверху рисунка, где показано как зависящее от самого себя. Однако подразумеваемая временная зависимость не показана.
Обратное распространение ошибки
[ редактировать ]Алгоритмы обучения обратного распространения ошибки делятся на три категории:
- крутой спуск (с переменной скоростью обучения и импульсом , устойчивым обратным распространением ошибки );
- квазиньютоновский ( Бройден-Флетчер-Гольдфарб-Шанно , секанс на один шаг );
- Левенберга – Марквардта и сопряженный градиент (обновление Флетчера – Ривза, обновление Полака – Рибьера, перезапуск Пауэлла – Била, масштабированный сопряженный градиент). [4]
Алгоритм
[ редактировать ]Позволять быть сетью с связи, входы и выходы.
Ниже, обозначим векторы в , векторы в , и векторы в . Они называются входами , выходами и весами соответственно.
Сеть соответствует функции что, учитывая вес , отображает вход к выходу .
В обучении с учителем — последовательность обучающих примеров. производит последовательность весов начиная с некоторого начального веса , обычно выбираются случайно.
Эти веса вычисляются по очереди: сначала вычислите используя только для . Тогда результат алгоритма будет , давая новую функцию . Вычисления на каждом этапе одинаковы, поэтому только случай описано.
рассчитывается из учитывая переменный вес и применив градиентный спуск к функции найти локальный минимум, начиная с .
Это делает минимизирующий вес, найденный градиентным спуском.
Изучение псевдокода
[ редактировать ]Для реализации приведенного выше алгоритма необходимы явные формулы для градиента функции где функция .
Алгоритм обучения можно разделить на две фазы: распространение и обновление веса.
Распространение
[ редактировать ]Распространение включает в себя следующие этапы:
- Распространение вперед по сети для генерации выходных значений.
- Расчет стоимости (срок ошибки)
- Распространение выходных активаций обратно через сеть с использованием целевого шаблона обучения для генерации дельт (разницы между целевыми и фактическими выходными значениями) всех выходных и скрытых нейронов.
Обновление веса
[ редактировать ]Для каждого веса:
- Умножьте выходную дельту веса и входную активацию, чтобы найти градиент веса.
- Вычтите соотношение (процент) градиента веса из веса.
Скорость обучения – это соотношение (процент), влияющее на скорость и качество обучения. Чем больше это соотношение, тем быстрее обучается нейрон, но чем оно ниже, тем точнее обучение. Знак градиента веса указывает, изменяется ли ошибка прямо или обратно пропорционально весу. Поэтому вес необходимо обновлять в противоположном направлении, «спускаясь» по градиенту.
Обучение повторяется (в новых пакетах) до тех пор, пока сеть не будет работать адекватно.
Псевдокод
[ редактировать ]Псевдокод алгоритма стохастического градиентного спуска для обучения трехслойной сети (один скрытый слой):
initialize network weights (often small random values) do for each training example named ex do prediction = neural-net-output(network, ex) // forward pass actual = teacher-output(ex) compute error (prediction - actual) at the output units compute for all weights from hidden layer to output layer // backward pass compute for all weights from input layer to hidden layer // backward pass continued update network weights // input layer not modified by error estimate until error rate becomes acceptably low return the network
Строки, помеченные как «обратный проход», могут быть реализованы с использованием алгоритма обратного распространения ошибки, который вычисляет градиент ошибки сети относительно модифицируемых весов сети. [5]
Ссылки
[ редактировать ]- ^ Jump up to: а б Зелл, Андреас (2003). «глава 5.2». сетей ( Моделирование нейронных на немецком языке) (1-е изд.). Эддисон Уэсли. ISBN 978-3-89319-554-1 . ОСЛК 249017987 .
- ^ ДОУСОН, КРИСТИАН В. (1998). «Подход на основе искусственных нейронных сетей к моделированию стока осадков» . Журнал гидрологических наук . 43 (1): 47–66. Бибкод : 1998HydSJ..43...47D . дои : 10.1080/02626669809492102 .
- ^ «Словарь машинного обучения» . www.cse.unsw.edu.au. Архивировано из оригинала 26 августа 2018 г. Проверено 18 августа 2019 г.
- ^ М. Форузанфар; ХР Даджани; В.З. Гроза; М. Болич и С. Раджан (июль 2010 г.). Сравнение алгоритмов обучения нейронных сетей с прямой связью для осциллометрической оценки артериального давления . 4-й Межд. Семинар «Приложения мягких вычислений». Арад, Румыния: IEEE.
- ^ Вербос, Пол Дж. (1994). Корни обратного распространения ошибки . От упорядоченных производных к нейронным сетям и политическому прогнозированию. Нью-Йорк, штат Нью-Йорк: John Wiley & Sons, Inc.