Jump to content

Математика искусственных нейронных сетей

Искусственная нейронная сеть (ИНС) сочетает биологические принципы с расширенной статистикой для решения проблем в таких областях, как распознавание образов и игровой процесс. ИНС принимают базовую модель аналогов нейронов, связанных друг с другом различными способами.

Структура

[ редактировать ]

Нейрон с меткой получение входных данных из нейронов-предшественников состоит из следующих компонентов: [1]

  • активация , состояние нейрона в зависимости от дискретного параметра времени,
  • дополнительный порог , который остается неизменным, пока не будет изменен в результате обучения,
  • функция активации который вычисляет новую активацию в заданный момент времени от , и чистый вход порождая отношение
  • и функция вывода вычисление результата активации

Часто выходная функция — это просто тождественная функция .

не Входной нейрон имеет предшественника, но служит входным интерфейсом для всей сети. Аналогично, выходной нейрон не имеет преемника и, таким образом, служит выходным интерфейсом всей сети.

Функция распространения

[ редактировать ]

Функция распространения вычисляет входные данные к нейрону из выходов и обычно имеет вид [1]

Предвзятость

[ редактировать ]

Можно добавить термин смещения, изменив форму на следующую: [2]

где это предвзятость.

Нейронные сети как функции

[ редактировать ]

Модели нейронных сетей можно рассматривать как определение функции, которая принимает входные данные (наблюдение) и выдает выходные данные (решение). или распределение по или оба и . Иногда модели тесно связаны с определенным правилом обучения. Обычное использование фразы «модель ИНС» на самом деле представляет собой определение класса таких функций (где члены класса получаются путем изменения параметров, весов соединений или особенностей архитектуры, таких как количество нейронов, количество слоев). или их связь).

Математически сетевая функция нейрона определяется как композиция других функций , которые в дальнейшем можно разложить на другие функции. Это удобно представить в виде сетевой структуры со стрелками, обозначающими зависимости между функциями. Широко используемым типом композиции является нелинейная взвешенная сумма , где , где (обычно называемую функцией активации [3] ) — это некоторая предопределенная функция, такая как гиперболический тангенс , сигмовидная функция , функция softmax или функция выпрямителя . Важной характеристикой функции активации является то, что она обеспечивает плавный переход при изменении входных значений, т. е. небольшое изменение входных данных приводит к небольшому изменению выходных данных. Следующее относится к набору функций как вектор .

График зависимости ИНС

На этом рисунке изображено такое разложение , причем зависимости между переменными обозначены стрелками. Их можно интерпретировать двояко.

Первое представление — функциональное: ввод преобразуется в трехмерный вектор , который затем преобразуется в двумерный вектор , который окончательно преобразуется в . Эта точка зрения чаще всего встречается в контексте оптимизации .

Второй взгляд — вероятностный: случайная величина зависит от случайной величины , что зависит от , который зависит от случайной величины . Это представление чаще всего встречается в контексте графических моделей .

Эти две точки зрения во многом эквивалентны. В любом случае для этой конкретной архитектуры компоненты отдельных уровней независимы друг от друга (например, компоненты независимы друг от друга, учитывая их входные данные ). Это, естественно, обеспечивает определенную степень параллелизма в реализации.

Два отдельных изображения рекуррентного графа зависимостей ИНС.

Сети, подобные предыдущей, обычно называют прямыми , поскольку их граф представляет собой ориентированный ациклический граф . Сети с циклами обычно называют рекуррентными . Такие сети обычно изображаются так, как показано вверху рисунка, где показано как зависящее от самого себя. Однако подразумеваемая временная зависимость не показана.

Обратное распространение ошибки

[ редактировать ]

Алгоритмы обучения обратного распространения ошибки делятся на три категории:

Алгоритм

[ редактировать ]

Позволять быть сетью с связи, входы и выходы.

Ниже, обозначим векторы в , векторы в , и векторы в . Они называются входами , выходами и весами соответственно.

Сеть соответствует функции что, учитывая вес , отображает вход к выходу .

В обучении с учителем — последовательность обучающих примеров. производит последовательность весов начиная с некоторого начального веса , обычно выбираются случайно.

Эти веса вычисляются по очереди: сначала вычислите используя только для . Тогда результат алгоритма будет , давая новую функцию . Вычисления на каждом этапе одинаковы, поэтому только случай описано.

рассчитывается из учитывая переменный вес и применив градиентный спуск к функции найти локальный минимум, начиная с .

Это делает минимизирующий вес, найденный градиентным спуском.

Изучение псевдокода

[ редактировать ]

Для реализации приведенного выше алгоритма необходимы явные формулы для градиента функции где функция .

Алгоритм обучения можно разделить на две фазы: распространение и обновление веса.

Распространение

[ редактировать ]

Распространение включает в себя следующие этапы:

  • Распространение вперед по сети для генерации выходных значений.
  • Расчет стоимости (срок ошибки)
  • Распространение выходных активаций обратно через сеть с использованием целевого шаблона обучения для генерации дельт (разницы между целевыми и фактическими выходными значениями) всех выходных и скрытых нейронов.

Обновление веса

[ редактировать ]

Для каждого веса:

  • Умножьте выходную дельту веса и входную активацию, чтобы найти градиент веса.
  • Вычтите соотношение (процент) градиента веса из веса.

Скорость обучения – это соотношение (процент), влияющее на скорость и качество обучения. Чем больше это соотношение, тем быстрее обучается нейрон, но чем оно ниже, тем точнее обучение. Знак градиента веса указывает, изменяется ли ошибка прямо или обратно пропорционально весу. Поэтому вес необходимо обновлять в противоположном направлении, «спускаясь» по градиенту.

Обучение повторяется (в новых пакетах) до тех пор, пока сеть не будет работать адекватно.

Псевдокод

[ редактировать ]

Псевдокод алгоритма стохастического градиентного спуска для обучения трехслойной сети (один скрытый слой):

initialize network weights (often small random values)
do
    for each training example named ex do
        prediction = neural-net-output(network, ex)  // forward pass
        actual = teacher-output(ex)
        compute error (prediction - actual) at the output units
        compute  for all weights from hidden layer to output layer  // backward pass
        compute  for all weights from input layer to hidden layer   // backward pass continued
        update network weights // input layer not modified by error estimate
until error rate becomes acceptably low
return the network

Строки, помеченные как «обратный проход», могут быть реализованы с использованием алгоритма обратного распространения ошибки, который вычисляет градиент ошибки сети относительно модифицируемых весов сети. [5]

  1. ^ Jump up to: а б Зелл, Андреас (2003). «глава 5.2». сетей ( Моделирование нейронных на немецком языке) (1-е изд.). Эддисон Уэсли. ISBN  978-3-89319-554-1 . ОСЛК   249017987 .
  2. ^ ДОУСОН, КРИСТИАН В. (1998). «Подход на основе искусственных нейронных сетей к моделированию стока осадков» . Журнал гидрологических наук . 43 (1): 47–66. Бибкод : 1998HydSJ..43...47D . дои : 10.1080/02626669809492102 .
  3. ^ «Словарь машинного обучения» . www.cse.unsw.edu.au. ​Архивировано из оригинала 26 августа 2018 г. Проверено 18 августа 2019 г.
  4. ^ М. Форузанфар; ХР Даджани; В.З. Гроза; М. Болич и С. Раджан (июль 2010 г.). Сравнение алгоритмов обучения нейронных сетей с прямой связью для осциллометрической оценки артериального давления . 4-й Межд. Семинар «Приложения мягких вычислений». Арад, Румыния: IEEE.
  5. ^ Вербос, Пол Дж. (1994). Корни обратного распространения ошибки . От упорядоченных производных к нейронным сетям и политическому прогнозированию. Нью-Йорк, штат Нью-Йорк: John Wiley & Sons, Inc.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bb2436d8782ce592dd41b785918c6430__1714779540
URL1:https://arc.ask3.ru/arc/aa/bb/30/bb2436d8782ce592dd41b785918c6430.html
Заголовок, (Title) документа по адресу, URL1:
Mathematics of artificial neural networks - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)