Правило обучения

обучения искусственной нейронной сети — Правило или процесс это метод, математическая логика или алгоритм , который улучшает производительность сети и/или время обучения. Обычно это правило применяется неоднократно по сети. Это делается путем обновления весов и смещения. ^{[ сломанный якорь ]} уровни сети, когда сеть моделируется в конкретной среде данных. ^[1] Правило обучения может принимать существующие условия (веса и смещения) сети и сравнивать ожидаемый результат и фактический результат сети, чтобы дать новые и улучшенные значения весов и смещений. ^[2] В зависимости от сложности моделируемой модели, правило обучения сети может быть простым, например, логический элемент XOR или среднеквадратическая ошибка , или сложным, как результат системы дифференциальных уравнений .

Правило обучения является одним из факторов, определяющих, насколько быстро и точно можно разработать искусственную сеть. В зависимости от процесса разработки сети существует три основные модели машинного обучения:

Фон

Многие методы обучения в машинном обучении работают аналогично друг другу и основаны друг на друге, что затрудняет их классификацию по четким категориям. Но в широком смысле их можно понимать как 4 категории методов обучения, хотя эти категории не имеют четких границ и, как правило, относятся к нескольким категориям методов обучения. ^[3] -

Хеббиан - Неокогнитрон , Состояние мозга в коробке ^[4]
Градиентный спуск — ADALINE , Сеть Хопфилда , Рекуррентная нейронная сеть
Конкурентно - обучающееся векторное квантование , Самоорганизующаяся карта признаков , Теория адаптивного резонанса
Стохастик — машина Больцмана , машина Коши

Следует отметить, что хотя может показаться, что эти правила обучения основаны на схожих идеях, у них есть тонкие различия, поскольку они являются обобщением или применением предыдущего правила, и, следовательно, имеет смысл изучать их отдельно, исходя из их происхождения. и намерения.

Хеббианское обучение

Разработан Дональдом Хеббом в 1949 году для описания возбуждения биологических нейронов. В середине 1950-х годов его также стали применять для компьютерного моделирования нейронных сетей.

$\Delta w_{i}=\eta x_{i}y$

Где $\eta$ представляет скорость обучения, $x_{i}$ представляет вход нейрона i, а y — выход нейрона. Было показано, что правило Хебба в своей основной форме неустойчиво. Правило Оджи и теория BCM — это другие правила обучения, построенные на основе правила Хебба или наряду с ним при изучении биологических нейронов.

Правило обучения перцептрона (PLR)

Правило обучения перцептрона основано на предположении Хеббиана и использовалось Фрэнком Розенблаттом в его перцептроне в 1958 году. Сеть передается функции активации ( передачи ), а выходные данные функции используются для корректировки весов. Сигнал обучения — это разница между желаемым ответом и фактическим ответом нейрона. Ступенчатая функция часто используется в качестве функции активации, а выходные значения обычно ограничиваются значениями -1, 0 или 1.

Веса обновляются с

$w_{\text{new}}=w_{\text{old}}+\eta (t-o)x_{i}$ где «t» — целевое значение, « o» — выходной сигнал перцептрона, и $\eta$ называется скоростью обучения.

Алгоритм сходится к правильной классификации, если: ^[5]

обучающие данные линейно разделимы *
$\eta$ достаточно мала (хотя и меньше $\eta$ обычно означает более длительное время обучения и больше эпох)

*Следует также отметить, что однослойный персептрон с этим правилом обучения не способен работать с линейно неразделимыми входными данными, и, следовательно, проблему XOR нельзя решить, используя только это правило. ^[6]

Обратное распространение ошибки

Говорят, что Сеппо Линнаинмаа в 1970 году разработал алгоритм обратного распространения ошибки. ^[7] но истоки алгоритма восходят к 1960-м годам, и в него внесли множество вкладов. Это обобщение алгоритма наименьших средних квадратов в линейном перцептроне и правила дельта-обучения.

Он реализует поиск по градиентному спуску в пространстве возможных весов сети, итеративно уменьшая ошибку между целевыми значениями и выходными данными сети.

Обучение Видроу-Хоффа (правило дельта-обучения)

Подобно правилу обучения перцептрона, но имеет другое происхождение. Он был разработан для использования в сети ADALAINE , которая отличается от Персептрона главным образом условиями обучения. Веса корректируются в соответствии со взвешенной суммой входных данных (сеть), тогда как в персептроне знак взвешенной суммы был полезен для определения выходных данных, поскольку порог был установлен на 0, -1 или +1. Это отличает ADALINE от обычного перцептрона.

Правило дельты (DR) похоже на правило обучения персептрона (PLR), но с некоторыми отличиями:

Ошибка (δ) в DR не ограничивается значениями 0, 1 или -1 (как в PLR), но может иметь любое значение.
DR можно получить для любой дифференцируемой функции вывода/активации f, тогда как в PLR работает только для пороговой функции вывода.

Иногда, только когда правило Видроу-Хоффа применяется конкретно к двоичным целям, его называют правилом дельты, но эти термины, похоже, часто используются как синонимы. Правило дельты рассматривается как частный случай алгоритма обратного распространения ошибки .

Правило Дельты также очень похоже на модель Рескорлы-Вагнера, согласно которой возникает павловское обусловливание. ^[8]

Конкурентное обучение

Конкурентное обучение считается вариантом обучения Хебба , но оно достаточно особенное, чтобы его можно было обсуждать отдельно. Конкурентное обучение работает за счет повышения специализации каждого узла в сети. Он хорошо подходит для поиска кластеров в данных.

Модели и алгоритмы, основанные на принципе конкурентного обучения, включают векторное квантование и самоорганизующиеся карты (карты Кохонена).

См. также

Ссылки

^ Саймон Хайкин (16 июля 1998 г.). «Глава 2: Процессы обучения». Нейронные сети: комплексная основа (2-е изд.). Прентис Холл. стр. 50–104. ISBN 978-8178083001 . Проверено 2 мая 2012 г.
^ С. Рассел, П. Норвиг (1995). «Глава 18: Обучение на примерах». Искусственный интеллект: современный подход (3-е изд.). Прентис Холл. стр. 693–859. ISBN 0-13-103805-2 . Проверено 20 ноября 2013 г.
^ Раджасекаран, Сундамурти. (2003). Нейронные сети, нечеткая логика и генетические алгоритмы: синтез и приложения . Пай, Г. А. Виджаялакшми. (Восточная экономика под ред.). Нью-Дели: Прентис-Холл Индии. ISBN 81-203-2186-3 . OCLC 56960832 .
^ Голден, Ричард М. (1 марта 1986 г.). «Нейронная модель «Состояние мозга в коробке» представляет собой алгоритм градиентного спуска». Журнал математической психологии . 30 (1): 73–80. дои : 10.1016/0022-2496(86)90043-X . ISSN 0022-2496 .
^ Шиванандам, С.Н. (2007). Принципы мягких вычислений . Дипа, С.Н. (1-е изд.). Нью-Дели: Wiley India. ISBN 978-81-265-1075-7 . OCLC 760996382 .
^ Минский, Марвин, 1927–2016 гг. (1969). Перцептроны; введение в вычислительную геометрию . Паперт, Сеймур. Кембридж, Массачусетс: MIT Press. ISBN 0-262-13043-2 . ОСЛК 5034 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка )
^ Шмидхубер, Юрген (январь 2015 г.). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . дои : 10.1016/j.neunet.2014.09.003 . ПМИД 25462637 . S2CID 11715509 .
^ Рескорла, Роберт (31 марта 2008 г.). «Модель Рескорлы-Вагнера» . Схоларпедия . 3 (3): 2237. Бибкод : 2008SchpJ...3.2237R . дои : 10.4249/scholarpedia.2237 . ISSN 1941-6016 .

[Simon_Haykin-1] Саймон Хайкин (16 июля 1998 г.). «Глава 2: Процессы обучения». Нейронные сети: комплексная основа (2-е изд.). Прентис Холл. стр. 50–104. ISBN 978-8178083001 . Проверено 2 мая 2012 г.

[S_Russell,_P_Norvig-2] С. Рассел, П. Норвиг (1995). «Глава 18: Обучение на примерах». Искусственный интеллект: современный подход (3-е изд.). Прентис Холл. стр. 693–859. ISBN 0-13-103805-2 . Проверено 20 ноября 2013 г.

[3] Раджасекаран, Сундамурти. (2003). Нейронные сети, нечеткая логика и генетические алгоритмы: синтез и приложения . Пай, Г. А. Виджаялакшми. (Восточная экономика под ред.). Нью-Дели: Прентис-Холл Индии. ISBN 81-203-2186-3 . OCLC 56960832 .

[4] Голден, Ричард М. (1 марта 1986 г.). «Нейронная модель «Состояние мозга в коробке» представляет собой алгоритм градиентного спуска». Журнал математической психологии . 30 (1): 73–80. дои : 10.1016/0022-2496(86)90043-X . ISSN 0022-2496 .

[5] Шиванандам, С.Н. (2007). Принципы мягких вычислений . Дипа, С.Н. (1-е изд.). Нью-Дели: Wiley India. ISBN 978-81-265-1075-7 . OCLC 760996382 .

[6] Минский, Марвин, 1927–2016 гг. (1969). Перцептроны; введение в вычислительную геометрию . Паперт, Сеймур. Кембридж, Массачусетс: MIT Press. ISBN 0-262-13043-2 . ОСЛК 5034 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка )

[7] Шмидхубер, Юрген (январь 2015 г.). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . дои : 10.1016/j.neunet.2014.09.003 . ПМИД 25462637 . S2CID 11715509 .

[8] Рескорла, Роберт (31 марта 2008 г.). «Модель Рескорлы-Вагнера» . Схоларпедия . 3 (3): 2237. Бибкод : 2008SchpJ...3.2237R . дои : 10.4249/scholarpedia.2237 . ISSN 1941-6016 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]