~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 641DEADA193797E4D4E7CB9CA898D60E__1716219240 ✰
Заголовок документа оригинал.:
✰ Recurrent neural network - Wikipedia ✰
Заголовок документа перевод.:
✰ Рекуррентная нейронная сеть — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Recurrent_neural_network ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/64/0e/641deada193797e4d4e7cb9ca898d60e.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/64/0e/641deada193797e4d4e7cb9ca898d60e__translat.html ✰
Дата и время сохранения документа:
✰ 09.06.2024 13:44:37 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 20 May 2024, at 18:34 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Рекуррентная нейронная сеть — Википедия Jump to content

Рекуррентная нейронная сеть

Из Википедии, бесплатной энциклопедии

Рекуррентная нейронная сеть ( RNN ) — это один из двух широких типов искусственных нейронных сетей , характеризующийся направлением потока информации между ее слоями. В отличие от однонаправленной нейронной сети прямого распространения , это двунаправленная искусственная нейронная сеть, что означает, что она позволяет выходным данным некоторых узлов влиять на последующий ввод в те же узлы. Их способность использовать внутреннее состояние (память) для обработки произвольных последовательностей входных данных. [1] [2] [3] делает их применимыми для таких задач, как несегментированное, связанное распознавание рукописного текста. [4] или распознавание речи . [5] [6] Термин «рекуррентная нейронная сеть» используется для обозначения класса сетей с бесконечной импульсной характеристикой , тогда как « сверточная нейронная сеть » относится к классу сетей с конечной импульсной характеристикой. Оба класса сетей демонстрируют временное динамическое поведение . [7] Конечная импульсная рекуррентная сеть представляет собой направленный ациклический граф , который можно развернуть и заменить нейронной сетью строго прямого распространения, тогда как бесконечная импульсная рекуррентная сеть представляет собой ориентированный циклический граф , который не может быть развернут.

Дополнительные сохраненные состояния и хранилище под непосредственным управлением сети могут быть добавлены как в бесконечно-импульсные , так и в конечно-импульсные сети. Другая сеть или граф также может заменить хранилище, если оно включает временные задержки или петли обратной связи. Такие контролируемые состояния называются вентильными состояниями или вентилируемой памятью и являются частью сетей долгосрочной краткосрочной памяти (LSTM) и вентилируемых рекуррентных единиц . Это также называется нейронной сетью обратной связи (FNN). Рекуррентные нейронные сети теоретически полны по Тьюрингу и могут запускать произвольные программы для обработки произвольных последовательностей входных данных. [8]

История [ править ]

Модель Изинга (1925) Вильгельма Ленца [9] и Эрнст Изинг [10] [11] была первой архитектурой RNN, которая не обучалась. Шуничи Амари сделал его адаптивным в 1972 году. [12] [13] Ее также называли сетью Хопфилда (1982). См. также Дэвида Румельхарта 1986 года. работу [14] В 1993 году система сжатия нейронной истории решила задачу «очень глубокого обучения», которая требовала более 1000 последующих слоев в RNN, развернутой во времени. [15]

ЛСТМ [ править ]

Сети с длинной краткосрочной памятью (LSTM) были изобретены Хохрайтером и Шмидхубером в 1997 году и установили рекорды точности во многих областях применения. [16]

Примерно в 2007 году LSTM начал производить революцию в распознавании речи , превосходя традиционные модели в некоторых речевых приложениях. [17] В 2009 году сеть LSTM, обученная коннекционистской временной классификации (CTC), стала первой RNN, выигравшей конкурсы по распознаванию образов, когда она выиграла несколько соревнований по связанному распознаванию рукописного ввода . [18] [19] В 2014 году китайская компания Baidu использовала RNN, обученные CTC, для взлома набора данных распознавания речи 2S09 Switchboard Hub5'00. [20] эталонный тест без использования каких-либо традиционных методов обработки речи. [21]

LSTM также улучшил распознавание речи с большим словарным запасом. [5] [6] и текста в речь синтез [22] и использовался в Google Android . [18] [23] Сообщается, что в 2015 году производительность системы распознавания речи Google резко выросла на 49%. [ нужна цитата ] через LSTM, обученный CTC. [24]

LSTM побил рекорды по улучшению машинного перевода , [25] Языковое моделирование [26] и многоязычная языковая обработка. [27] LSTM в сочетании со сверточными нейронными сетями (CNN) улучшили автоматическое создание подписей к изображениям . [28]

Архитектуры [ править ]

RNN существуют во многих вариантах.

Полностью повторяющийся [ править ]

Сжатая (слева) и развернутая (справа) базовая рекуррентная нейронная сеть

Полностью рекуррентные нейронные сети (FRNN) соединяют выходы всех нейронов со входами всех нейронов. Это наиболее общая топология нейронной сети, поскольку все остальные топологии можно представить, установив для некоторых весов соединений нулевое значение, чтобы имитировать отсутствие связей между этими нейронами. Иллюстрация справа может ввести многих в заблуждение, поскольку практические топологии нейронных сетей часто организованы в «слои», и на рисунке именно такой вид и создается. Однако то, что кажется слоями , на самом деле является разными шагами во времени одной и той же полностью рекуррентной нейронной сети. Самый левый элемент на иллюстрации показывает повторяющиеся соединения в виде дуги с меткой «v». Он «разворачивается» во времени, создавая видимость слоев .

Сети Элмана Джордана сети и

Сеть Элман

Сеть Элмана — это трехслойная сеть (расположенная горизонтально как x , y и z на иллюстрации) с добавлением набора контекстных единиц ( u на иллюстрации). Средний (скрытый) уровень связан с этими единицами контекста, имеющими вес, равный единице. [29] На каждом временном шаге входные данные передаются вперед и правило обучения применяется . Фиксированные обратные соединения сохраняют копию предыдущих значений скрытых модулей в модулях контекста (поскольку они распространяются по соединениям до применения правила обучения). Таким образом, сеть может поддерживать своего рода состояние, позволяющее ей выполнять такие задачи, как прогнозирование последовательности, которые выходят за рамки возможностей стандартного многослойного перцептрона .

Сети Джордана аналогичны сетям Элмана. Единицы контекста поступают из выходного слоя, а не из скрытого слоя. Единицы контекста в сети Иордании также называются уровнем состояния. У них есть постоянная связь с самим собой. [29]

Сети Элмана и Джордана также известны как «Простые рекуррентные сети» (SRN).

Сеть Элмана [30]
Иорданская сеть [31]

Переменные и функции

  • : входной вектор
  • : вектор скрытого слоя
  • : выходной вектор
  • , и : матрицы параметров и вектор
  • и : Функции активации

Хопфилд [ править ]

Сеть Хопфилда — это RNN, в которой все соединения между уровнями имеют одинаковый размер. Он требует стационарных входных данных и, следовательно, не является общей RNN, поскольку не обрабатывает последовательности шаблонов. Однако это гарантирует, что оно сойдется. Если соединения обучаются с использованием обучения Хебба , то сеть Хопфилда может работать как надежная память с адресацией по содержимому , устойчивая к изменению соединения.

Двунаправленная ассоциативная память [ править ]

Представлено Бартом Коско, [32] Сеть двунаправленной ассоциативной памяти (BAM) — это вариант сети Хопфилда, в которой ассоциативные данные хранятся в виде вектора. Двунаправленность возникает в результате передачи информации через матрицу и ее транспонирования . Обычно биполярное кодирование предпочтительнее двоичного кодирования ассоциативных пар. Недавно стохастические модели BAM, использующие степпинг Маркова , были оптимизированы для повышения стабильности сети и соответствия реальным приложениям. [33]

Сеть BAM имеет два уровня, каждый из которых может использоваться в качестве входных данных для вызова ассоциации и создания выходных данных на другом уровне. [34]

Состояние эха [ править ]

Сети состояний эха (ESN) имеют редко связанный случайный скрытый слой. Веса выходных нейронов — единственная часть сети, которая может изменяться (обучаться). ESN хорошо воспроизводят определенные временные ряды . [35] Вариант импульсных нейронов известен как машина с жидким состоянием . [36]

Самостоятельно РНН (IndRNN) [ править ]

Независимая рекуррентная нейронная сеть (IndRNN) [37] решает проблемы исчезновения и взрыва градиента в традиционной полностью связной RNN. Каждый нейрон в одном слое получает только свое прошлое состояние в качестве контекстной информации (вместо полной связи со всеми другими нейронами в этом слое), и, таким образом, нейроны независимы от истории друг друга. Обратное распространение градиента можно регулировать, чтобы избежать исчезновения и взрыва градиента, чтобы сохранить долговременную или краткосрочную память. Информация о перекрестных нейронах исследуется на следующих уровнях. IndRNN можно надежно обучить с помощью ненасыщенных нелинейных функций, таких как ReLU. Глубокие сети можно обучать, используя пропущенные соединения.

Рекурсивный [ править ]

сеть Рекурсивная нейронная [38] создается путем рекурсивного применения одного и того же набора весов к дифференцируемой графоподобной структуре путем обхода структуры в топологическом порядке . Такие сети обычно также обучаются с помощью обратного режима автоматического дифференцирования . [39] [40] Они могут обрабатывать распределенные представления структуры, такие как логические термины . Частным случаем рекурсивных нейронных сетей являются RNN, структура которых соответствует линейной цепочке. Рекурсивные нейронные сети применяются для обработки естественного языка . [41] Рекурсивная нейронная тензорная сеть использует тензорную функцию композиции для всех узлов дерева. [42]

Компрессор нейронной истории [ править ]

Компрессор нейронной истории представляет собой неконтролируемый набор RNN. [43] На уровне ввода он учится прогнозировать следующий ввод на основе предыдущих входных данных. Только непредсказуемые входные данные некоторых RNN в иерархии становятся входными данными для RNN следующего более высокого уровня, который, следовательно, лишь изредка пересчитывает свое внутреннее состояние. Таким образом, каждая RNN более высокого уровня изучает сжатое представление информации в расположенной ниже RNN. Это сделано для того, чтобы входную последовательность можно было точно восстановить по представлению на самом высоком уровне.

Система эффективно минимизирует длину описания или отрицательный логарифм вероятности данных. [44] Учитывая большую предсказуемость входящей последовательности данных, RNN самого высокого уровня может использовать контролируемое обучение, чтобы легко классифицировать даже глубокие последовательности с длинными интервалами между важными событиями.

Иерархию RNN можно разделить на две RNN: «сознательный» блокировщик (более высокий уровень) и «подсознательный» автоматизатор (нижний уровень). [43] Как только блокировщик научится предсказывать и сжимать входные данные, которые непредсказуемы для автоматизатора, автоматизатор может быть вынужден на следующем этапе обучения предсказывать или имитировать с помощью дополнительных блоков скрытые блоки более медленно меняющегося блокатора. Это позволяет автоматизатору легко запоминать подходящие, редко меняющиеся воспоминания на протяжении длительных интервалов времени. В свою очередь, это помогает автоматизатору сделать многие из некогда непредсказуемых входных данных предсказуемыми, так что блокировщик может сосредоточиться на оставшихся непредсказуемых событиях. [43]

Генеративная модель частично решила проблему исчезновения градиента [45] автоматического дифференцирования или обратного распространения ошибки в нейронных сетях в 1992 году. В 1993 году такая система решила задачу «очень глубокого обучения», которая требовала более 1000 последующих слоев в RNN, развернутой во времени. [15]

РНС второго порядка [ править ]

RNN второго порядка используют веса более высокого порядка. вместо стандартного веса и состояния могут быть продуктом. Это позволяет напрямую отображать конечный автомат как при обучении, стабильности, так и при представлении. [46] [47] Длинная кратковременная память является примером этого, но не имеет таких формальных отображений или доказательств стабильности.

Длинная кратковременная память [ править ]

Блок долговременной кратковременной памяти

Долговременная кратковременная память (LSTM) — это система глубокого обучения , позволяющая избежать проблемы исчезающего градиента. LSTM обычно дополняется повторяющимися воротами, называемыми «воротами забывания». [48] LSTM предотвращает исчезновение или взрывной рост ошибок обратного распространения ошибки. [45] Вместо этого ошибки могут течь назад через неограниченное количество виртуальных слоев, развернутых в пространстве. То есть LSTM может изучать задачи [18] которые требуют воспоминаний о событиях, произошедших на тысячи или даже миллионы дискретных временных шагов ранее. Топологии, подобные LSTM, могут быть разработаны для конкретных задач. [49] LSTM работает даже при длительных задержках между важными событиями и может обрабатывать сигналы, в которых смешаны низкочастотные и высокочастотные компоненты.

Многие приложения используют стеки LSTM RNN. [50] и обучать их с помощью коннекционистской временной классификации (CTC) [51] найти весовую матрицу RNN, которая максимизирует вероятность последовательностей меток в обучающем наборе, учитывая соответствующие входные последовательности. CTC достигает как согласованности, так и признания.

LSTM может научиться распознавать контекстно-зависимые языки в отличие от предыдущих моделей, основанных на скрытых моделях Маркова (HMM) и подобных концепциях. [52]

Закрытый рекуррентный блок [ править ]

Закрытый рекуррентный блок

GRU (GRU) — это механизм вентилирования в рекуррентных нейронных сетях, представленный в 2014 году. Они используются в полной форме и в нескольких упрощенных вариантах. [53] [54] Было обнаружено, что их эффективность при моделировании полифонической музыки и речевых сигналов аналогична эффективности долговременной кратковременной памяти. [55] У них меньше параметров, чем у LSTM, так как у них нет выходного вентиля. [56]

Двунаправленный [ править ]

Двунаправленные RNN используют конечную последовательность для прогнозирования или маркировки каждого элемента последовательности на основе прошлого и будущего контекста элемента. Это делается путем объединения выходных данных двух RNN, один из которых обрабатывает последовательность слева направо, а другой — справа налево. Объединенные выходные данные представляют собой прогнозы целевых сигналов, заданных учителем. Было доказано, что этот метод особенно полезен в сочетании с LSTM RNN. [57] [58]

Непрерывное время [ править ]

Рекуррентная нейронная сеть непрерывного времени (CTRNN) использует систему обыкновенных дифференциальных уравнений для моделирования воздействия на нейрон входящих входных данных.

Для нейрона в сети с активацией , скорость изменения активации определяется выражением:

Где:

  • : Постоянная времени постсинаптического узла
  • : Активация постсинаптического узла.
  • : Скорость изменения активации постсинаптического узла.
  • : Вес соединения от пре- к постсинаптическому узлу.
  • : сигмоид x, например .
  • : Активация пресинаптического узла.
  • : Смещение пресинаптического узла
  • : Ввод (если есть) в узел

CTRNN были применены в эволюционной робототехнике , где они использовались для решения проблем зрения, [59] сотрудничество, [60] и минимальное когнитивное поведение. [61]

Обратите внимание, что согласно теореме выборки Шеннона рекуррентные нейронные сети с дискретным временем можно рассматривать как рекуррентные нейронные сети с непрерывным временем, в которых дифференциальные уравнения преобразуются в эквивалентные разностные уравнения . [62] Эту трансформацию можно рассматривать как происходящую после активации постсинаптического узла. были подвергнуты низкочастотной фильтрации, но до отбора проб.

Иерархическая рекуррентная нейронная сеть [ править ]

Иерархические рекуррентные нейронные сети (HRNN) соединяют свои нейроны различными способами, чтобы разложить иерархическое поведение на полезные подпрограммы. [43] [63] Такие иерархические структуры познания присутствуют в теориях памяти, представленных философом Анри Бергсоном , чьи философские взгляды вдохновили на создание иерархических моделей. [64]

Иерархические рекуррентные нейронные сети полезны при прогнозировании , помогая предсказать дезагрегированные инфляционные компоненты индекса потребительских цен (ИПЦ). Модель HRNN использует информацию с более высоких уровней иерархии ИПЦ для улучшения прогнозов на более низком уровне. Оценка значительного набора данных по индексу CPI-U в США демонстрирует превосходную эффективность модели HRNN по сравнению с различными признанными инфляции . методами прогнозирования [65]

перцептрона Рекуррентная многослойная сеть

Как правило, рекуррентная многоуровневая сеть перцептрона (сеть RMLP) состоит из каскадных подсетей, каждая из которых содержит несколько уровней узлов. Каждая подсеть является прямой, за исключением последнего уровня, который может иметь соединения обратной связи. Каждая из этих подсетей соединена только прямыми соединениями. [66]

Модель с несколькими временными масштабами [ править ]

Рекуррентная нейронная сеть с несколькими временными масштабами (MTRNN) — это вычислительная модель на основе нейронов, которая может моделировать функциональную иерархию мозга посредством самоорганизации в зависимости от пространственной связи между нейронами и от различных типов активности нейронов, каждый из которых имеет разные временные свойства. [67] [68] При такой разнообразной активности нейронов непрерывные последовательности любого набора действий сегментируются на повторно используемые примитивы, которые, в свою очередь, гибко интегрируются в различные последовательные модели поведения. Биологическое одобрение такого типа иерархии обсуждалось в теории прогнозирования функций мозга Хокинсом в его книге « Об интеллекте» . [ нужна цитата ] Такая иерархия также согласуется с теориями памяти, выдвинутыми философом Анри Бергсоном , которые были включены в модель MTRNN. [64] [69]

машины Тьюринга Нейронные

Нейронные машины Тьюринга (НТМ) — это метод расширения рекуррентных нейронных сетей путем подключения их к внешним ресурсам памяти , с которыми они могут взаимодействовать посредством процессов внимания . Комбинированная система аналогична машине Тьюринга или архитектуре фон Неймана , но является градиентного сквозной дифференцируемой, что позволяет эффективно обучать ее с помощью спуска . [70]

Дифференцируемый нейронный компьютер [ править ]

Дифференцируемые нейронные компьютеры (DNC) являются расширением нейронных машин Тьюринга, позволяющим использовать нечеткие количества каждого адреса памяти и запись хронологии.

Автоматы нейронной сети с понижением уровня [ править ]

Автоматы с выталкиванием нейронных сетей (NNPDA) похожи на NTM, но ленты заменены аналоговыми стеками, которые являются дифференцируемыми и обучаемыми. В этом смысле они по сложности аналогичны распознавателям контекстно-свободных грамматик (CFG). [71]

Мемристивные сети [ править ]

Грег Снайдер из HP Labs описывает систему корковых вычислений с использованием мемристивных наноустройств. [72] Мемристоры . (резисторы памяти) выполнены из тонкопленочных материалов, сопротивление которых электрически настраивается за счет транспорта ионов или кислородных вакансий внутри пленки профинансировал DARPA Проект SyNAPSE исследования IBM и лаборатории HP в сотрудничестве с факультетом когнитивных и нейронных систем (CNS) Бостонского университета для разработки нейроморфных архитектур, которые могут быть основаны на мемристивных системах. Мемристивные сети — это особый тип физической нейронной сети , свойства которой очень похожи на сети (Литтла) Хопфилда, поскольку они имеют непрерывную динамику, ограниченный объем памяти и естественную релаксацию за счет минимизации функции, которая асимптотична модели Изинга . В этом смысле динамика мемристивной схемы имеет преимущество по сравнению с сетью резистор-конденсатор, поскольку имеет более интересное нелинейное поведение. С этой точки зрения инженерные аналоговые мемристивные сети представляют собой своеобразный тип нейроморфной инженерии , в котором поведение устройства зависит от схемы подключения или топологии. Эволюцию этих сетей можно изучать аналитически, используя вариации Уравнение Каравелли Траверсы Ди Вентры . [73]

Псевдокод [ править ]

Учитывая временной ряд x длины sequence_length. В рекуррентной нейронной сети есть цикл, обрабатывающий все записи временного ряда. x через слои neural_networkодин за другим. Они имеют возвращаемое значение на каждом временном шаге. i оба предсказания y_pred[i] и обновленное скрытое состояние hidden, который имеет длину hidden_size. В результате после цикла сбор всех прогнозов y_predвозвращается. Следующий псевдокод (на основе языка программирования Python ) иллюстрирует функциональность рекуррентной нейронной сети. [74]

def   RNN_forward  (  x  ,   последовательность_длина  ,   нейронная_сеть  ,   скрытый_размер  ): 
     скрытые   =   нули  (  размер  =  скрытый_размер  )    # инициализируем нулями для каждого независимого временного ряда отдельно 
     y_pred   =   нули  (  размер  =  последовательность_длина  ) 
     для   i   в   диапазоне  (  последовательность_длина  ): 
         y_pred  [  i  ] ,   скрытый   =   нейронная сеть  (  x  [  i  ],   скрытый  )    # обновление скрытого состояния 
     return   y_pred 

Современные библиотеки предоставляют реализации вышеупомянутых функций, оптимизированные во время выполнения, или позволяют ускорить медленный цикл за счет своевременной компиляции .

Обучение [ править ]

Градиентный спуск [ править ]

Градиентный спуск — это первого порядка итеративный оптимизации алгоритм для поиска минимума функции. что нелинейные функции активации дифференцируемы В нейронных сетях его можно использовать для минимизации ошибки путем изменения каждого веса пропорционально производной ошибки по этому весу, при условии , . Различные методы для этого были разработаны в 1980-х и начале 1990-х годов Вербосом , Уильямсом , Робинсоном , Шмидхубером , Хохрайтером , Перлмуттером и другими.

Стандартный метод называется « обратным распространением ошибки во времени » или BPTT и представляет собой обобщение метода обратного распространения ошибки для сетей с прямой связью. [75] [76] Как и этот метод, он является примером автоматического дифференцирования в режиме обратного накопления принципа минимума Понтрягина . Более затратный в вычислительном отношении онлайн-вариант называется «Рекуррентное обучение в реальном времени» или RTRL. [77] [78] что является примером автоматического дифференцирования в режиме прямого накопления со сложенными касательными векторами. В отличие от BPTT, этот алгоритм является локальным во времени, но не локальным в пространстве.

В этом контексте локальность в пространстве означает, что весовой вектор единицы может быть обновлен с использованием только информации, хранящейся в подключенных единицах и самой единице, так что сложность обновления одной единицы является линейной по размерности весового вектора. Локальное по времени означает, что обновления происходят постоянно (онлайн) и зависят только от самого последнего временного шага, а не от нескольких временных шагов в пределах заданного временного горизонта, как в BPTT. Биологические нейронные сети кажутся локальными как во времени, так и в пространстве. [79] [80]

Для рекурсивного вычисления частных производных RTRL имеет временную сложность O (количество скрытых x весов) на временной шаг для вычисления матриц Якоби , в то время как BPTT принимает только O (количество весов) на временной шаг, за счет сохранения всех активных активаций в течение заданного временного интервала. [81] Существует онлайн-гибрид между BPTT и RTRL средней сложности, [82] [83] наряду с вариантами для непрерывного времени. [84]

Основная проблема градиентного спуска для стандартных архитектур RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с увеличением временного лага между важными событиями. [45] [85] LSTM в сочетании с гибридным методом обучения BPTT/RTRL пытается преодолеть эти проблемы. [16] Эта задача также решается в независимо рекуррентной нейронной сети (IndRNN). [37] путем сведения контекста нейрона к его собственному прошлому состоянию, и затем межнейронную информацию можно исследовать на следующих уровнях. Воспоминания разных диапазонов, включая долговременную память, можно изучить без проблемы исчезновения и взрыва градиента.

Онлайн-алгоритм, называемый причинно-рекурсивным обратным распространением ошибки (CRBP), реализует и объединяет парадигмы BPTT и RTRL для локально рекуррентных сетей. [86] Он работает с наиболее распространенными локально-рекуррентными сетями. Алгоритм CRBP может минимизировать глобальную ошибку. Этот факт повышает стабильность алгоритма, обеспечивая единое представление о методах расчета градиента для рекуррентных сетей с локальной обратной связью.

Один из подходов к вычислению градиентной информации в RNN с произвольной архитектурой основан на построении диаграмм графов потока сигналов. [87] Он использует пакетный алгоритм BPTT, основанный на теореме Ли для расчета чувствительности сети. [88] Его предложили Ван и Бофейс, а его быструю онлайн-версию предложили Камполуччи, Унчини и Пьяцца. [88]

Методы глобальной оптимизации [ править ]

Обучение весов в нейронной сети можно смоделировать как задачу нелинейной глобальной оптимизации . Целевую функцию можно сформировать для оценки пригодности или ошибки конкретного вектора весов следующим образом: во-первых, веса в сети устанавливаются в соответствии с вектором весов. Затем сеть оценивается по обучающей последовательности. Обычно разница суммы квадратов между прогнозами и целевыми значениями, указанными в обучающей последовательности, используется для представления ошибки текущего весового вектора. Затем для минимизации этой целевой функции можно использовать произвольные методы глобальной оптимизации.

Наиболее распространенным методом глобальной оптимизации для обучения RNN являются генетические алгоритмы , особенно в неструктурированных сетях. [89] [90] [91]

Первоначально генетический алгоритм кодируется с помощью весов нейронной сети заранее определенным образом, где один ген в хромосоме представляет одно весовое звено. Вся сеть представлена ​​в виде одной хромосомы. Фитнес-функция оценивается следующим образом:

  • Каждый вес, закодированный в хромосоме, присваивается соответствующему весовому звену сети.
  • Обучающий набор предоставляется сети, которая распространяет входные сигналы вперед.
  • Среднеквадратическая ошибка возвращается в функцию фитнеса.
  • Эта функция управляет процессом генетического отбора.

Многие хромосомы составляют популяцию; поэтому развивается множество различных нейронных сетей до тех пор, пока не будет выполнен критерий остановки. Распространенная схема остановки:

  • Когда нейронная сеть изучила определенный процент обучающих данных или
  • Когда минимальное значение среднеквадратической ошибки удовлетворяется или
  • Когда достигнуто максимальное количество обучающих поколений.

Функция пригодности оценивает критерий остановки, поскольку во время обучения она получает среднеквадратическую ошибку, обратную от каждой сети. Следовательно, цель генетического алгоритма — максимизировать функцию приспособленности, уменьшив среднеквадратическую ошибку.

Для поиска хорошего набора весов можно использовать другие методы глобальной (и/или эволюционной) оптимизации, такие как моделирование отжига или оптимизация роя частиц .

Связанные области и модели [ править ]

RNN могут вести себя хаотично . В таких случаях теорию динамических систем для анализа можно использовать .

На самом деле это рекурсивные нейронные сети с особой структурой: линейной цепочкой. В то время как рекурсивные нейронные сети работают с любой иерархической структурой, объединяя дочерние представления с родительскими представлениями, рекуррентные нейронные сети работают с линейной прогрессией времени, объединяя предыдущий временной шаг и скрытое представление в представление для текущего временного шага.

В частности, RNN могут выглядеть как нелинейные версии фильтров с конечной импульсной характеристикой и бесконечной импульсной характеристикой , а также как нелинейная авторегрессионная экзогенная модель (NARX). [92]

Эффект обучения на основе памяти для распознавания последовательностей также может быть реализован с помощью более биологической модели, которая использует механизм молчания, проявляющийся в нейронах с относительно высокочастотной импульсной активностью. [93]

Библиотеки [ править ]

Приложения [ править ]

Приложения рекуррентных нейронных сетей включают:

Ссылки [ править ]

  1. ^ Дюпон, Сэмюэл (2019). «Тщательный обзор текущего развития структур нейронных сетей» . Ежегодные обзоры под контролем . 14 : 200–230.
  2. ^ Абиодун, Олударе Исаак; Джантан, Аман; Омолара, Абиодун Эстер; Дада, Кеми Виктория; Мохамед, Нахаат ​​Абделатиф; Аршад, Хумайра (01 ноября 2018 г.). «Современное состояние приложений искусственных нейронных сетей: обзор» . Гелион . 4 (11): e00938. Бибкод : 2018Heliy...400938A . doi : 10.1016/j.heliyon.2018.e00938 . ISSN   2405-8440 . ПМК   6260436 . ПМИД   30519653 .
  3. ^ Тилаб, Ахмед (01 декабря 2018 г.). «Прогнозирование временных рядов с использованием методологий искусственных нейронных сетей: систематический обзор» . Журнал будущих вычислений и информатики . 3 (2): 334–340. дои : 10.1016/j.fcij.2018.10.003 . ISSN   2314-7288 .
  4. ^ Грейвс, Алекс ; Ливицкий, Маркус; Фернандес, Сантьяго; Бертолами, Роман; Бунке, Хорст; Шмидхубер, Юрген (2009). «Новая коннекционистская система для улучшения неограниченного распознавания рукописного текста» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (5): 855–868. CiteSeerX   10.1.1.139.4502 . дои : 10.1109/tpami.2008.137 . ПМИД   19299860 . S2CID   14635907 .
  5. ^ Перейти обратно: а б Сак, Хашим; Старший, Эндрю; Бофе, Франсуаза (2014). «Архитектуры рекуррентных нейронных сетей с долгосрочной кратковременной памятью для крупномасштабного акустического моделирования» (PDF) . Google Исследования.
  6. ^ Перейти обратно: а б Ли, Сянган; У, Сихун (15 октября 2014 г.). «Построение глубоких рекуррентных нейронных сетей на основе долговременной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [ cs.CL ].
  7. ^ Мильянович, Милош (февраль – март 2012 г.). «Сравнительный анализ нейронных сетей с рекуррентным и конечным импульсным откликом в прогнозировании временных рядов» (PDF) . Индийский журнал компьютеров и техники . 3 (1).
  8. ^ Хётыниеми, Хейкки (1996). «Машины Тьюринга — это рекуррентные нейронные сети». Труды STeP '96/Публикации Финского общества искусственного интеллекта : 13–24.
  9. ^ Ленц, В. (1920), «Вклад в понимание магнитных свойств твердых тел», Physical Journal , 21 : 613–615.
  10. ^ Изинг, Э. (1925), "Beitrag zur Theorie des Ferromanetismus", Z. Phys. , 31 (1): 253–258, Бибкод : 1925ZPhy...31..253I , doi : 10.1007/BF02980577 , S2CID   122157319
  11. ^ Браш, Стивен Г. (1967). «История модели Ленца-Изинга». Обзоры современной физики . 39 (4): 883–893. Бибкод : 1967РвМП...39..883Б . дои : 10.1103/RevModPhys.39.883 .
  12. ^ Амари, Сюн-Ичи (1972). «Обучение шаблонам и последовательностям шаблонов с помощью самоорганизующихся сетей пороговых элементов». Транзакции IEEE на компьютерах . С (21): 1197–1206. дои : 10.1109/TC.1972.223477 . S2CID   3708480 .
  13. ^ Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [ cs.NE ].
  14. ^ Уильямс, Рональд Дж.; Хинтон, Джеффри Э.; Румельхарт, Дэвид Э. (октябрь 1986 г.). «Изучение представлений с помощью ошибок обратного распространения». Природа . 323 (6088): 533–536. Бибкод : 1986Natur.323..533R . дои : 10.1038/323533a0 . ISSN   1476-4687 . S2CID   205001834 .
  15. ^ Перейти обратно: а б Шмидхубер, Юрген (1993). Кандидатская диссертация: Системное моделирование и оптимизация (PDF) . Страница 150 и далее демонстрирует присвоение кредитов по эквиваленту 1200 слоев в развернутой RNN.
  16. ^ Перейти обратно: а б Хохрайтер, Зепп ; Шмидхубер, Юрген (1 ноября 1997 г.). «Долгая кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ПМИД   9377276 . S2CID   1915014 .
  17. ^ Перейти обратно: а б Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Применение рекуррентных нейронных сетей для распознавания ключевых слов» . Материалы 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag. стр. 220–229. ISBN  978-3-540-74693-5 .
  18. ^ Перейти обратно: а б с Шмидхубер, Юрген (январь 2015 г.). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . дои : 10.1016/j.neunet.2014.09.003 . ПМИД   25462637 . S2CID   11715509 .
  19. ^ Грейвс, Алекс; Шмидхубер, Юрген (2009). «Офлайн-распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей» . В Коллере, Д.; Шурманс, Д .; Бенджио, Ю .; Ботту, Л. (ред.). Достижения в области нейронных систем обработки информации . Том. 21. Фонд нейронных систем обработки информации (NIPS). стр. 545–552.
  20. ^ «Оценочная речь HUB5 по английскому языку 2000 года — Консорциум лингвистических данных» . каталог.ldc.upenn.edu .
  21. ^ Ханнун, Ауни; Кейс, Карл; Каспер, Джаред; Катандзаро, Брайан; Диамос, Грег; Элсен, Эрих; Пренгер, Райан; Сатиш, Санджив; Сенгупта, Шубхо (17 декабря 2014 г.). «Глубокая речь: расширение сквозного распознавания речи». arXiv : 1412.5567 [ cs.CL ].
  22. ^ Фан, Бо; Ван, Лицзюань; Сунг, Фрэнк К.; Се, Лэй (2015). «Фотореалистичная говорящая голова с глубоким двунаправленным LSTM». Материалы Международной конференции IEEE ICASSP 2015 по акустике, речи и обработке сигналов . стр. 4884–8. дои : 10.1109/ICASSP.2015.7178899 . ISBN  978-1-4673-6997-8 .
  23. ^ Дзен, Хейга; Сак, Хашим (2015). «Однонаправленная рекуррентная нейронная сеть с долговременной краткосрочной памятью и рекуррентным выходным слоем для синтеза речи с малой задержкой» (PDF) . Материалы Международной конференции IEEE ICASSP 2015 по акустике, речи и обработке сигналов . стр. 4470–4. дои : 10.1109/ICASSP.2015.7178816 . ISBN  978-1-4673-6997-8 .
  24. ^ Сак, Хашим; Старший, Эндрю; Рао, Канишка; Бофе, Франсуаза; Шалквик, Йохан (сентябрь 2015 г.). «Голосовой поиск Google: быстрее и точнее» .
  25. ^ Перейти обратно: а б Суцкевер, Илья; Виньялс, Ориол; Ле, Куок В. (2014). «Последовательное обучение с помощью нейронных сетей» (PDF) . Электронные материалы конференции по нейронным системам обработки информации . 27 : 5346. arXiv : 1409.3215 . Бибкод : 2014arXiv1409.3215S .
  26. ^ Йозефович, Рафаль; Виньялс, Ориол; Шустер, Майк; Шазир, Ноам; Ву, Юнхуэй (07 февраля 2016 г.). «Изучение пределов языкового моделирования». arXiv : 1602.02410 [ cs.CL ].
  27. ^ Гиллик, Дэн; Бранк, Клифф; Виньялс, Ориол; Субраманья, Амарнаг (30 ноября 2015 г.). «Многоязычная языковая обработка из байтов». arXiv : 1512.00103 [ cs.CL ].
  28. ^ Виньялс, Ориол; Тошев, Александр; Бенджио, Сами; Эрхан, Дмитрий (17 ноября 2014 г.). «Покажи и расскажи: нейронный генератор подписей к изображениям». arXiv : 1411.4555 [ cs.CV ].
  29. ^ Перейти обратно: а б Круз, Холк; Нейронные сети как кибернетические системы , 2-е и исправленное издание.
  30. ^ Элман, Джеффри Л. (1990). «Нахождение структуры во времени» . Когнитивная наука . 14 (2): 179–211. дои : 10.1016/0364-0213(90)90002-E .
  31. ^ Джордан, Майкл И. (1 января 1997 г.). «Последовательный заказ: подход к параллельной распределенной обработке». Нейросетевые модели познания — биоповеденческие основы . Достижения психологии. Том. 121. стр. 471–495. дои : 10.1016/s0166-4115(97)80111-2 . ISBN  978-0-444-81931-4 . S2CID   15375627 .
  32. ^ Коско, Барт (1988). «Двунаправленные ассоциативные воспоминания». Транзакции IEEE по системам, человеку и кибернетике . 18 (1): 49–60. дои : 10.1109/21.87054 . S2CID   59875735 .
  33. ^ Раккиаппан, Раджан; Чандрасекар, Аруначалам; Лакшманан, Субраманиан; Пак, Джу Х. (2 января 2015 г.). «Экспоненциальная устойчивость марковских прыгающих стохастических нейронных сетей BAM с зависящими от режима вероятностными изменяющимися во времени задержками и импульсным управлением». Сложность . 20 (3): 39–65. Бибкод : 2015Cmplx..20c..39R . дои : 10.1002/cplx.21503 .
  34. ^ Рохас, Рауль (1996). Нейронные сети: систематическое введение . Спрингер. п. 336. ИСБН  978-3-540-60505-8 .
  35. ^ Джагер, Герберт; Хаас, Харальд (2 апреля 2004 г.). «Использование нелинейности: прогнозирование хаотических систем и экономия энергии в беспроводной связи». Наука . 304 (5667): 78–80. Бибкод : 2004Sci...304...78J . CiteSeerX   10.1.1.719.2301 . дои : 10.1126/science.1091277 . ПМИД   15064413 . S2CID   2184251 .
  36. ^ Маасс, Вольфганг; Натшлегер, Томас; Маркрам, Генри (2002). «Вычисления в реальном времени без стабильных состояний: новая основа нейронных вычислений на основе возмущений» (PDF) . Нейронные вычисления . 14 (11): 2531–2560. дои : 10.1162/089976602760407955 . ПМИД   12433288 . S2CID   1045112 .
  37. ^ Перейти обратно: а б Ли, Шуай; Ли, Ваньцин; Кук, Крис; Чжу, Се; Янбо, Гао (2018). «Независимо рекуррентная нейронная сеть (IndRNN): построение более длинной и глубокой RNN». arXiv : 1803.04831 [ cs.CV ].
  38. ^ Голлер, Кристоф; Кюхлер, Андреас (1996). «Изучение распределенных представлений, зависящих от задачи, путем обратного распространения ошибки через структуру». Материалы Международной конференции по нейронным сетям (ICNN'96) . Том. 1. п. 347. CiteSeerX   10.1.1.52.4759 . дои : 10.1109/ICNN.1996.548916 . ISBN  978-0-7803-3210-2 . S2CID   6536466 .
  39. ^ Линнаинмаа, Сеппо (1970). Представление совокупной ошибки округления алгоритма в виде разложения Тейлора локальных ошибок округления (MSc) (на финском языке). Университет Хельсинки.
  40. ^ Гриванк, Андреас; Вальтер, Андреа (2008). Оценка производных: принципы и методы алгоритмического дифференцирования (второе изд.). СИАМ. ISBN  978-0-89871-776-1 .
  41. ^ Сошер, Ричард; Лин, Клифф; Нг, Эндрю Ю.; Мэннинг, Кристофер Д., «Разбор естественных сцен и естественного языка с помощью рекурсивных нейронных сетей» (PDF) , 28-я Международная конференция по машинному обучению (ICML 2011)
  42. ^ Сошер, Ричард; Перелыгин, Алексей; Ву, Джин Ю.; Чуанг, Джейсон; Мэннинг, Кристофер Д.; Нг, Эндрю Ю.; Поттс, Кристофер. «Рекурсивные глубокие модели семантической композиционности в древовидном банке настроений» (PDF) . Эмнлп 2013 .
  43. ^ Перейти обратно: а б с д Шмидхубер, Юрген (1992). «Изучение сложных, расширенных последовательностей с использованием принципа сжатия истории» (PDF) . Нейронные вычисления . 4 (2): 234–242. дои : 10.1162/neco.1992.4.2.234 . S2CID   18271205 .
  44. ^ Шмидхубер, Юрген (2015). «Глубокое обучение» . Схоларпедия . 10 (11): 32832. Бибкод : 2015SchpJ..1032832S . doi : 10.4249/scholarpedia.32832 .
  45. ^ Перейти обратно: а б с Хохрейтер, Зепп (1991). Исследования по динамическим нейронным сетям (PDF) (Диплом). Институт компьютерных наук Мюнхенского технического университета.
  46. ^ Джайлз, К. Ли; Миллер, Клиффорд Б.; Чен, Донг; Чен, Син-Хен; Сунь, Го-Чжэн; Ли, Йи-Чун (1992). «Изучение и извлечение конечных автоматов с помощью рекуррентных нейронных сетей второго порядка» (PDF) . Нейронные вычисления . 4 (3): 393–405. дои : 10.1162/neco.1992.4.3.393 . S2CID   19666035 .
  47. ^ Омлин, Кристиан В.; Джайлз, К. Ли (1996). «Построение детерминированных конечных автоматов в рекуррентных нейронных сетях». Журнал АКМ . 45 (6): 937–972. CiteSeerX   10.1.1.32.2364 . дои : 10.1145/235809.235811 . S2CID   228941 .
  48. ^ Герс, Феликс А.; Шраудольф, Никол Н.; Шмидхубер, Юрген (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143 . Проверено 13 июня 2017 г.
  49. ^ Байер, Джастин; Виерстра, Даан; Тогелиус, Джулиан; Шмидхубер, Юрген (14 сентября 2009 г.). «Развитие структур ячеек памяти для последовательного обучения». Искусственные нейронные сети — ICANN 2009 (PDF) . Конспекты лекций по информатике. Том. 5769. Берлин, Гейдельберг: Springer. стр. 755–764. дои : 10.1007/978-3-642-04277-5_76 . ISBN  978-3-642-04276-8 .
  50. ^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Разметка последовательностей в структурированных доменах с помощью иерархических рекуррентных нейронных сетей» (PDF) . Материалы 20-й Международной совместной конференции по искусственному интеллекту, Иджай, 2007 г. стр. 774–9. CiteSeerX   10.1.1.79.1887 .
  51. ^ Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино Дж. (2006). «Временная классификация коннекционистов: маркировка данных несегментированных последовательностей с помощью рекуррентных нейронных сетей» (PDF) . Материалы международной конференции по машинному обучению . стр. 369–376. CiteSeerX   10.1.1.75.6306 . дои : 10.1145/1143844.1143891 . ISBN  1-59593-383-2 .
  52. ^ Перейти обратно: а б Герс, Феликс А.; Шмидхубер, Юрген (2001). «Рекуррентные сети LSTM изучают простые контекстно-свободные и контекстно-зависимые языки» (PDF) . Транзакции IEEE в нейронных сетях . 12 (6): 1333–40. дои : 10.1109/72.963769 . ПМИД   18249962 . S2CID   10192330 .
  53. ^ Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные варианты вентильных единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [ cs.NE ].
  54. ^ Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). «Варианты вентильных нейронных сетей с закрытыми рекуррентными единицами (GRU)». arXiv : 1701.05923 [ cs.NE ].
  55. ^ Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [ cs.NE ].
  56. ^ Бритц, Денни (27 октября 2015 г.). «Учебное пособие по рекуррентной нейронной сети, часть 4. Реализация GRU/LSTM RNN с помощью Python и Theano – WildML» . Wildml.com . Проверено 18 мая 2016 г.
  57. ^ Грейвс, Алекс; Шмидхубер, Юрген (1 июля 2005 г.). «Кадровая классификация фонем с помощью двунаправленного LSTM и других архитектур нейронных сетей». Нейронные сети . IJCNN 2005. 18 (5): 602–610. CiteSeerX   10.1.1.331.5800 . дои : 10.1016/j.neunet.2005.06.042 . ПМИД   16112549 . S2CID   1856462 .
  58. ^ Перейти обратно: а б Тиреу, Триас; Речко, Мартин (июль 2007 г.). «Двунаправленные сети долговременной краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. дои : 10.1109/tcbb.2007.1015 . ПМИД   17666763 . S2CID   11787259 .
  59. ^ Харви, Инман; Мужья, Фил; Клифф, Дэйв (1994), «Видеть свет: искусственная эволюция, реальное видение» , 3-я международная конференция по моделированию адаптивного поведения: от животных к животным 3 , стр. 392–401.
  60. ^ Куинн, Мэтт (2001). «Развитие коммуникации без выделенных каналов связи». Достижения в области искусственной жизни: 6-я Европейская конференция, ECAL 2001 . стр. 357–366. дои : 10.1007/3-540-44811-X_38 . ISBN  978-3-540-42567-0 .
  61. ^ Бир, Рэндалл Д. (1997). «Динамика адаптивного поведения: программа исследований». Робототехника и автономные системы . 20 (2–4): 257–289. дои : 10.1016/S0921-8890(96)00063-2 .
  62. ^ Шерстинский, Алекс (07.12.2018). Блум-Редди, Бенджамин; Пейдж, Брукс; Куснер, Мэтт; Каруана, Рич; Рейнфорт, Том; Да, Йи Уай (ред.). Получение определения рекуррентной нейронной сети и развертывание RNN с использованием обработки сигналов . Мастер-класс «Критика и коррекция тенденций в машинном обучении» на NeurIPS-2018 .
  63. ^ Пейн, Райнер В.; Тани, июнь (1 сентября 2005 г.). «Как иерархическое управление самоорганизуется в искусственных адаптивных системах». Адаптивное поведение . 13 (3): 211–225. дои : 10.1177/105971230501300303 . S2CID   9932565 .
  64. ^ Перейти обратно: а б «Бернс, Бенюро, Тани (2018) Адаптивная постоянная времени, вдохновленная Бергсоном, для модели рекуррентной нейронной сети с множеством временных масштабов. JNNS» .
  65. ^ Баркан, Орен; Бенчимол, Джонатан; Каспи, Итамар; Коэн, Элия; Хаммер, Аллон; Кенигштейн, Ноам (2023). «Прогнозирование компонентов инфляции ИПЦ с помощью иерархических рекуррентных нейронных сетей». Международный журнал прогнозирования . 39 (3): 1145–1162. arXiv : 2011.07920 . doi : 10.1016/j.ijforecast.2022.04.009 .
  66. ^ Тучку, Курт (июнь 1995 г.). Рекуррентные многослойные перцептроны для идентификации и контроля: путь к приложениям . Отчет Института компьютерных наук. Том. 118. Вюрцбургский университет-ам-Хубланд. CiteSeerX   10.1.1.45.3527 .
  67. ^ Ямасита, Юичи; Тани, июнь (07 ноября 2008 г.). «Появление функциональной иерархии в модели нейронной сети с множеством временных масштабов: эксперимент с роботом-гуманоидом» . PLOS Вычислительная биология . 4 (11): е1000220. Бибкод : 2008PLSCB...4E0220Y . дои : 10.1371/journal.pcbi.1000220 . ПМК   2570613 . ПМИД   18989398 .
  68. ^ Альнаджар, Фади; Ямасита, Юичи; Тани, июнь (2013). «Иерархическая и функциональная связность когнитивных механизмов высшего порядка: нейророботная модель для исследования стабильности и гибкости рабочей памяти» . Границы нейроробототехники . 7 :2. дои : 10.3389/fnbot.2013.00002 . ПМК   3575058 . ПМИД   23423881 .
  69. ^ «Материалы 28-й ежегодной конференции Японского общества нейронных сетей (октябрь 2018 г.)» (PDF) .
  70. ^ Грейвс, Алекс; Уэйн, Грег; Данигелка, Иво (2014). «Нейронные машины Тьюринга». arXiv : 1410.5401 [ cs.NE ].
  71. ^ Сунь, Го-Чжэн; Джайлз, К. Ли; Чен, Син-Хен (1998). «Автомат опускания нейронной сети: архитектура, динамика и обучение». В Джайлзе, К. Ли; Гори, Марко (ред.). Адаптивная обработка последовательностей и структур данных . Конспекты лекций по информатике. Берлин, Гейдельберг: Springer. стр. 296–345. CiteSeerX   10.1.1.56.8723 . дои : 10.1007/bfb0054003 . ISBN  978-3-540-64341-8 .
  72. ^ Снайдер, Грег (2008), «Корковые вычисления с мемристивными наноустройствами» , Sci-DAC Review , 10 : 58–65
  73. ^ Каравелли, Франческо; Траверса, Фабио Лоренцо; Ди Вентра, Массимилиано (2017). «Сложная динамика мемристивных цепей: аналитические результаты и универсальная медленная релаксация». Физический обзор E . 95 (2): 022140. arXiv : 1608.08651 . Бибкод : 2017PhRvE..95b2140C . дои : 10.1103/PhysRevE.95.022140 . ПМИД   28297937 . S2CID   6758362 .
  74. ^ Шолле, Франсуа; Калиновский, Томас; Аллер, Джей-Джей (13 сентября 2022 г.). Глубокое обучение с помощью R, второе издание Саймон и Шустер. ISBN  978-1-63835-078-1 .
  75. ^ Вербос, Пол Дж. (1988). «Обобщение обратного распространения ошибки с применением к рекуррентной модели газового рынка» . Нейронные сети . 1 (4): 339–356. дои : 10.1016/0893-6080(88)90007-x . S2CID   205001834 .
  76. ^ Румельхарт, Дэвид Э. (1985). Изучение внутренних представлений путем распространения ошибок . Сан-Диего (Калифорния): Институт когнитивных наук Калифорнийского университета.
  77. ^ Робинсон, Энтони Дж.; Фоллсайд, Фрэнк (1987). Сеть динамического распространения ошибок, управляемая утилитой . Технический отчет CUED/F-INFENG/TR.1. Инженерный факультет Кембриджского университета.
  78. ^ Уильямс, Рональд Дж.; Зипсер, Д. (1 февраля 2013 г.). «Алгоритмы градиентного обучения для рекуррентных сетей и их вычислительная сложность». В Шовене, Ив; Румельхарт, Дэвид Э. (ред.). Обратное распространение ошибки: теория, архитектура и приложения . Психология Пресс. ISBN  978-1-134-77581-1 .
  79. ^ Шмидхубер, Юрген (1 января 1989 г.). «Алгоритм локального обучения для динамических сетей прямой связи и рекуррентных сетей». Наука о связях . 1 (4): 403–412. дои : 10.1080/09540098908915650 . S2CID   18721007 .
  80. ^ Принсипи, Хосе К.; Эулиано, Нил Р.; Лефевр, В. Курт (2000). Нейронные и адаптивные системы: основы посредством моделирования . Уайли. ISBN  978-0-471-35167-2 .
  81. ^ Янн, Оливье; Таллек, Корантен; Шарпиа, Гийом (28 июля 2015 г.). «Обучение рекуррентных сетей онлайн без возврата». arXiv : 1507.07680 [ cs.NE ].
  82. ^ Шмидхубер, Юрген (1 марта 1992 г.). «Алгоритм обучения временной сложности хранилища фиксированного размера O (n3) для полностью рекуррентных, непрерывно работающих сетей». Нейронные вычисления . 4 (2): 243–248. дои : 10.1162/neco.1992.4.2.243 . S2CID   11761172 .
  83. ^ Уильямс, Рональд Дж. (1989). Сложность алгоритмов точного вычисления градиента для рекуррентных нейронных сетей (Отчет). Технический отчет NU-CCS-89-27. Бостон (Массачусетс): Северо-Восточный университет, Колледж компьютерных наук. Архивировано из оригинала 20 октября 2017 г. Проверено 2 июля 2017 г.
  84. ^ Перлмуттер, Барак А. (1 июня 1989 г.). «Изучение пространственных траекторий состояний в рекуррентных нейронных сетях» . Нейронные вычисления . 1 (2): 263–269. дои : 10.1162/neco.1989.1.2.263 . S2CID   16813485 .
  85. ^ Хохрейтер, Зепп; и другие. (15 января 2001 г.). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей» . В Колене, Джон Ф.; Кремер, Стефан К. (ред.). Полевое руководство по динамическим рекуррентным сетям . Джон Уайли и сыновья. ISBN  978-0-7803-5369-5 .
  86. ^ Камполуччи, Паоло; Унчини, Аурелио; Пьяцца, Франческо; Рао, Бхаскар Д. (1999). «Алгоритмы онлайн-обучения для локально рекуррентных нейронных сетей». Транзакции IEEE в нейронных сетях . 10 (2): 253–271. CiteSeerX   10.1.1.33.7550 . дои : 10.1109/72.750549 . ПМИД   18252525 .
  87. ^ Ван, Эрик А.; Бофе, Франсуаза (1996). «Диаграмматический вывод градиентных алгоритмов для нейронных сетей». Нейронные вычисления . 8 : 182–201. дои : 10.1162/neco.1996.8.1.182 . S2CID   15512077 .
  88. ^ Перейти обратно: а б Камполуччи, Паоло; Унчини, Аурелио; Пьяцца, Франческо (2000). «Подход к онлайн-расчету градиента на основе графика потока сигналов». Нейронные вычисления . 12 (8): 1901–1927. CiteSeerX   10.1.1.212.5406 . дои : 10.1162/089976600300015196 . ПМИД   10953244 . S2CID   15090951 .
  89. ^ Гомес, Фаустино Дж.; Мииккулайнен, Ристо (1999), «Решение немарковских задач управления с помощью нейроэволюции» (PDF) , IJCAI 99 , Морган Кауфманн , получено 5 августа 2017 г.
  90. ^ Сайед, Омар (май 1995 г.). Применение генетических алгоритмов к рекуррентным нейронным сетям для изучения параметров и архитектуры сети (MSc). Факультет электротехники Университета Кейс Вестерн Резерв.
  91. ^ Гомес, Фаустино Дж.; Шмидхубер, Юрген; Мииккулайнен, Ристо (июнь 2008 г.). «Ускоренная нервная эволюция посредством совместно развившихся синапсов» (PDF) . Журнал исследований машинного обучения . 9 : 937–965.
  92. ^ Сигельманн, Хава Т.; Хорн, Билл Г.; Джайлз, К. Ли (1995). «Вычислительные возможности рекуррентных нейронных сетей NARX» . Транзакции IEEE в системах, человеке и кибернетике. Часть B: Кибернетика . 27 (2): 208–15. CiteSeerX   10.1.1.48.7468 . дои : 10.1109/3477.558801 . ПМИД   18255858 .
  93. ^ Ходассман, Шири; Меир, Юваль; Кисос, Карин; Бен-Ноам, Итамар; Тугендхафт, Яэль; Голденталь, Амир; Варди, Рони; Кантер, Идо (29 сентября 2022 г.). «Механизм подавления нейронов, вдохновленный мозгом, обеспечивает надежную идентификацию последовательностей» . Научные отчеты . 12 (1): 16003. arXiv : 2203.13028 . Бибкод : 2022NatSR..1216003H . дои : 10.1038/s41598-022-20337-x . ISSN   2045-2322 . ПМЦ   9523036 . ПМИД   36175466 .
  94. ^ Мец, Кейд (18 мая 2016 г.). «Google создала собственные чипы для работы своих ботов с искусственным интеллектом» . Проводной .
  95. ^ Майер, Герман; Гомес, Фаустино Дж.; Виерстра, Даан; Надь, Иштван; Нолл, Алоис; Шмидхубер, Юрген (октябрь 2006 г.). «Система для роботизированной кардиохирургии, которая учится завязывать узлы с помощью рекуррентных нейронных сетей». 2006 Международная конференция IEEE/RSJ по интеллектуальным роботам и системам . стр. 543–548. CiteSeerX   10.1.1.218.3399 . дои : 10.1109/IROS.2006.282190 . ISBN  978-1-4244-0258-8 . S2CID   12284900 .
  96. ^ Виерстра, Даан; Шмидхубер, Юрген; Гомес, Фаустино Дж. (2005). «Эволино: гибридная нейроэволюция/оптимальный линейный поиск для последовательного обучения» . Материалы 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург . стр. 853–8. OCLC   62330637 .
  97. ^ Петнехази, Габор (01 января 2019 г.). «Рекуррентные нейронные сети для прогнозирования временных рядов». arXiv : 1901.00069 [ cs.LG ].
  98. ^ Хевамалагэ, Хансика; Бергмейр, Кристоф; Бандара, Касун (2020). «Рекуррентные нейронные сети для прогнозирования временных рядов: текущий статус и будущие направления». Международный журнал прогнозирования . 37 : 388–427. arXiv : 1909.00590 . doi : 10.1016/j.ijforecast.2020.06.008 . S2CID   202540863 .
  99. ^ Грейвс, Алекс; Шмидхубер, Юрген (2005). «Кадровая классификация фонем с помощью двунаправленного LSTM и других архитектур нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX   10.1.1.331.5800 . дои : 10.1016/j.neunet.2005.06.042 . ПМИД   16112549 . S2CID   1856462 .
  100. ^ Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри Э. (2013). «Распознавание речи с помощью глубоких рекуррентных нейронных сетей». Международная конференция IEEE 2013 по акустике, речи и обработке сигналов . стр. 6645–9. arXiv : 1303.5778 . Бибкод : 2013arXiv1303.5778G . дои : 10.1109/ICASSP.2013.6638947 . ISBN  978-1-4799-0356-6 . S2CID   206741496 .
  101. ^ Чанг, Эдвард Ф.; Чартье, Джош; Ануманчипалли, Гопала К. (24 апреля 2019 г.). «Синтез речи на основе нейронного декодирования произнесенных предложений» . Природа . 568 (7753): 493–8. Бибкод : 2019Natur.568..493A . дои : 10.1038/s41586-019-1119-1 . ISSN   1476-4687 . ПМЦ   9714519 . ПМИД   31019317 . S2CID   129946122 .
  102. ^ Моисей, Дэвид А.; Мецгер, Шон Л.; Лю, Джесси Р.; Ануманчипалли, Гопала К.; Макин, Джозеф Г.; Сунь, Пэнфэй Ф.; Чартье, Джош; Догерти, Максимилиан Э.; Лю, Патрисия М.; Абрамс, Гэри М.; Ту-Чан, Аделин; Гангулы, Карунеш; Чанг, Эдвард Ф. (15 июля 2021 г.). «Нейропротез для декодирования речи у парализованного человека с анартрией» . Медицинский журнал Новой Англии . 385 (3): 217–227. дои : 10.1056/NEJMoa2027540 . ПМЦ   8972947 . ПМИД   34260835 .
  103. ^ Малхотра, Панкадж; Виг, Лавкеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети долговременной памяти для обнаружения аномалий во временных рядах» . Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению – ESANN 2015 . Чако. стр. 89–94. ISBN  978-2-87587-015-5 .
  104. ^ «Документы с кодом — DeepHS-HDRVideo: глубокая высокоскоростная реконструкция видео с широким динамическим диапазоном» . paperswithcode.com . Проверено 13 октября 2022 г.
  105. ^ Герс, Феликс А.; Шраудольф, Никол Н.; Шмидхубер, Юрген (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
  106. ^ Эк, Дуглас; Шмидхубер, Юрген (28 августа 2002 г.). «Изучение долгосрочной структуры блюза». Искусственные нейронные сети — ICANN 2002 . Конспекты лекций по информатике. Том. 2415. Берлин, Гейдельберг: Springer. стр. 284–289. CiteSeerX   10.1.1.116.3620 . дои : 10.1007/3-540-46084-5_47 . ISBN  978-3-540-46084-8 .
  107. ^ Шмидхубер, Юрген; Герс, Феликс А.; Эк, Дуглас (2002). «Изучение нерегулярных языков: сравнение простых рекуррентных сетей и LSTM». Нейронные вычисления . 14 (9): 2039–2041. CiteSeerX   10.1.1.11.7369 . дои : 10.1162/089976602320263980 . ПМИД   12184841 . S2CID   30459046 .
  108. ^ Перес-Ортис, Хуан Антонио; Герс, Феликс А.; Эк, Дуглас; Шмидхубер, Юрген (2003). «Фильтры Калмана улучшают производительность сети LSTM в задачах, неразрешимых традиционными рекуррентными сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX   10.1.1.381.1992 . дои : 10.1016/s0893-6080(02)00219-8 . ПМИД   12628609 .
  109. ^ Грейвс, Алекс; Шмидхубер, Юрген (2009). «Офлайн-распознавание рукописного текста с помощью многомерных рекуррентных нейронных сетей» (PDF) . Достижения в области нейронных систем обработки информации . Том. 22, НИПС'22. МТИ Пресс. стр. 545–552.
  110. ^ Грейвс, Алекс; Фернандес, Сантьяго; Ливицкий, Маркус; Бунке, Хорст; Шмидхубер, Юрген (2007). «Неограниченное онлайн-распознавание рукописного текста с помощью рекуррентных нейронных сетей» . Материалы 20-й Международной конференции по нейронным системам обработки информации . Карран Ассошиэйтс. стр. 577–584. ISBN  978-1-60560-352-0 .
  111. ^ Баккуш, Моэз; Мамалет, Франк; Вольф, Кристиан; Гарсия, Кристоф; Баскурт, Атилла (2011). «Последовательное глубокое обучение для распознавания действий человека». В Салахе Альберт Али; Лепри, Бруно (ред.). Понимание человеческого поведения . Конспекты лекций по информатике. Том. 7065. Амстердам, Нидерланды: Springer. стр. 29–39. дои : 10.1007/978-3-642-25446-8_4 . ISBN  978-3-642-25445-1 .
  112. ^ Хохрейтер, Зепп; Хойзель, Мартин; Обермайер, Клаус (2007). «Быстрое обнаружение гомологии белков на основе моделей без выравнивания» . Биоинформатика . 23 (14): 1728–1736. doi : 10.1093/биоинформатика/btm247 . ПМИД   17488755 .
  113. ^ Налог, Ник; Веренич, Илья; Ла Роза, Марчелло; Дюма, Марлон (2017). «Прогнозирующий мониторинг бизнес-процессов с помощью нейронных сетей LSTM». Инженерия передовых информационных систем . Конспекты лекций по информатике. Том. 10253. стр. 477–492. arXiv : 1612.02130 . дои : 10.1007/978-3-319-59536-8_30 . ISBN  978-3-319-59535-1 . S2CID   2192354 .
  114. ^ Чой, Эдвард; Бахадори, Мохаммад Таха; Шуец, Энди; Стюарт, Уолтер Ф.; Сунь, Джимэн (2016). «Доктор ИИ: прогнозирование клинических событий с помощью рекуррентных нейронных сетей» . Материалы семинара и конференции JMLR . 56 : 301–318. arXiv : 1511.05942 . Бибкод : 2015arXiv151105942C . ПМК   5341604 . ПМИД   28286600 .
  115. ^ «Искусственный интеллект помогает ускорить прогресс в направлении эффективных термоядерных реакций» . Университет Принстон . Проверено 12 июня 2023 г.

Дальнейшее чтение [ править ]

  • Мандич, Данило П.; Чемберс, Джонатон А. (2001). Рекуррентные нейронные сети для прогнозирования: алгоритмы обучения, архитектура и стабильность . Уайли. ISBN  978-0-471-49517-8 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 641DEADA193797E4D4E7CB9CA898D60E__1716219240
URL1:https://en.wikipedia.org/wiki/Recurrent_neural_network
Заголовок, (Title) документа по адресу, URL1:
Recurrent neural network - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)