Государственная сеть Эхо

Сеть состояний эха ( ESN ) [1] [2] это тип коллекторного компьютера , который использует рекуррентную нейронную сеть с редко связанным скрытым слоем (обычно со связностью 1%). Связность и веса скрытых нейронов фиксированы и назначаются случайным образом. Можно узнать веса выходных нейронов, чтобы сеть могла создавать или воспроизводить определенные временные закономерности. Основной интерес этой сети заключается в том, что, хотя ее поведение нелинейно, единственные веса, которые изменяются во время обучения, предназначены для синапсов, которые соединяют скрытые нейроны с выходными нейронами. Таким образом, функция ошибок квадратична по отношению к вектору параметров и ее можно легко дифференцировать до линейной системы.
В качестве альтернативы можно рассмотреть непараметрическую байесовскую формулировку выходного слоя, при которой: (i) к выходным весам применяется априорное распределение; и (ii) выходные веса исключаются в контексте генерации прогнозов с учетом обучающих данных. Эта идея была продемонстрирована в [3] с использованием априорных значений Гаусса, в результате чего получается модель гауссовского процесса с функцией ядра, управляемой ESN. Было показано, что такое решение превосходит ESN с обучаемыми (конечными) наборами весов в нескольких тестах.
Некоторые общедоступные реализации ESN: (i) aureservoir: эффективная библиотека C++ для различных типов сетей состояний эха с привязками python/numpy; (ii) Код Matlab: эффективный Matlab для сети эхо-состояний; (iii) ReservoirComputing.jl: эффективная реализация различных типов сетей эхо-состояний на основе Julia; и (iv) pyESN: простые сети состояний эха в Python.
Предыстория [ править ]
Сеть штата Эхо (ESN) [4] принадлежит к семейству рекуррентных нейронных сетей (RNN) и обеспечивает их архитектуру и принцип контролируемого обучения. В отличие от нейронных сетей с прямой связью, рекуррентные нейронные сети представляют собой динамические системы, а не функции. Рекуррентные нейронные сети обычно используются для:
- Изучение динамических процессов: обработка сигналов в технике и телекоммуникациях, анализ вибрации, сейсмология, управление двигателями и генераторами.
- Прогнозирование и генерация сигналов: текст, музыка, электрические сигналы, хаотические сигналы. [5]
- Моделирование биологических систем, нейронауки (когнитивная нейродинамика), моделирование памяти, интерфейсы «мозг-компьютер» (BCI), фильтрация и процессы Калмана, военные приложения, моделирование волатильности и т. д.
Для обучения RNN доступен ряд алгоритмов обучения: обратное распространение ошибки во времени, рекуррентное обучение в реальном времени . Сходимость не гарантируется из-за неустойчивости и явлений бифуркации. [4]
Основной подход ESN заключается, во-первых, в управлении случайной, большой, фиксированной, повторяющейся нейронной сетью с входным сигналом, который вызывает нелинейный ответный сигнал в каждом нейроне в этой «резервуарной» сети, а во-вторых, в подключении желаемого выходного сигнала с помощью обучаемая линейная комбинация всех этих ответных сигналов. [2]
Еще одной особенностью ESN является автономная работа при прогнозировании: если сеть состояний эха обучена с использованием входных данных, которые представляют собой сдвинутую назад версию выходных данных, то ее можно использовать для генерации/прогнозирования сигналов, используя предыдущий выходной сигнал в качестве входных данных. [4] [5]
Основная идея ESN связана с автоматами с жидкими состояниями (LSM), которые были независимо и одновременно с ESN разработаны Вольфгангом Маассом. [6] LSM, ESN и недавно исследованное правило обучения декорреляции обратного распространения ошибки для RNN. [7] все больше и больше объединяются под названием Reservoir Computing.
Шиллер и Стейл [7] также продемонстрировал, что в традиционных подходах к обучению RNN, в которых адаптируются все веса (не только выходные веса), доминирующие изменения происходят в выходных весах. В области когнитивной нейробиологии Питер Ф. Домини проанализировал родственный процесс, связанный с моделированием обработки последовательностей в мозгу млекопитающих, в частности, с распознаванием речи в мозгу человека. [8] Основная идея также включала модель временного распознавания входных данных в биологических нейронных сетях. [9] Ранняя ясная формулировка идеи расчета пласта принадлежит К. Кирби, который раскрыл эту концепцию в почти забытом докладе на конференции. [10] Первая известная сегодня формулировка идеи расчета резервуаров принадлежит Л. Шомейкеру, [11] который описал, как желаемый целевой результат может быть получен из RNN, научившись комбинировать сигналы от случайно настроенного ансамбля импульсных нейронных осцилляторов. [2]
Варианты [ править ]
Сети состояний эха могут быть построены по-разному. Они могут быть настроены с или без непосредственно обучаемых соединений ввода-вывода, с обратной связью по резервированию выходных данных или без нее, с разными нейротипами, различными моделями внутренних связей резервуара и т. д. Выходной вес может быть рассчитан для линейной регрессии со всеми алгоритмами, независимо от того, являются ли они онлайн или оффлайн. Помимо решений для ошибок с наименьшими квадратами, для определения выходных значений используются критерии максимизации запаса, так называемые машины опорных векторов обучения. [12] Другие варианты сетей эхо-состояний стремятся изменить формулировку, чтобы лучше соответствовать общим моделям физических систем, например тем, которые обычно определяются дифференциальными уравнениями. Работа в этом направлении включает сети эхо-состояний, которые частично включают физические модели, [13] гибридные сети состояний эха, [14] и сети состояний эха непрерывного времени. [15]
Фиксированная RNN действует как случайная нелинейная среда, динамическая реакция которой, «эхо», используется в качестве основы сигнала. Линейную комбинацию этой базы можно обучить восстановлению желаемого результата путем минимизации некоторых критериев ошибки. [2]
Значение [ править ]
До появления ESN RNN редко использовались на практике из-за сложности настройки их связей (например, отсутствия автодифференцировки, склонности к исчезновению/взрыву градиентов и т. д.). Алгоритмы обучения RNN были медленными и часто уязвимыми к таким проблемам, как ошибки ветвления. [16] Таким образом, конвергенция не может быть гарантирована. С другой стороны, обучение ESN не имеет проблем с ветвлением и его легко реализовать. В ранних исследованиях было показано, что ESN хорошо справляются с задачами прогнозирования временных рядов на основе синтетических наборов данных. [1] [17]
Однако сегодня многие проблемы, которые делали RNN медленными и подверженными ошибкам, были решены с появлением библиотек автодифференциации (глубокого обучения), а также более стабильных архитектур, таких как LSTM и GRU , что является уникальным преимуществом ESN. было потеряно. Кроме того, RNN зарекомендовали себя в нескольких практических областях, таких как языковая обработка. Для решения задач подобной сложности с использованием методов расчета пласта требуется память чрезмерного размера.
Однако ESN используются в некоторых областях, например, во многих приложениях обработки сигналов. В частности, они широко использовались в качестве вычислительного принципа, который хорошо сочетается с нецифровыми компьютерными основами. Поскольку ESN не нуждаются в модификации параметров RNN, они позволяют использовать множество различных объектов в качестве своего нелинейного «резервуара». Например, оптические микрочипы, механические наноосцилляторы, полимерные смеси или даже искусственные мягкие конечности. [2]
См. также [ править ]
- Машина с жидким состоянием : аналогичная концепция с обобщенным сигналом и сетью.
- Резервуарные вычисления
Ссылки [ править ]
- ^ Jump up to: а б Джагер, Х.; Хаас, Х. (2004). «Использование нелинейности: прогнозирование хаотических систем и экономия энергии в беспроводной связи» (PDF) . Наука . 304 (5667): 78–80. Бибкод : 2004Sci...304...78J . дои : 10.1126/science.1091277 . ПМИД 15064413 . S2CID 2184251 .
- ^ Jump up to: а б с д и Джагер, Герберт (2007). «Эхо государственной сети» . Схоларпедия . 2 (9): 2330. Бибкод : 2007SchpJ...2.2330J . doi : 10.4249/scholarpedia.2330 .
- ^ Чацис, СП; Демирис, Ю. (2011). «Гауссов процесс эхо-состояния». Транзакции IEEE в нейронных сетях . 22 (9): 1435–1445. дои : 10.1109/ТНН.2011.2162109 . ПМИД 21803684 . S2CID 8553623 .
- ^ Jump up to: а б с Джагер, Герберт (2002). Учебное пособие по обучению рекуррентных нейронных сетей, охватывающее BPPT, RTRL, EKF и подход «сети эхо-состояний» . Германия: Немецкий национальный исследовательский центр информационных технологий. стр. 1–45.
- ^ Jump up to: а б Антоник, Петр; Гулина, Марвин; Пауэлс, Джаэль; Массар, Серж (2018). «Использование пластового компьютера для изучения хаотических аттракторов с приложениями для синхронизации хаоса и криптографии». Физ. Преподобный Е. 98 (1): 012215. arXiv : 1802.02844 . Бибкод : 2018PhRvE..98a2215A . дои : 10.1103/PhysRevE.98.012215 . ПМИД 30110744 . S2CID 3616565 .
- ^ Маасс В., Натшлагер Т. и Маркрам Х. (2002). «Вычисления в реальном времени без стабильных состояний: новая основа нейронных вычислений, основанная на возмущениях». Нейронные вычисления . 14 (11): 2531–2560. дои : 10.1162/089976602760407955 . ПМИД 12433288 . S2CID 1045112 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Jump up to: а б Шиллер У.Д. и Стейл Дж.Дж. (2005). «Анализ весовой динамики алгоритмов рекуррентного обучения». Нейрокомпьютинг . 63 : 5–23. doi : 10.1016/j.neucom.2004.04.006 .
- ^ Домини П.Ф. (1995). «Сложное обучение сенсомоторной последовательности, основанное на репрезентации повторяющихся состояний и обучении с подкреплением». Биол. Кибернетика . 73 (3): 265–274. дои : 10.1007/BF00201428 . ПМИД 7548314 . S2CID 1603500 .
- ^ Буономано Д.В. и Мерцених ММ (1995). «Временная информация преобразуется в пространственный код с помощью нейронной сети с реалистичными свойствами». Наука . 267 (5200): 1028–1030. Бибкод : 1995Sci...267.1028B . дои : 10.1126/science.7863330 . ПМИД 7863330 . S2CID 12880807 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Кирби, К. (1991). «Контекстная динамика в нейронном последовательном обучении. Учебное пособие». Исследовательский симпозиум по искусственному интеллекту во Флориде : 66–70.
- ^ Шомейкер, Л. (1992). «Нейронная осцилляторно-сетевая модель генерации временных паттернов». Наука о движении человека . 11 (1–2): 181–192. дои : 10.1016/0167-9457(92)90059-К .
- ^ Шмидхубер Дж., Гомес Ф., Виерстра Д. и Гальоло М. (2007). «Обучение рекуррентных сетей от evolino». Нейронные вычисления . 19 (3): 757–779. CiteSeerX 10.1.1.218.3086 . дои : 10.1162/neco.2007.19.3.757 . ПМИД 17298232 . S2CID 11745761 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Доан Н., Полифке В., Магри Л. (2020). «Сети состояний эха, основанные на физике». Журнал вычислительной науки . 47 : 101237. arXiv : 2011.02280 . дои : 10.1016/j.jocs.2020.101237 . S2CID 226246385 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Патак Дж., Викнер А., Рассел Р., Чандра С., Хант Б., Гирван М., Отт Э. (2018). «Гибридное прогнозирование хаотических процессов: использование машинного обучения в сочетании с моделью, основанной на знаниях». Хаос . 28 (4): 041101. arXiv : 1803.04779 . Бибкод : 2018Хаос..28d1101P . дои : 10.1063/1.5028373 . ПМИД 31906641 . S2CID 3883587 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Анантараман, Ранджан; Ма, Инбо; Гауда, Шаши; Лафман, Крис; Шах, Вирал; Эдельман, Алан; Ракаукас, Крис (2020). «Ускорение моделирования жестких нелинейных систем с использованием сетей состояний эхо-сигнала непрерывного времени». arXiv : 2010.04004 [ cs.LG ].
- ^ Дойя К. (1992). «Бифуркации в обучении рекуррентных нейронных сетей». [Труды] Международный симпозиум IEEE по схемам и системам , 1992 г. Том. 6. С. 2777–2780. дои : 10.1109/ISCAS.1992.230622 . ISBN 0-7803-0593-0 . S2CID 15069221 .
- ^ Джагер Х. (2007). «Обнаружение многомасштабных динамических характеристик с помощью иерархических сетей эхо-состояний». Технический отчет 10, Школа инженерии и науки, Университет Джейкобса .