Большие ограничения ширины нейронных сетей
Искусственные нейронные сети — это класс моделей, используемых в машинном обучении и вдохновленных биологическими нейронными сетями . Они являются основным компонентом современных алгоритмов глубокого обучения . Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов . Количество нейронов в слое называется шириной слоя. Теоретический анализ искусственных нейронных сетей иногда рассматривает предельный случай, когда ширина слоя становится большой или бесконечной. Этот предел позволяет делать простые аналитические утверждения о прогнозах нейронной сети, динамике обучения, обобщении и поверхностях потерь. Этот широкий предел слоев также представляет практический интерес, поскольку нейронные сети конечной ширины часто работают строго лучше с увеличением ширины слоя. [1] [2] [3] [4] [5] [6]
Теоретические подходы, основанные на большом пределе ширины
[ редактировать ]- Гауссов процесс нейронной сети (NNGP) соответствует пределу бесконечной ширины байесовских нейронных сетей и распределению по функциям, реализуемым небайесовскими нейронными сетями после случайной инициализации. [7] [8] [9] [10]
- Те же базовые вычисления, которые используются для получения ядра NNGP, также используются при глубоком распространении информации , чтобы охарактеризовать распространение информации о градиентах и входных данных через глубокую сеть. [11] Эта характеристика используется для прогнозирования того, как обучаемость модели зависит от архитектуры и гиперпараметров инициализации.
- Ядро Neural Tangent описывает эволюцию прогнозов нейронной сети во время обучения градиентному спуску. В пределе бесконечной ширины NTK обычно становится постоянным, что часто позволяет использовать выражения в замкнутой форме для функции, вычисленной широкой нейронной сетью во время обучения градиентному спуску. [12] Динамика обучения по существу становится линеаризованной. [13]
- Анализ пределов среднего поля применительно к нейронным сетям с весовым масштабированием вместо и достаточно большие скорости обучения предсказывают качественно отличную нелинейную динамику обучения по сравнению со статическим линейным поведением, описываемым фиксированным ядром нейронного касательного, предлагая альтернативные пути для понимания сетей бесконечной ширины. [14] [15]
- Динамика катапульты описывает динамику обучения нейронной сети в случае, когда логиты расходятся до бесконечности при стремлении ширины слоя к бесконечности, и описывает качественные свойства динамики раннего обучения. [16]
Ссылки
[ редактировать ]- ^ Новак, Роман; Бахри, Ясаман; Аболафия, Дэниел А.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15 февраля 2018 г.). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование» . Международная конференция по обучению представлений . arXiv : 1802.08760 . Бибкод : 2018arXiv180208760N .
- ^ Канциани, Альфредо; Пашке, Адам; Кулурчелло, Эухенио (4 ноября 2016 г.). «Анализ моделей глубоких нейронных сетей для практических приложений» . arXiv : 1605.07678 . Бибкод : 2016arXiv160507678C .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Новак, Роман; Сяо, Лечао; Ли, Джехун; Бахри, Ясаман; Ян, Грег; Аболафия, Дэн; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2018). «Байесовские глубокие сверточные сети со многими каналами являются гауссовскими процессами». Международная конференция по обучению представлений . arXiv : 1810.05148 . Бибкод : 2018arXiv181005148N .
- ^ Нейшабур, Бехнам; Ли, Чжиюань; Бходжанапалли, Шринад; ЛеКун, Янн; Сребро, Натан (2019). «На пути к пониманию роли чрезмерной параметризации в обобщении нейронных сетей». Международная конференция по обучению представлений . arXiv : 1805.12076 . Бибкод : 2018arXiv180512076N .
- ^ Лоуренс, Стив; Джайлз, К. Ли; Цой, А Чунг (1996). «Какой размер нейронной сети дает оптимальное обобщение? Свойства сходимости обратного распространения ошибки». CiteSeerX 10.1.1.125.6019 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Бартлетт, Польша (1998). «Выборочная сложность классификации шаблонов с помощью нейронных сетей: размер весов важнее размера сети» . Транзакции IEEE по теории информации . 44 (2): 525–536. дои : 10.1109/18.661502 . ISSN 1557-9654 .
- ^ Нил, Рэдфорд М. (1996), «Априорные условия для бесконечных сетей», Байесовское обучение нейронных сетей , Конспекты лекций по статистике, том. 118, Springer New York, стр. 29–53, номер документа : 10.1007/978-1-4612-0745-0_2 , ISBN. 978-0-387-94724-2
- ^ Ли, Джехун; Бахри, Ясаман; Новак, Роман; Шенхольц, Сэмюэл С.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2017). «Глубокие нейронные сети как гауссовы процессы». Международная конференция по обучению представлений . arXiv : 1711.00165 . Бибкод : 2017arXiv171100165L .
- ^ Г. де Дж. Мэтьюз, Александр; Роуленд, Марк; Хрон, Иржи; Тернер, Ричард Э.; Гахрамани, Зубин (2017). «Поведение гауссовского процесса в широких глубоких нейронных сетях». Международная конференция по обучению представлений . arXiv : 1804.11271 . Бибкод : 2018arXiv180411271M .
- ^ Хрон, Иржи; Бахри, Ясаман; Новак, Роман; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2020). «Точные апостериорные распределения широких байесовских нейронных сетей». Семинар ICML 2020 по неопределенности и устойчивости в глубоком обучении . arXiv : 2006.10541 .
- ^ Шенхольц, Сэмюэл С.; Гилмер, Джастин; Гангули, Сурья; Золь-Дикштейн, Яша (2016). «Глубокое распространение информации». Международная конференция по обучению представлений . arXiv : 1611.01232 .
- ^ Жако, Артур; Габриэль, Франк; Хонглер, Клемент (2018). «Нейронное касательное ядро: конвергенция и обобщение в нейронных сетях». Достижения в области нейронных систем обработки информации . arXiv : 1806.07572 .
- ^ Ли, Джехун; Сяо, Лечао; Шенхольц, Сэмюэл С.; Бахри, Ясаман; Новак, Роман; Золь-Дикштейн, Яша; Пеннингтон, Джеффри (2020). «Широкие нейронные сети любой глубины развиваются как линейные модели при градиентном спуске». Журнал статистической механики: теория и эксперимент . 2020 (12): 124002. arXiv : 1902.06720 . Бибкод : 2020JSMTE2020l4002L . дои : 10.1088/1742-5468/abc62b . S2CID 62841516 .
- ^ Мэй, Сон Монтанари, Андреа Нгуен, Фан-Мин (18 апреля 2018 г.). Среднее представление ландшафта двухслойных нейронных сетей . OCLC 1106295873 .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Нгуен, Фан-Мин; Фам, Хай Туан (2020). «Строгая основа предела среднего поля многослойных нейронных сетей». arXiv : 2001.11443 [ cs.LG ].
- ^ Левкович, Айтор; Бахри, Ясаман; Дайер, Итан; Золь-Дикштейн, Яша; Гур-Ари, Гай (2020). «Фаза глубокого обучения с большой скоростью обучения: механизм катапульты». arXiv : 2003.02218 [ stat.ML ].