Jump to content

Большие ограничения ширины нейронных сетей

Продолжительность: 8 секунд.
Поведение нейронной сети упрощается, поскольку она становится бесконечно широкой. Слева : байесовская нейронная сеть с двумя скрытыми слоями, преобразующая трехмерные входные данные (внизу) в двумерные выходные данные. (вершина). Справа : выходная функция плотности вероятности. индуцированные случайными весами сети. Видео : по мере увеличения ширины сети выходное распределение упрощается, в конечном итоге сходясь к гауссовскому процессу нейронной сети в пределе бесконечной ширины.

Искусственные нейронные сети — это класс моделей, используемых в машинном обучении и вдохновленных биологическими нейронными сетями . Они являются основным компонентом современных алгоритмов глубокого обучения . Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов . Количество нейронов в слое называется шириной слоя. Теоретический анализ искусственных нейронных сетей иногда рассматривает предельный случай, когда ширина слоя становится большой или бесконечной. Этот предел позволяет делать простые аналитические утверждения о прогнозах нейронной сети, динамике обучения, обобщении и поверхностях потерь. Этот широкий предел слоев также представляет практический интерес, поскольку нейронные сети конечной ширины часто работают строго лучше с увеличением ширины слоя. [1] [2] [3] [4] [5] [6]

Теоретические подходы, основанные на большом пределе ширины

[ редактировать ]
  • Гауссов процесс нейронной сети (NNGP) соответствует пределу бесконечной ширины байесовских нейронных сетей и распределению по функциям, реализуемым небайесовскими нейронными сетями после случайной инициализации. [7] [8] [9] [10]
  • Те же базовые вычисления, которые используются для получения ядра NNGP, также используются при глубоком распространении информации , чтобы охарактеризовать распространение информации о градиентах и ​​входных данных через глубокую сеть. [11] Эта характеристика используется для прогнозирования того, как обучаемость модели зависит от архитектуры и гиперпараметров инициализации.
  • Ядро Neural Tangent описывает эволюцию прогнозов нейронной сети во время обучения градиентному спуску. В пределе бесконечной ширины NTK обычно становится постоянным, что часто позволяет использовать выражения в замкнутой форме для функции, вычисленной широкой нейронной сетью во время обучения градиентному спуску. [12] Динамика обучения по существу становится линеаризованной. [13]
  • Анализ пределов среднего поля применительно к нейронным сетям с весовым масштабированием вместо и достаточно большие скорости обучения предсказывают качественно отличную нелинейную динамику обучения по сравнению со статическим линейным поведением, описываемым фиксированным ядром нейронного касательного, предлагая альтернативные пути для понимания сетей бесконечной ширины. [14] [15]
  • Динамика катапульты описывает динамику обучения нейронной сети в случае, когда логиты расходятся до бесконечности при стремлении ширины слоя к бесконечности, и описывает качественные свойства динамики раннего обучения. [16]
  1. ^ Новак, Роман; Бахри, Ясаман; Аболафия, Дэниел А.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15 февраля 2018 г.). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование» . Международная конференция по обучению представлений . arXiv : 1802.08760 . Бибкод : 2018arXiv180208760N .
  2. ^ Канциани, Альфредо; Пашке, Адам; Кулурчелло, Эухенио (4 ноября 2016 г.). «Анализ моделей глубоких нейронных сетей для практических приложений» . arXiv : 1605.07678 . Бибкод : 2016arXiv160507678C . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  3. ^ Новак, Роман; Сяо, Лечао; Ли, Джехун; Бахри, Ясаман; Ян, Грег; Аболафия, Дэн; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2018). «Байесовские глубокие сверточные сети со многими каналами являются гауссовскими процессами». Международная конференция по обучению представлений . arXiv : 1810.05148 . Бибкод : 2018arXiv181005148N .
  4. ^ Нейшабур, Бехнам; Ли, Чжиюань; Бходжанапалли, Шринад; ЛеКун, Янн; Сребро, Натан (2019). «На пути к пониманию роли чрезмерной параметризации в обобщении нейронных сетей». Международная конференция по обучению представлений . arXiv : 1805.12076 . Бибкод : 2018arXiv180512076N .
  5. ^ Лоуренс, Стив; Джайлз, К. Ли; Цой, А Чунг (1996). «Какой размер нейронной сети дает оптимальное обобщение? Свойства сходимости обратного распространения ошибки». CiteSeerX   10.1.1.125.6019 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  6. ^ Бартлетт, Польша (1998). «Выборочная сложность классификации шаблонов с помощью нейронных сетей: размер весов важнее размера сети» . Транзакции IEEE по теории информации . 44 (2): 525–536. дои : 10.1109/18.661502 . ISSN   1557-9654 .
  7. ^ Нил, Рэдфорд М. (1996), «Априорные условия для бесконечных сетей», Байесовское обучение нейронных сетей , Конспекты лекций по статистике, том. 118, Springer New York, стр. 29–53, номер документа : 10.1007/978-1-4612-0745-0_2 , ISBN.  978-0-387-94724-2
  8. ^ Ли, Джехун; Бахри, Ясаман; Новак, Роман; Шенхольц, Сэмюэл С.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2017). «Глубокие нейронные сети как гауссовы процессы». Международная конференция по обучению представлений . arXiv : 1711.00165 . Бибкод : 2017arXiv171100165L .
  9. ^ Г. де Дж. Мэтьюз, Александр; Роуленд, Марк; Хрон, Иржи; Тернер, Ричард Э.; Гахрамани, Зубин (2017). «Поведение гауссовского процесса в широких глубоких нейронных сетях». Международная конференция по обучению представлений . arXiv : 1804.11271 . Бибкод : 2018arXiv180411271M .
  10. ^ Хрон, Иржи; Бахри, Ясаман; Новак, Роман; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2020). «Точные апостериорные распределения широких байесовских нейронных сетей». Семинар ICML 2020 по неопределенности и устойчивости в глубоком обучении . arXiv : 2006.10541 .
  11. ^ Шенхольц, Сэмюэл С.; Гилмер, Джастин; Гангули, Сурья; Золь-Дикштейн, Яша (2016). «Глубокое распространение информации». Международная конференция по обучению представлений . arXiv : 1611.01232 .
  12. ^ Жако, Артур; Габриэль, Франк; Хонглер, Клемент (2018). «Нейронное касательное ядро: конвергенция и обобщение в нейронных сетях». Достижения в области нейронных систем обработки информации . arXiv : 1806.07572 .
  13. ^ Ли, Джехун; Сяо, Лечао; Шенхольц, Сэмюэл С.; Бахри, Ясаман; Новак, Роман; Золь-Дикштейн, Яша; Пеннингтон, Джеффри (2020). «Широкие нейронные сети любой глубины развиваются как линейные модели при градиентном спуске». Журнал статистической механики: теория и эксперимент . 2020 (12): 124002. arXiv : 1902.06720 . Бибкод : 2020JSMTE2020l4002L . дои : 10.1088/1742-5468/abc62b . S2CID   62841516 .
  14. ^ Мэй, Сон Монтанари, Андреа Нгуен, Фан-Мин (18 апреля 2018 г.). Среднее представление ландшафта двухслойных нейронных сетей . OCLC   1106295873 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  15. ^ Нгуен, Фан-Мин; Фам, Хай Туан (2020). «Строгая основа предела среднего поля многослойных нейронных сетей». arXiv : 2001.11443 [ cs.LG ].
  16. ^ Левкович, Айтор; Бахри, Ясаман; Дайер, Итан; Золь-Дикштейн, Яша; Гур-Ари, Гай (2020). «Фаза глубокого обучения с большой скоростью обучения: механизм катапульты». arXiv : 2003.02218 [ stat.ML ].
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5f537584a876ec5f2b4a4cbd204004d9__1707121200
URL1:https://arc.ask3.ru/arc/aa/5f/d9/5f537584a876ec5f2b4a4cbd204004d9.html
Заголовок, (Title) документа по адресу, URL1:
Large width limits of neural networks - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)