Нейронное касательное ядро

При изучении искусственных нейронных сетей (ИНС) нейронное касательное ядро ( NTK ) — это ядро , которое описывает эволюцию глубоких искусственных нейронных сетей во время их обучения методом градиентного спуска . Это позволяет изучать ИНС с использованием теоретических инструментов ядерных методов .

В общем, ядро — это положительно-полуопределенная симметричная функция двух входных данных, которая представляет некоторое понятие подобия между двумя входными данными. NTK — это конкретное ядро, полученное из данной нейронной сети; в общем, когда параметры нейронной сети изменяются во время обучения, NTK также развивается. Однако в пределе большой ширины слоя NTK становится постоянным, обнаруживая двойственность между обучением широкой нейронной сети и методами ядра: градиентный спуск в пределе бесконечной ширины полностью эквивалентен градиентному спуску ядра с NTK. В результате использование градиентного спуска для минимизации потерь по методу наименьших квадратов для нейронных сетей дает ту же самую среднюю оценку, что и регрессия ядра без гребней с NTK. Эта двойственность позволяет использовать простые уравнения в замкнутой форме, описывающие динамику обучения, обобщение и прогнозы широких нейронных сетей.

NTK был представлен в 2018 году Артуром Жако, Франком Габриэлем и Клеманом Хонглером. ^[1] который использовал его для изучения свойств сходимости и обобщения полностью связанных нейронных сетей. Более поздние работы ^[2]^[3] распространил результаты NTK на другие архитектуры нейронных сетей. Фактически, явление, лежащее в основе NTK, не является специфичным для нейронных сетей и может наблюдаться в общих нелинейных моделях, обычно с помощью подходящего масштабирования. ^[4].

Основные результаты (неформальные)

Позволять $f(x;\theta )$ обозначают скалярную функцию, вычисляемую данной нейронной сетью с параметрами $\theta$ на входе $x$ . Затем определяется ядро нейронного касательного ^[1] как $\Theta (x,x';\theta )=\nabla _{\theta }f(x;\theta )\cdot \nabla _{\theta }f(x';\theta ).$ Поскольку он записывается как скалярное произведение сопоставленных входных данных (с градиентом функции нейронной сети, служащим картой признаков), мы гарантируем, что NTK является симметричным и положительно полуопределенным . Таким образом, NTK является допустимой функцией ядра.

Рассмотрим полносвязную нейронную сеть , параметры которой выбираются в соответствии с любым распределением среднего и нуля. Эта случайная инициализация $\theta$ вызывает распределение по $f(x;\theta )$ чью статистику мы будем анализировать как при инициализации, так и на протяжении всего обучения (градиентный спуск по указанному набору данных). Мы можем визуализировать это распределение с помощью ансамбля нейронных сетей, который создается путем многократного извлечения исходного распределения по $f(x;\theta )$ и обучение каждого розыгрыша согласно одной и той же процедуре обучения.

Количество нейронов в каждом слое называется шириной слоя. Рассмотрите возможность довести ширину каждого скрытого слоя до бесконечности и обучить нейронную сеть градиентному спуску (с достаточно небольшой скоростью обучения ). В этом пределе бесконечной ширины проявляется несколько приятных свойств:

При инициализации (до обучения) ансамбль нейронной сети представляет собой гауссов процесс с нулевым средним (GP). ^[5] Это означает, что распределение функций представляет собой распределение максимальной энтропии со средним значением $\mathbb {E} _{\theta }[f(x;\theta )]=0$ и ковариация $\mathbb {E} _{\theta }[f(x;\theta )f(x';\theta )]=\Sigma (x,x')$ , где ковариация GP $\Sigma (x,x')$ может быть вычислено на основе сетевой архитектуры. Другими словами, распределение функций нейронной сети при инициализации не имеет никакой структуры, кроме ее первого и второго моментов (среднего значения и ковариации). Это следует из центральной предельной теоремы.
NTK является детерминированным. ^[1]^[6] Другими словами, NTK не зависит от инициализации случайного параметра.
NTK не меняется во время обучения. ^[1]^[6]
Каждый параметр изменяется незначительно в ходе обучения. Как Ли и др. ^[6] обратите внимание: «хотя отдельные параметры изменяются на исчезающе малую величину, в совокупности они обеспечивают конечное изменение конечного результата сети, что необходимо для обучения».
Во время обучения нейронная сеть линеаризуется, т. е. ее зависимость от параметров может быть зафиксирована с помощью ее разложения Тейлора первого порядка : $f(x;\theta _{0}+\Delta \theta )=f(x;\theta _{0})+\Delta \theta \cdot \nabla _{\theta }f(x;\theta _{0})$ , где $\theta _{0}$ являются исходными параметрами. ^[6] Это следует из того, что каждый параметр в процессе обучения меняется незначительно. (Нейронная сеть остается нелинейной по отношению к входным данным.)
Динамика обучения эквивалентна градиентному спуску ядра с использованием NTK в качестве ядра. ^[1] Если функция потерь представляет собой среднеквадратическую ошибку , окончательное распределение по $f(x;\theta )$ по-прежнему является гауссовским процессом, но с новым средним значением и ковариацией. ^[1]^[6] В частности, среднее значение сходится к той же самой оценке, полученной с помощью ядерной регрессии с NTK в качестве регуляризации ядра и нулевого гребня , а ковариация выражается через NTK и начальную ковариацию GP. Можно показать, что дисперсия ансамбля исчезает в точках обучения (другими словами, нейронная сеть всегда интерполирует данные обучения, независимо от инициализации).

Приложения

Регрессия ядра без гребней и градиентный спуск ядра

Методы ядра — это алгоритмы машинного обучения, которые используют только парные отношения между входными точками. Методы ядра не зависят от конкретных значений входных данных; они зависят только от отношений между входными данными и другими входными данными (например, обучающим набором). Эти парные отношения полностью фиксируются функцией ядра: симметричной , положительно-полуопределенной функцией двух входных данных, которая представляет некоторое понятие сходства между двумя входными данными. Полностью эквивалентным условием является наличие некоторой карты признаков. ${\mathbf {x}}\mapsto \psi ({\mathbf {x}})$ так что функцию ядра можно записать как скалярное произведение сопоставленных входных данных. $K({\mathbf {x} },{\mathbf {x} }')=\psi ({\mathbf {x} })\cdot \psi ({\mathbf {x} }').$ Свойства метода ядра зависят от выбора функции ядра. (Обратите внимание, что $\psi ({\mathbf {x}})$ может иметь более высокую размерность, чем $\mathbf {x}$ .) В качестве подходящего примера рассмотрим линейную регрессию . Это задача оценки ${\mathbf {w}}^{*}$ данный $N$ образцы $({\mathbf {x}}_{i},y_{i})$ созданный из $y^{*}({\mathbf {x}})={\mathbf {w}}^{*}\cdot {\mathbf {x}}$ , где каждый $\mathbf {x} _{i}$ рисуется в соответствии с некоторым распределением входных данных. В этой настройке ${\mathbf {w}}^{*}$ - весовой вектор, который определяет истинную функцию $y^{*}$ ; мы хотим использовать обучающие выборки для разработки модели $\mathbf {\hat {w}}$ который приближает ${\mathbf {w}}^{*}$ . Мы делаем это, минимизируя среднеквадратическую ошибку между нашей моделью и обучающими выборками: ${\mathbf {\hat {w}} }=\arg \min _{\mathbf {w} }{\frac {1}{N}}\sum _{i=0}^{N}||y^{*}({\mathbf {x} }_{i})-{\mathbf {w} }\cdot {\mathbf {x} }_{i}||^{2}$ Существует явное решение для $\mathbf {\hat {w}}$ что минимизирует квадратичную ошибку: ${\mathbf {\hat {w}}}=({\mathbf {X}}{\mathbf {X}}^{T})^{-1}{\mathbf {X}}{\mathbf {y}}$ , где ${\mathbf {X}}$ - это матрица, столбцы которой являются обучающими входными данными, и ${\mathbf {y}}$ – вектор результатов обучения. Затем модель может делать прогнозы на основе новых входных данных: ${\hat {y}}({\mathbf {x}})={\mathbf {\hat {w}}}\cdot {\mathbf {x}}$ .

Однако этот результат можно переписать как: ${\hat {y}}({\mathbf {x}})=({\mathbf {x}}^{T}{\mathbf {X}})({\mathbf {X}}^{T}{\mathbf {X}})^{-1}{\mathbf {y}}$ . ^[7] Обратите внимание, что это двойное решение выражается исключительно через внутренние продукты между входами. Это мотивирует расширять линейную регрессию на настройки, в которых вместо прямого получения внутренних продуктов между входными данными мы сначала преобразуем входные данные в соответствии с выбранной картой признаков, а затем оцениваем внутренние продукты между преобразованными входными данными. Как обсуждалось выше, это может быть зафиксировано функцией ядра. $K({\mathbf {x}},{\mathbf {x}}')$ , поскольку все функции ядра являются внутренними продуктами входных данных с сопоставлением объектов. Это дает оценку регрессии ядра без гребней: ${\hat {y}}({\mathbf {x}})=K({\mathbf {x}},{\mathbf {X}})\;K({\mathbf {X}},{\mathbf {X}})^{-1}\;{\mathbf {y}}.$ Если ядро матрицы $K({\mathbf {X}},{\mathbf {X}})$ является сингулярным , используется псевдообратная функция Мура-Пенроуза . Уравнения регрессии называются «безгребневыми», поскольку в них отсутствует член регуляризации гребней .

С этой точки зрения линейная регрессия представляет собой особый случай ядерной регрессии с картой идентификационных признаков: $\psi ({\mathbf {x}})={\mathbf {x}}$ . Эквивалентно, ядерная регрессия — это просто линейная регрессия в пространстве признаков (т. е. диапазоне карты признаков, определенном выбранным ядром). Обратите внимание, что регрессия ядра обычно представляет собой нелинейную регрессию во входном пространстве, что является основным преимуществом алгоритма.

Точно так же, как можно выполнить линейную регрессию, используя алгоритмы итеративной оптимизации, такие как градиентный спуск, можно выполнить ядерную регрессию, используя градиентный спуск ядра. Это эквивалентно выполнению градиентного спуска в пространстве признаков. Известно, что если весовой вектор инициализирован близким к нулю, градиентный спуск методом наименьших квадратов сходится к решению минимальной нормы, т. е. конечный весовой вектор имеет минимальную евклидову норму всех интерполирующих решений. Точно так же градиентный спуск ядра дает решение минимальной нормы относительно нормы RKHS . Это пример неявной регуляризации градиентного спуска.

NTK обеспечивает строгую связь между выводом, выполняемым ИНС бесконечной ширины, и выводом, выполняемым методами ядра : когда функция потерь представляет собой потерю по методу наименьших квадратов , вывод, выполняемый ИНС, в ожидании равен регрессии ядра без ребер по отношению к НТК. Это говорит о том, что производительность больших ИНС при параметризации NTK может быть воспроизведена методами ядра для соответственно выбранных ядер. ^[1]^[2]

Сверхпараметризация, интерполяция и обобщение

В сверхпараметризованных моделях количество настраиваемых параметров превышает количество обучающих выборок. В этом случае модель способна запомнить (идеально подогнать) обучающие данные. Таким образом, модели с завышенными параметрами интерполируют данные обучения, практически достигая нулевой ошибки обучения. ^[8]

Регрессия ядра обычно рассматривается как непараметрический алгоритм обучения, поскольку нет явных параметров для настройки после выбора функции ядра. Альтернативный взгляд состоит в том, чтобы вспомнить, что регрессия ядра — это просто линейная регрессия в пространстве признаков, поэтому «эффективное» количество параметров — это размерность пространства признаков. Таким образом, изучение ядер с многомерными картами признаков может дать представление о сильно перепараметризованных моделях.

В качестве примера рассмотрим проблему обобщения. Согласно классической статистике, запоминание должно привести к тому, что модели будут соответствовать зашумленным сигналам в обучающих данных, что ухудшает их производительность на невидимых данных. Чтобы смягчить это, алгоритмы машинного обучения часто вводят регуляризацию, чтобы смягчить тенденцию к подгонке шума. Удивительно, но современные нейронные сети (которые имеют тенденцию сильно перепараметризироваться), похоже, хорошо обобщают даже при отсутствии явной регуляризации. ^[8]^[9] Чтобы изучить свойства обобщения сверхпараметризованных нейронных сетей, можно использовать двойственность бесконечной ширины с регрессией ядра без гребней. Последние работы ^[10]^[11]^[12] вывели уравнения, описывающие ожидаемую ошибку обобщения многомерной ядерной регрессии; эти результаты сразу объясняют обобщение достаточно широких нейронных сетей, обученных сходимости по методу наименьших квадратов.

Сходимость к глобальному минимуму

Для выпуклого функционала потерь ${\mathcal {C}}$ с глобальным минимумом , если NTK остается положительно-определенным во время обучения, потеря ИНС ${\mathcal {C}}\left(f\left(\cdot ;\theta \left(t\right)\right)\right)$ сходится к этому минимуму как $t\to \infty$ . Это свойство положительной определенности было показано в ряде случаев, что дало первые доказательства того, что ИНС большой ширины сходятся к глобальным минимумам во время обучения. ^[1]^[13]^[14]^[15]^[16]^[17]

Расширения и ограничения

NTK можно изучать для различных архитектур ИНС , ^[2] в частности, сверточные нейронные сети (CNN), ^[18] рекуррентные нейронные сети (RNN) и преобразователи . ^[19] В таких настройках предел большой ширины соответствует увеличению количества параметров при сохранении фиксированного количества слоев: для CNN это предполагает увеличение количества каналов.

Отдельные параметры широкой нейронной сети в режиме ядра в процессе обучения изменяются незначительно. Однако это означает, что нейронные сети бесконечной ширины не могут демонстрировать обучение функциям , которое широко считается важным свойством реалистичных глубоких нейронных сетей. Это не является общей особенностью нейронных сетей бесконечной ширины и во многом связано с конкретным выбором масштабирования, с помощью которого ширина доводится до бесконечного предела; действительно несколько работ ^[20]^[21]^[22]^[23] обнаружили альтернативные пределы масштабирования нейронных сетей с бесконечной шириной, в которых нет двойственности с регрессией ядра и обучение функций происходит во время обучения. Другие ^[24] ввести «нейронную касательную иерархию» для описания эффектов конечной ширины, которая может способствовать обучению функций.

Neural Tangents — это с открытым исходным кодом, бесплатная библиотека Python используемая для вычислений и выполнения выводов с помощью NTK бесконечной ширины и гауссовского процесса нейронной сети (NNGP), соответствующих различным распространенным архитектурам ИНС. ^[25] Кроме того, существует совместимая с scikit-learn реализация NTK бесконечной ширины для гауссовских процессов, называемая scikit-ntk . ^[26]

Подробности

При оптимизации параметров $\theta \in \mathbb {R} ^{P}$ ИНС Чтобы минимизировать эмпирические потери за счет градиентного спуска , NTK управляет динамикой выходной функции ИНС. $f_{\theta }$ на протяжении всего обучения.

Случай 1: Скалярный выход

ИНС со скалярным выходом состоит из семейства функций. $f\left(\cdot ,\theta \right):\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R}$ параметризованный вектором параметров $\theta \in \mathbb {R} ^{P}$ .

NTK — это ядро $\Theta :\mathbb {R} ^{n_{\mathrm {in} }}\times \mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R}$ определяется $\Theta \left(x,y;\theta \right)=\sum _{p=1}^{P}\partial _{\theta _{p}}f\left(x;\theta \right)\partial _{\theta _{p}}f\left(y;\theta \right).$ На языке методов ядра NTK $\Theta$ это ядро, связанное с картой объектов $\left(x\mapsto \partial _{\theta _{p}}f\left(x;\theta \right)\right)_{p=1,\ldots ,P}$ . Чтобы увидеть, как это ядро управляет динамикой обучения ИНС, рассмотрим набор данных. $\left(x_{i}\right)_{i=1,\ldots ,n}\subset \mathbb {R} ^{n_{\mathrm {in} }}$ со скалярными метками $\left(z_{i}\right)_{i=1,\ldots ,n}\subset \mathbb {R}$ и функция потерь $c:\mathbb {R} \times \mathbb {R} \to \mathbb {R}$ . Тогда соответствующие эмпирические потери, определенные на функциях $f:\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R}$ , определяется ${\mathcal {C}}\left(f\right)=\sum _{i=1}^{n}c\left(f\left(x_{i}\right),z_{i}\right).$ Когда ИНС $f\left(\cdot ;\theta \right):\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R}$ обучается, чтобы соответствовать набору данных (т.е. минимизировать ${\mathcal {C}}$ ) посредством градиентного спуска в непрерывном времени, параметры $\left(\theta \left(t\right)\right)_{t\geq 0}$ эволюционировать через обыкновенное дифференциальное уравнение :

\partial _{t}\theta \left(t\right)=-\nabla {\mathcal {C}}\left(f\left(\cdot ;\theta \right)\right).

Во время обучения выходная функция ИНС следует эволюционному дифференциальному уравнению, заданному в терминах NTK:

\partial _{t}f\left(x;\theta \left(t\right)\right)=-\sum _{i=1}^{n}\Theta \left(x,x_{i};\theta \right)\partial _{w}c\left(w,z_{i}\right){\Big |}_{w=f\left(x_{i};\theta \left(t\right)\right)}.

Это уравнение показывает, как NTK управляет динамикой $f\left(\cdot ;\theta \left(t\right)\right)$ в пространстве функций $\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R}$ во время обучения.

Случай 2: Векторный вывод

ИНС с векторным выводом размера $n_{\mathrm {out} }$ состоит из семейства функций $f\left(\cdot ;\theta \right):\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R} ^{n_{\mathrm {out} }}$ параметризованный вектором параметров $\theta \in \mathbb {R} ^{P}$ .

В этом случае НТК $\Theta :\mathbb {R} ^{n_{\mathrm {in} }}\times \mathbb {R} ^{n_{\mathrm {in} }}\to {\mathcal {M}}_{n_{\mathrm {out} }}\left(\mathbb {R} \right)$ является матричным ядром со значениями в пространстве $n_{\mathrm {out} }\times n_{\mathrm {out} }$ матрицы, определяемые $\Theta _{k,l}\left(x,y;\theta \right)=\sum _{p=1}^{P}\partial _{\theta _{p}}f_{k}\left(x;\theta \right)\partial _{\theta _{p}}f_{l}\left(y;\theta \right).$ Минимизация эмпирического риска происходит так же, как и в скалярном случае, с той разницей, что функция потерь принимает векторные входные данные. $c:\mathbb {R} ^{n_{\mathrm {out} }}\times \mathbb {R} ^{n_{\mathrm {out} }}\to \mathbb {R}$ . Обучение $f_{\theta \left(t\right)}$ посредством градиентного спуска в непрерывном времени дает следующую эволюцию в функциональном пространстве, управляемую NTK: $\partial _{t}f_{k}\left(x;\theta \left(t\right)\right)=-\sum _{i=1}^{n}\sum _{l=1}^{n_{\mathrm {out} }}\Theta _{k,l}\left(x,x_{i};\theta \right)\partial _{w_{l}}c\left(\left(w_{1},\ldots ,w_{n_{\mathrm {out} }}\right),z_{i}\right){\Big |}_{w=f\left(x_{i};\theta \left(t\right)\right)}.$ Это обобщает уравнение, показанное в случае 1 для скалярных выходных данных.

Интерпретация

Каждая точка данных $x_{i}$ влияет на эволюцию результатов $f\left(x;\theta \right)$ для каждого входа $x$ , на протяжении всего обучения. Более конкретно, что касается примера $i$ , значение NTK $\Theta \left(x,x_{i};\theta \right)$ определяет влияние градиента потерь $\partial _{w}c\left(w,z_{i}\right){\big |}_{w=f\left(x_{i};\theta \right)}$ об эволюции результатов ИНС $f\left(x;\theta \right)$ через ступень градиентного спуска. В скалярном случае это выглядит так: $f\left(x;\theta \left(t+\epsilon \right)\right)-f\left(x;\theta \left(t\right)\right)\approx \epsilon \sum _{i=1}^{n}\Theta \left(x,x_{i};\theta \left(t\right)\right)\partial _{w}c\left(w,z_{i}\right){\big |}_{w=f\left(x_{i};\theta \right)}.$

Широкие полносвязные ИНС имеют детерминированный NTK, который остается постоянным на протяжении всего обучения.

Рассмотрим ИНС с полносвязными слоями. $\ell =0,\ldots ,L$ ширины $n_{0}=n_{\mathrm {in} },n_{1},\ldots ,n_{L}=n_{\mathrm {out} }$ , так что $f\left(\cdot ;\theta \right)=R_{L-1}\circ \cdots \circ R_{0}$ , где $R_{\ell }=\sigma \circ A_{\ell }$ представляет собой композицию аффинного преобразования $A_{i}$ с поточечным применением нелинейности $\sigma :\mathbb {R} \to \mathbb {R}$ , где $\theta$ параметризует карты $A_{0},\ldots ,A_{L-1}$ . Параметры $\theta \in \mathbb {R} ^{P}$ инициализируются случайным образом, независимым и одинаково распределенным образом.

По мере увеличения ширины на масштаб NTK влияет точная параметризация $A_{i}$ и инициализацией параметра. Это мотивирует так называемую параметризацию NTK. $A_{\ell }\left(x\right)={\frac {1}{\sqrt {n_{\ell }}}}W^{\left(\ell \right)}x+b^{\left(\ell \right)}$ . Эта параметризация гарантирует, что если параметры $\theta \in \mathbb {R} ^{P}$ инициализируются как стандартные нормальные переменные , NTK имеет конечный нетривиальный предел. В пределе большой ширины NTK сходится к детерминированному (неслучайному) пределу. $\Theta _{\infty }$ , который остается постоянным во времени.

НТК $\Theta _{\infty }$ явно задается $\Theta _{\infty }=\Theta ^{\left(L\right)}$ , где $\Theta ^{\left(L\right)}$ определяется системой рекурсивных уравнений:

{\begin{aligned}\Theta ^{\left(1\right)}\left(x,y\right)&=\Sigma ^{\left(1\right)}\left(x,y\right),\\\Sigma ^{\left(1\right)}\left(x,y\right)&={\frac {1}{n_{\mathrm {in} }}}x^{T}y+1,\\\Theta ^{\left(\ell +1\right)}\left(x,y\right)&=\Theta ^{\left(\ell \right)}\left(x,y\right){\dot {\Sigma }}^{\left(\ell +1\right)}\left(x,y\right)+\Sigma ^{\left(\ell +1\right)}\left(x,y\right),\\\Sigma ^{\left(\ell +1\right)}\left(x,y\right)&=L_{\Sigma ^{\left(\ell \right)}}^{\sigma }\left(x,y\right),\\{\dot {\Sigma }}^{\left(\ell +1\right)}\left(x,y\right)&=L_{\Sigma ^{\left(\ell \right)}}^{\dot {\sigma }},\end{aligned}}

где $L_{K}^{f}$ обозначает ядро, определенное в терминах гауссовского ожидания :

L_{K}^{f}\left(x,y\right)=\mathbb {E} _{\left(X,Y\right)\sim {\mathcal {N}}\left(0,{\begin{pmatrix}K\left(x,x\right)&K\left(x,y\right)\\K\left(y,x\right)&K\left(y,y\right)\end{pmatrix}}\right)}\left[f\left(X\right)f\left(Y\right)\right].

В этой формуле ядра $\Sigma ^{\left(\ell \right)}$ являются так называемыми ядрами активации ИНС. ^[27]^[28]^[5]

Широкие полносвязные сети линейны по своим параметрам на протяжении всего обучения.

NTK описывает эволюцию нейронных сетей при градиентном спуске в функциональном пространстве. Двойственным к этой перспективе является понимание того, как нейронные сети развиваются в пространстве параметров, поскольку NTK определяется в терминах градиента выходных данных ИНС относительно ее параметров. В пределе бесконечной ширины связь между этими двумя перспективами становится особенно интересной. NTK остается постоянным на протяжении всего обучения при большой ширине, что соответствует тому, что ИНС хорошо описывается на протяжении всего обучения с помощью разложения Тейлора первого порядка вокруг своих параметров при инициализации: ^[6]

f\left(x;\theta (t)\right)=f\left(x;\theta (0)\right)+\nabla _{\theta }f\left(x;\theta (0)\right)\left(\theta (t)-\theta (0)\right)+{\mathcal {O}}\left(\min \left(n_{1}\dots n_{L-1}\right)^{-{\frac {1}{2}}}\right).

См. также

Большие ограничения ширины нейронных сетей

Ссылки

^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час Жако, Артур; Габриэль, Франк; Хонглер, Клемент (2018), Бенджио, С.; Уоллах, Х.; Ларошель, Х.; Грауман, К. (ред.), «Ядро Neural Tangent: конвергенция и обобщение в нейронных сетях» (PDF) , « Достижения в области нейронных систем обработки информации» 31 , Curran Associates, Inc., стр. 8571–8580, arXiv : 1806.07572 , получено 2019-11-27
^ Jump up to: ^а ^б ^с Арора, Санджив; Ду, Саймон С.; Ху, Вэй; Ли, Чжиюань; Салахутдинов Руслан; Ван, Руосун (04.11.2019). «О точных вычислениях с бесконечно широкой нейронной сетью». arXiv : 1904.11955 [ cs.LG ].
^ Ян, Грег (29 ноября 2020 г.). «Тензорные программы II: нейронное касательное ядро для любой архитектуры». arXiv : 2006.14548 [ stat.ML ].
^ Шиза, Ленаик; Ояллон, Эдуард; Бах, Фрэнсис (08 декабря 2019 г.), «О ленивом обучении дифференцируемому программированию» , Труды 33-й Международной конференции по нейронным системам обработки информации , Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 2937–2947, arXiv : 1812.07956 , получено 11 мая 2023 г.
^ Jump up to: ^а ^б Ли, Джехун; Бахри, Ясаман; Новак, Роман; Шенхольц, Сэмюэл С.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15 февраля 2018 г.). «Глубокие нейронные сети как гауссовы процессы» . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Jump up to: ^а ^б ^с ^д ^и ^ж Ли, Джехун; Сяо, Лечао; Шенхольц, Сэмюэл С.; Бахри, Ясаман; Новак, Роман; Золь-Дикштейн, Яша; Пеннингтон, Джеффри (2020). «Широкие нейронные сети любой глубины развиваются как линейные модели при градиентном спуске». Журнал статистической механики: теория и эксперимент . 2020 (12): 124002. arXiv : 1902.06720 . Бибкод : 2020JSMTE2020l4002L . дои : 10.1088/1742-5468/abc62b . S2CID 62841516 .
^ Шоу-Тейлор, Джон; Кристианини, Нелло (28 июня 2004 г.). Ядерные методы анализа закономерностей . Издательство Кембриджского университета. дои : 10.1017/cbo9780511809682 . ISBN 978-0-521-81397-6 .
^ Jump up to: ^а ^б ^с Белкин Михаил (29 мая 2021 г.). «Подгонка без страха: замечательные математические явления глубокого обучения через призму интерполяции». arXiv : 2105.14368 [ stat.ML ].
^ Новак, Роман; Бахри, Ясаман; Аболафия, Дэниел А.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15 февраля 2018 г.). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование». arXiv : 1802.08760 [ stat.ML ].
^ Жако, Артур; Шимшек, Берфин; Спадаро, Франческо; Хонглер, Клеман; Габриэль, Франк (17 июня 2020 г.). «Оценщик риска выравнивания ядра: прогнозирование риска на основе данных обучения». arXiv : 2006.09796 [ stat.ML ].
^ Канатар, Абдулкадир; Борделон, Блейк; Пехлеван, Дженгиз (18 мая 2021 г.). «Спектральное смещение и выравнивание модели задачи объясняют обобщение в ядерной регрессии и бесконечно широких нейронных сетях» . Природные коммуникации . 12 (1): 2914. arXiv : 2006.13198 . Бибкод : 2021NatCo..12.2914C . дои : 10.1038/s41467-021-23103-1 . ISSN 2041-1723 . ПМЦ 8131612 . ПМИД 34006842 .
^ Саймон, Джеймс Б.; Диккенс, Мэдлин; Каркада, Дхрува; ДеВиз, Майкл Р. (12 октября 2022 г.). «Структура собственного обучения: взгляд на ядерную регрессию и широкие нейронные сети с точки зрения закона сохранения». arXiv : 2110.03922 [ cs.LG ].
^ Аллен-Чжу, Цзэюань; Ли, Юаньчжи; Сун, Чжао (2018). «Теория конвергенции глубокого обучения посредством сверхпараметризации». arXiv : 1811.03962 [ cs.LG ].
^ Ду, Саймон С; Чжай, Сию; Поцос, Варнава; Аарти, Сингх (2019). «Градиентный спуск доказуемо оптимизирует чрезмерно параметризованные нейронные сети». arXiv : 1810.02054 [ cs.LG ].
^ Цзоу, Дифан; Цао, Юань; Чжоу, Донгруо; Гу, Цюаньцюань (2020). «Градиентный спуск оптимизирует чрезмерно параметризованные глубокие сети ReLU» . Машинное обучение . 109 (3): 467–492. дои : 10.1007/s10994-019-05839-6 . S2CID 53752874 .
^ Аллен-Чжу, Цзэюань; Ли, Юаньчжи; Сун, Чжао (27 мая 2019 г.). «О скорости сходимости обучения рекуррентных нейронных сетей». arXiv : 1810.12065 [ cs.LG ].
^ Ду, Саймон; Ли, Джейсон; Ли, Хаочуань; Ван, Ливэй; Чжай, Сию (24 мая 2019 г.). «Градиентный спуск находит глобальные минимумы глубоких нейронных сетей». стр. 1675–1685. arXiv : 1811.03804 [ cs.LG ].
^ Ян, Грег (13 февраля 2019 г.). «Пределы масштабирования широких нейронных сетей с разделением веса: поведение гауссовского процесса, независимость градиента и вывод ядра нейронного касательного». arXiv : 1902.04760 [ cs.NE ].
^ Хрон, Иржи; Бахри, Ясаман; Золь-Дикштейн, Яша; Новак, Роман (18 июня 2020 г.). «Бесконечное внимание: NNGP и NTK для сетей глубокого внимания». arXiv : 2006.10540 [ stat.ML ].
^ Мэй, Сун; Монтанари, Андреа; Нгуен, Фан-Мин (14 августа 2018 г.). «Средний вид ландшафта двухслойных нейронных сетей» . Труды Национальной академии наук . 115 (33): Е7665–Е7671. arXiv : 1804.06561 . Бибкод : 2018PNAS..115E7665M . дои : 10.1073/pnas.1806579115 . ISSN 0027-8424 . ПМК 6099898 . ПМИД 30054315 .
^ Шиза, Ленаик; Бах, Франциск (03 декабря 2018 г.). «О глобальной конвергенции градиентного спуска для чрезмерно параметризованных моделей с использованием оптимального транспорта» . Материалы 32-й Международной конференции по нейронным системам обработки информации . НИПС'18. Ред-Хук, штат Нью-Йорк, США: Curran Associates Inc.: 3040–3050. arXiv : 1805.09545 .
^ Нгуен, Фан-Мин; Фам, Хай Туан (30 января 2020 г.). «Строгая основа предела среднего поля многослойных нейронных сетей». arXiv : 2001.11443 [ cs.LG ].
^ Ян, Грег; Ху, Эдвард Дж. (15 июля 2022 г.). «Обучение функциям в нейронных сетях бесконечной ширины». arXiv : 2011.14522 [ cs.LG ].
^ Хуан, Цзяоян; Яу, Хорнг-Цер (17 сентября 2019 г.). «Динамика глубоких нейронных сетей и иерархия нейронных касательных». arXiv : 1909.08156 [ cs.LG ].
^ Новак, Роман; Сяо, Лечао; Хрон, Иржи; Ли, Джехун; Алеми, Александр А.; Золь-Дикштейн, Яша; Шенхольц, Сэмюэл С. (05 декабря 2019 г.), «Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python», Международная конференция по обучающим представлениям (ICLR) , том. 2020, arXiv : 1912.02803 , Bibcode : 2019arXiv191202803N
^ Ленцевичюс, Роналдас Паулюс (2022). «Эмпирический анализ ядер Лапласа и нейронных касательных». arXiv : 2208.03761 [ stat.ML ].
^ Чо, Ёнмин; Саул, Лоуренс К. (2009), Бенджио, Ю.; Шурманс, Д.; Лафферти, доктор медицинских наук; Уильямс, CKI (ред.), «Методы ядра для глубокого обучения» (PDF) , Достижения в области нейронных систем обработки информации 22 , Curran Associates, Inc., стр. 342–350 , получено 27 ноября 2019 г.
^ Дэниели, Амит; Фростиг, Рой; Певец, Йорам (2016), Ли, Д.Д.; Сугияма, М.; Люксбург, УФ; Гийон И. (ред.), «На пути к более глубокому пониманию нейронных сетей: сила инициализации и двойной взгляд на выразительность» (PDF) , « Достижения в области нейронных систем обработки информации» 29 , Curran Associates, Inc., стр. 2253– 2261, arXiv : 1602.05897 , Bibcode : 2016arXiv160205897D , получено 27 ноября 2019 г.

Внешние ссылки

Анантасвами, Анил (11 октября 2021 г.). «Новая ссылка на старую модель может раскрыть тайну глубокого обучения» . Журнал Кванта .

[:0-1] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час Жако, Артур; Габриэль, Франк; Хонглер, Клемент (2018), Бенджио, С.; Уоллах, Х.; Ларошель, Х.; Грауман, К. (ред.), «Ядро Neural Tangent: конвергенция и обобщение в нейронных сетях» (PDF) , « Достижения в области нейронных систем обработки информации» 31 , Curran Associates, Inc., стр. 8571–8580, arXiv : 1806.07572 , получено 2019-11-27

[:3-2] Jump up to: ^а ^б ^с Арора, Санджив; Ду, Саймон С.; Ху, Вэй; Ли, Чжиюань; Салахутдинов Руслан; Ван, Руосун (04.11.2019). «О точных вычислениях с бесконечно широкой нейронной сетью». arXiv : 1904.11955 [ cs.LG ].

[3] Ян, Грег (29 ноября 2020 г.). «Тензорные программы II: нейронное касательное ядро для любой архитектуры». arXiv : 2006.14548 [ stat.ML ].

[4] Шиза, Ленаик; Ояллон, Эдуард; Бах, Фрэнсис (08 декабря 2019 г.), «О ленивом обучении дифференцируемому программированию» , Труды 33-й Международной конференции по нейронным системам обработки информации , Ред-Хук, Нью-Йорк, США: Curran Associates Inc., стр. 2937–2947, arXiv : 1812.07956 , получено 11 мая 2023 г.

[:4-5] Jump up to: ^а ^б Ли, Джехун; Бахри, Ясаман; Новак, Роман; Шенхольц, Сэмюэл С.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15 февраля 2018 г.). «Глубокие нейронные сети как гауссовы процессы» . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[Lee-6] Jump up to: ^а ^б ^с ^д ^и ^ж Ли, Джехун; Сяо, Лечао; Шенхольц, Сэмюэл С.; Бахри, Ясаман; Новак, Роман; Золь-Дикштейн, Яша; Пеннингтон, Джеффри (2020). «Широкие нейронные сети любой глубины развиваются как линейные модели при градиентном спуске». Журнал статистической механики: теория и эксперимент . 2020 (12): 124002. arXiv : 1902.06720 . Бибкод : 2020JSMTE2020l4002L . дои : 10.1088/1742-5468/abc62b . S2CID 62841516 .

[7] Шоу-Тейлор, Джон; Кристианини, Нелло (28 июня 2004 г.). Ядерные методы анализа закономерностей . Издательство Кембриджского университета. дои : 10.1017/cbo9780511809682 . ISBN 978-0-521-81397-6 .

[:6-8] Jump up to: ^а ^б ^с Белкин Михаил (29 мая 2021 г.). «Подгонка без страха: замечательные математические явления глубокого обучения через призму интерполяции». arXiv : 2105.14368 [ stat.ML ].

[9] Новак, Роман; Бахри, Ясаман; Аболафия, Дэниел А.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15 февраля 2018 г.). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование». arXiv : 1802.08760 [ stat.ML ].

[10] Жако, Артур; Шимшек, Берфин; Спадаро, Франческо; Хонглер, Клеман; Габриэль, Франк (17 июня 2020 г.). «Оценщик риска выравнивания ядра: прогнозирование риска на основе данных обучения». arXiv : 2006.09796 [ stat.ML ].

[11] Канатар, Абдулкадир; Борделон, Блейк; Пехлеван, Дженгиз (18 мая 2021 г.). «Спектральное смещение и выравнивание модели задачи объясняют обобщение в ядерной регрессии и бесконечно широких нейронных сетях» . Природные коммуникации . 12 (1): 2914. arXiv : 2006.13198 . Бибкод : 2021NatCo..12.2914C . дои : 10.1038/s41467-021-23103-1 . ISSN 2041-1723 . ПМЦ 8131612 . ПМИД 34006842 .

[12] Саймон, Джеймс Б.; Диккенс, Мэдлин; Каркада, Дхрува; ДеВиз, Майкл Р. (12 октября 2022 г.). «Структура собственного обучения: взгляд на ядерную регрессию и широкие нейронные сети с точки зрения закона сохранения». arXiv : 2110.03922 [ cs.LG ].

[:2-13] Аллен-Чжу, Цзэюань; Ли, Юаньчжи; Сун, Чжао (2018). «Теория конвергенции глубокого обучения посредством сверхпараметризации». arXiv : 1811.03962 [ cs.LG ].

[14] Ду, Саймон С; Чжай, Сию; Поцос, Варнава; Аарти, Сингх (2019). «Градиентный спуск доказуемо оптимизирует чрезмерно параметризованные нейронные сети». arXiv : 1810.02054 [ cs.LG ].

[15] Цзоу, Дифан; Цао, Юань; Чжоу, Донгруо; Гу, Цюаньцюань (2020). «Градиентный спуск оптимизирует чрезмерно параметризованные глубокие сети ReLU» . Машинное обучение . 109 (3): 467–492. дои : 10.1007/s10994-019-05839-6 . S2CID 53752874 .

[16] Аллен-Чжу, Цзэюань; Ли, Юаньчжи; Сун, Чжао (27 мая 2019 г.). «О скорости сходимости обучения рекуррентных нейронных сетей». arXiv : 1810.12065 [ cs.LG ].

[:5-17] Ду, Саймон; Ли, Джейсон; Ли, Хаочуань; Ван, Ливэй; Чжай, Сию (24 мая 2019 г.). «Градиентный спуск находит глобальные минимумы глубоких нейронных сетей». стр. 1675–1685. arXiv : 1811.03804 [ cs.LG ].

[18] Ян, Грег (13 февраля 2019 г.). «Пределы масштабирования широких нейронных сетей с разделением веса: поведение гауссовского процесса, независимость градиента и вывод ядра нейронного касательного». arXiv : 1902.04760 [ cs.NE ].

[19] Хрон, Иржи; Бахри, Ясаман; Золь-Дикштейн, Яша; Новак, Роман (18 июня 2020 г.). «Бесконечное внимание: NNGP и NTK для сетей глубокого внимания». arXiv : 2006.10540 [ stat.ML ].

[20] Мэй, Сун; Монтанари, Андреа; Нгуен, Фан-Мин (14 августа 2018 г.). «Средний вид ландшафта двухслойных нейронных сетей» . Труды Национальной академии наук . 115 (33): Е7665–Е7671. arXiv : 1804.06561 . Бибкод : 2018PNAS..115E7665M . дои : 10.1073/pnas.1806579115 . ISSN 0027-8424 . ПМК 6099898 . ПМИД 30054315 .

[21] Шиза, Ленаик; Бах, Франциск (03 декабря 2018 г.). «О глобальной конвергенции градиентного спуска для чрезмерно параметризованных моделей с использованием оптимального транспорта» . Материалы 32-й Международной конференции по нейронным системам обработки информации . НИПС'18. Ред-Хук, штат Нью-Йорк, США: Curran Associates Inc.: 3040–3050. arXiv : 1805.09545 .

[22] Нгуен, Фан-Мин; Фам, Хай Туан (30 января 2020 г.). «Строгая основа предела среднего поля многослойных нейронных сетей». arXiv : 2001.11443 [ cs.LG ].

[23] Ян, Грег; Ху, Эдвард Дж. (15 июля 2022 г.). «Обучение функциям в нейронных сетях бесконечной ширины». arXiv : 2011.14522 [ cs.LG ].

[24] Хуан, Цзяоян; Яу, Хорнг-Цер (17 сентября 2019 г.). «Динамика глубоких нейронных сетей и иерархия нейронных касательных». arXiv : 1909.08156 [ cs.LG ].

[25] Новак, Роман; Сяо, Лечао; Хрон, Иржи; Ли, Джехун; Алеми, Александр А.; Золь-Дикштейн, Яша; Шенхольц, Сэмюэл С. (05 декабря 2019 г.), «Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python», Международная конференция по обучающим представлениям (ICLR) , том. 2020, arXiv : 1912.02803 , Bibcode : 2019arXiv191202803N

[26] Ленцевичюс, Роналдас Паулюс (2022). «Эмпирический анализ ядер Лапласа и нейронных касательных». arXiv : 2208.03761 [ stat.ML ].

[27] Чо, Ёнмин; Саул, Лоуренс К. (2009), Бенджио, Ю.; Шурманс, Д.; Лафферти, доктор медицинских наук; Уильямс, CKI (ред.), «Методы ядра для глубокого обучения» (PDF) , Достижения в области нейронных систем обработки информации 22 , Curran Associates, Inc., стр. 342–350 , получено 27 ноября 2019 г.

[28] Дэниели, Амит; Фростиг, Рой; Певец, Йорам (2016), Ли, Д.Д.; Сугияма, М.; Люксбург, УФ; Гийон И. (ред.), «На пути к более глубокому пониманию нейронных сетей: сила инициализации и двойной взгляд на выразительность» (PDF) , « Достижения в области нейронных систем обработки информации» 29 , Curran Associates, Inc., стр. 2253– 2261, arXiv : 1602.05897 , Bibcode : 2016arXiv160205897D , получено 27 ноября 2019 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]