Нейронная сеть Гауссов процесс

( Гауссов процесс нейронной сети NNGP) — это гауссов процесс (GP), полученный как предел определенного типа последовательности нейронных сетей . В частности, большое разнообразие сетевых архитектур сходится к GP в бесконечно широком пределе , в смысле распределения . ^[1]^[2]^[3]^[4]^[5]^[6]^[7]^[8] Эта концепция представляет собой интенсиональное определение , т. е. NNGP — это просто GP, но отличающийся тем, как он получен.

Мотивация

Байесовские сети — это инструмент моделирования, позволяющий присваивать вероятности событиям и тем самым характеризовать неопределенность в предсказаниях модели. Глубокое обучение и искусственные нейронные сети — это подходы, используемые в машинном обучении для создания вычислительных моделей, которые обучаются на обучающих примерах. Байесовские нейронные сети объединяют эти поля. Это тип нейронной сети, параметры и прогнозы которой являются вероятностными. ^[9]^[10] Хотя стандартные нейронные сети часто придают высокую степень достоверности даже неверным прогнозам, ^[11] Байесовские нейронные сети могут более точно оценить вероятность того, что их прогнозы окажутся верными.

Слева : байесовская нейронная сеть с двумя скрытыми слоями, преобразующая трехмерные входные данные (внизу) в двумерные выходные данные.

(y_{1},y_{2})

(вершина). Справа : выходная функция плотности вероятности.

p(y_{1},y_{2})

индуцированные случайными весами сети. Видео : по мере увеличения ширины сети выходное распределение упрощается, в конечном итоге сходясь к многомерному нормальному пределу бесконечной ширины.

Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов . Количество нейронов в слое называется шириной слоя. Когда мы рассматриваем последовательность байесовских нейронных сетей со все более широкими слоями (см. рисунок), они сходятся по распределению к NNGP. Этот большой предел ширины представляет практический интерес, поскольку сети часто улучшаются по мере расширения слоев. ^[12]^[4]^[13] И этот процесс может дать в закрытой форме возможность оценить сети .

NNGP также появляется в нескольких других контекстах: он описывает распределение прогнозов, сделанных широкими небайесовскими искусственными нейронными сетями после случайной инициализации их параметров, но до обучения; он появляется как термин в нейронного касательного ядра уравнениях прогнозирования ; он используется при глубоком распространении информации , чтобы определить, будут ли гиперпараметры и архитектуры обучаемы. ^[14] Это связано с другими ограничениями ширины нейронных сетей.

Объем

Первый заочный результат был получен в докторской диссертации Рэдфорда М. Нила в 1995 году . ^[15] затем под руководством Джеффри Хинтона в Университете Торонто . Нил цитирует Дэвида Маккея как вдохновителя, который работал в области байесовского обучения .

Сегодня соответствие доказано для: Однослойных байесовских нейронных сетей; ^[15] глубокий ^[2]^[3] полностью связные сети , поскольку количество устройств на уровне стремится к бесконечности; сверточные нейронные сети , поскольку количество каналов стремится к бесконечности; ^[4]^[5]^[6] трансформаторные сети, поскольку число голов внимания доведено до бесконечности; ^[16] рекуррентные сети , поскольку число единиц стремится к бесконечности. ^[8] Фактически, это соответствие NNGP справедливо практически для любой архитектуры: обычно, если архитектура может быть выражена исключительно посредством матричного умножения и координатных нелинейностей (т. е. тензорной программы ), то она имеет GP бесконечной ширины. ^[8] Это, в частности, включает в себя все нейронные сети прямой связи или рекуррентные нейронные сети, состоящие из многослойного персептрона, рекуррентных нейронных сетей (например, LSTM , GRU (nD или графа) ), свертки , объединения в пул, пропуска соединения, внимания, пакетной нормализации и/или нормализации слоев.

Иллюстрация

Каждая настройка параметров нейронной сети $\theta$ соответствует определенной функции, вычисленной нейронной сетью. Предварительное распространение $p(\theta )$ Таким образом, по параметрам нейронной сети соответствует априорному распределению по функциям, вычисленным сетью. Поскольку нейронные сети делаются бесконечно широкими, это распределение по функциям сходится к гауссовскому процессу для многих архитектур.

Обозначения, используемые в этом разделе, такие же, как обозначения, используемые ниже для получения соответствия между NNGP и полностью подключенными сетями, и более подробную информацию можно найти там.

На рисунке справа показаны одномерные выходные данные. $z^{L}(\cdot ;\theta )$ нейронной сети на два входа $x$ и $x^{*}$ друг против друга. Черные точки показывают функцию, вычисленную нейронной сетью на этих входных данных для случайного отбора параметров из $p(\theta )$ . Красные линии представляют собой контуры изовероятностей совместного распределения по выходам сети. $z^{L}(x;\theta )$ и $z^{L}(x^{*};\theta )$ вызванный $p(\theta )$ . Это распределение в функциональном пространстве, соответствующее распределению $p(\theta )$ в пространстве параметров, а черные точки — образцы из этого распределения. Для бесконечно широких нейронных сетей, поскольку распределение по функциям, вычисленным нейронной сетью, является гауссовским процессом, совместное распределение по выходным данным сети является многомерным гауссовским для любого конечного набора сетевых входов.

Обсуждение

Бесконечно широкая полностью подключенная сеть

В этом разделе подробно рассматривается соответствие между бесконечно широкими нейронными сетями и гауссовскими процессами для конкретного случая полностью связной архитектуры. В нем представлено доказательство, объясняющее, почему соответствие сохраняется, и представлена конкретная функциональная форма NNGP для полностью связанных сетей. Эскиз доказательства точно соответствует подходу Новака и соавторов. ^[4]

Спецификация сетевой архитектуры

Рассмотрим полностью связанную искусственную нейронную сеть со входами $x$ , параметры $\theta$ состоящий из гирь $W^{l}$ и предубеждения $b^{l}$ для каждого слоя $l$ в сети преактивации (преднелинейность) $z^{l}$ , активации (постнелинейность) $y^{l}$ , точечная нелинейность $\phi (\cdot )$ и ширина слоя $n^{l}$ . Для простоты ширина $n^{L+1}$ вектора считывания $z^{L}$ принимается равным 1. Параметры этой сети имеют априорное распределение $p(\theta )$ , который состоит из изотропного гауссиана для каждого веса и смещения, при этом дисперсия весов масштабируется обратно пропорционально ширине слоя. Эта сеть показана на рисунке справа и описывается следующей системой уравнений:

{\begin{aligned}x&\equiv {\text{input}}\\y^{l}(x)&=\left\{{\begin{array}{lcl}x&&l=0\\\phi \left(z^{l-1}(x)\right)&&l>0\end{array}}\right.\\z_{i}^{l}(x)&=\sum _{j}W_{ij}^{l}y_{j}^{l}(x)+b_{i}^{l}\\W_{ij}^{l}&\sim {\mathcal {N}}\left(0,{\frac {\sigma _{w}^{2}}{n^{l}}}\right)\\b_{i}^{l}&\sim {\mathcal {N}}\left(0,\sigma _{b}^{2}\right)\\\phi (\cdot )&\equiv {\text{nonlinearity}}\\y^{l}(x),z^{l-1}(x)&\in \mathbb {R} ^{n^{l}\times 1}\\n^{L+1}&=1\\\theta &=\left\{W^{0},b^{0},\dots ,W^{L},b^{L}\right\}\end{aligned}}

$z^{l}|y^{l}$ это гауссов процесс

Сначала мы наблюдаем, что предварительные активации $z^{l}$ описываются гауссовским процессом, обусловленным предыдущими активациями $y^{l}$ . Этот результат справедлив даже при конечной ширине. Каждая предварительная активация $z_{i}^{l}$ представляет собой взвешенную сумму гауссовских случайных величин, соответствующих весам $W_{ij}^{l}$ и предубеждения $b_{i}^{l}$ , где коэффициенты для каждой из этих гауссовских переменных являются предыдущими активациями $y_{j}^{l}$ . Поскольку они представляют собой взвешенную сумму гауссиан с нулевым средним, $z_{i}^{l}$ сами являются гауссианами с нулевым средним (обусловленными коэффициентами $y_{j}^{l}$ ). Поскольку $z^{l}$ являются совместно гауссовскими для любого набора $y^{l}$ , они описываются гауссовским процессом, обусловленным предыдущими активациями $y^{l}$ . Ковариация или ядро этого гауссовского процесса зависит от дисперсии веса и смещения. $\sigma _{w}^{2}$ и $\sigma _{b}^{2}$ , а также матрица второго момента $K^{l}$ предыдущих активаций $y^{l}$ ,

{\begin{aligned}z_{i}^{l}\mid y^{l}&\sim {\mathcal {GP}}\left(0,\sigma _{w}^{2}K^{l}+\sigma _{b}^{2}\right)\\K^{l}(x,x')&={\frac {1}{n^{l}}}\sum _{i}y_{i}^{l}(x)y_{i}^{l}(x')\end{aligned}}

Эффект весов $\sigma _{w}^{2}$ заключается в перемасштабировании вклада в ковариационную матрицу с $K^{l}$ , в то время как смещение является общим для всех входов, и поэтому $\sigma _{b}^{2}$ делает $z_{i}^{l}$ для разных точек данных более похожими и делает ковариационную матрицу более похожей на постоянную матрицу.

$z^{l}|K^{l}$ это гауссов процесс

Предварительные активации $z^{l}$ зависеть только от $y^{l}$ через матрицу второго момента $K^{l}$ . Из-за этого мы можем сказать, что $z^{l}$ является гауссовским процессом, обусловленным $K^{l}$ , а не обусловлено $y^{l}$ ,

{\begin{aligned}z_{i}^{l}\mid K^{l}&\sim {\mathcal {GP}}\left(0,\sigma _{w}^{2}K^{l}+\sigma _{b}^{2}\right).\end{aligned}}

По ширине слоя $n^{l}\rightarrow \infty$ , $K^{l}\mid K^{l-1}$ становится детерминированным

Как было определено ранее, $K^{l}$ это вторая матрица моментов $y^{l}$ . С $y^{l}$ — вектор активации после применения нелинейности $\phi$ , его можно заменить на $\phi \left(z^{l-1}\right)$ , что приводит к модифицированному уравнению, выражающему $K^{l}$ для $l>0$ с точки зрения $z^{l-1}$ ,

{\begin{aligned}K^{l}(x,x')&={\frac {1}{n^{l}}}\sum _{i}\phi \left(z_{i}^{l-1}(x)\right)\phi \left(z_{i}^{l-1}(x')\right).\end{aligned}}

Мы уже определили, что $z^{l-1}|K^{l-1}$ является гауссовским процессом. Это означает, что сумма, определяющая $K^{l}$ в среднем больше $n^{l}$ выборки гауссовского процесса, который является функцией $K^{l-1}$ ,

${\begin{aligned}\left\{z_{i}^{l-1}(x),z_{i}^{l-1}(x')\right\}&\sim {\mathcal {GP}}\left(0,\sigma _{w}^{2}K^{l-1}+\sigma _{b}^{2}\right).\end{aligned}}$

По ширине слоя $n^{l}$ стремится к бесконечности, это среднее значение более $n^{l}$ выборки из гауссовского процесса можно заменить интегралом по гауссовскому процессу:

{\begin{aligned}\lim _{n^{l}\rightarrow \infty }K^{l}(x,x')&=\int dz\,dz'\,\phi (z)\,\phi (z')\,{\mathcal {N}}\left(\left[{\begin{array}{c}z\\z'\end{array}}\right];0,\sigma _{w}^{2}\left[{\begin{array}{cc}K^{l-1}(x,x)&K^{l-1}(x,x')\\K^{l-1}(x',x)&K^{l-1}(x',x')\end{array}}\right]+\sigma _{b}^{2}\right)\end{aligned}}

Итак, в пределе бесконечной ширины вторая матрица моментов $K^{l}$ для каждой пары входов $x$ и $x'$ может быть выражено как интеграл по 2d гауссиану произведения $\phi (z)$ и $\phi (z')$ . Существует ряд ситуаций, когда эта задача решается аналитически, например, когда $\phi (\cdot )$ это РеЛУ , ^[17] ДВА, ГЕЛЬ, ^[18] или функция ошибки ^[1] нелинейность. Даже если его невозможно решить аналитически, поскольку это двумерный интеграл, его обычно можно эффективно вычислить численно. ^[2] Этот интеграл детерминирован, поэтому $K^{l}|K^{l-1}$ является детерминированным.

Для краткости определим функционал $F$ , что соответствует вычислению этого 2d-интеграла для всех пар входных данных и отображает $K^{l-1}$ в $K^{l}$ ,

{\begin{aligned}\lim _{n^{l}\rightarrow \infty }K^{l}&=F\left(K^{l-1}\right).\end{aligned}}

$z^{L}\mid x$ является ННГП

Рекурсивно применяя наблюдение, что $K^{l}\mid K^{l-1}$ является детерминированным, поскольку $n^{l}\rightarrow \infty$ , $K^{L}$ может быть записана как детерминированная функция $K^{0}$ ,

{\begin{aligned}\lim _{\min \left(n^{1},\dots ,n^{L}\right)\rightarrow \infty }K^{L}&=F\circ F\cdots \left(K^{0}\right)=F^{L}\left(K^{0}\right),\end{aligned}}

где $F^{L}$ указывает на применение функционала $F$ последовательно $L$ раз. Объединив это выражение с дальнейшими наблюдениями, что матрица второго момента входного слоя $K^{0}(x,x')={\tfrac {1}{n^{0}}}\sum _{i}x_{i}x'_{i}$ является детерминированной функцией входа $x$ , и это $z^{L}|K^{L}$ является гауссовским процессом, выходные данные нейронной сети могут быть выражены как гауссовский процесс через ее входные данные,

{\begin{aligned}z_{i}^{L}(x)&\sim {\mathcal {GP}}\left(0,\sigma _{w}^{2}F^{L}\left(K^{0}\right)+\sigma _{b}^{2}\right).\end{aligned}}

Библиотеки программного обеспечения

Neural Tangents — это с открытым исходным кодом, бесплатная библиотека Python используемая для вычислений и выполнения выводов с использованием NNGP и ядра нейронной касательной, соответствующей различным распространенным архитектурам ANN. ^[19]

Ссылки

^ Перейти обратно: ^а ^б Уильямс, Кристофер К.И. (1997). «Вычисления в бесконечных сетях». Нейронные системы обработки информации .
^ Перейти обратно: ^а ^б ^с Ли, Джехун; Бахри, Ясаман; Новак, Роман; Шенхольц, Сэмюэл С.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2017). «Глубокие нейронные сети как гауссовы процессы». Международная конференция по обучению представлений . arXiv : 1711.00165 . Бибкод : 2017arXiv171100165L .
^ Перейти обратно: ^а ^б Г. де Дж. Мэтьюз, Александр; Роуленд, Марк; Хрон, Иржи; Тернер, Ричард Э.; Гахрамани, Зубин (2017). «Поведение гауссовского процесса в широких глубоких нейронных сетях». Международная конференция по обучению представлений . arXiv : 1804.11271 . Бибкод : 2018arXiv180411271M .
^ Перейти обратно: ^а ^б ^с ^д Новак, Роман; Сяо, Лечао; Ли, Джехун; Бахри, Ясаман; Ян, Грег; Аболафия, Дэн; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2018). «Байесовские глубокие сверточные сети со многими каналами являются гауссовскими процессами». Международная конференция по обучению представлений . arXiv : 1810.05148 . Бибкод : 2018arXiv181005148N .
^ Перейти обратно: ^а ^б Гаррига-Алонсо, Адриа; Эйчисон, Лоуренс; Расмуссен, Карл Эдвард (2018). «Глубокие сверточные сети как мелкие гауссовские процессы». Международная конференция по обучению представлений . arXiv : 1808.05587 . Бибкод : 2018arXiv180805587G .
^ Перейти обратно: ^а ^б Боровых, Анастасия (2018). «Взгляд на сверточные нейронные сети с точки зрения гауссовского процесса». arXiv : 1810.10798 [ stat.ML ].
^ Цучида, Рассел; Пирс, Тим; ван дер Хайде, Кристофер; Рооста, Фред; Галлахер, Маркус (2020). «Избежание фиксированных точек ядра: вычисления с бесконечными сетями ELU и GELU». arXiv : 2002.08517 [ cs.LG ].
^ Перейти обратно: ^а ^б ^с Ян, Грег (2019). «Тензорные программы I: нейронные сети с широкой прямой связью или рекуррентные нейронные сети любой архитектуры являются гауссовскими процессами» (PDF) . Достижения в области нейронных систем обработки информации . arXiv : 1910.12478 . Бибкод : 2019arXiv191012478Y .
^ Маккей, Дэвид Дж. К. (1992). «Практическая байесовская основа для сетей обратного распространения ошибки» . Нейронные вычисления . 4 (3): 448–472. дои : 10.1162/neco.1992.4.3.448 . ISSN 0899-7667 . S2CID 16543854 .
^ Нил, Рэдфорд М. (2012). Байесовское обучение для нейронных сетей . Springer Science and Business Media.
^ Го, Чуан; Плейсс, Джефф; Сунь, Ю; Вайнбергер, Килиан К. (2017). «О калибровке современных нейронных сетей». Материалы 34-й Международной конференции по машинному обучению. Том 70 . arXiv : 1706.04599 .
^ Новак, Роман; Бахри, Ясаман; Аболафия, Дэниел А.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15 февраля 2018 г.). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование» . Международная конференция по обучению представлений . arXiv : 1802.08760 . Бибкод : 2018arXiv180208760N .
^ Нейшабур, Бехнам; Ли, Чжиюань; Бходжанапалли, Шринад; ЛеКун, Янн; Сребро, Натан (2019). «На пути к пониманию роли чрезмерной параметризации в обобщении нейронных сетей». Международная конференция по обучению представлений . arXiv : 1805.12076 . Бибкод : 2018arXiv180512076N .
^ Шенхольц, Сэмюэл С.; Гилмер, Джастин; Гангули, Сурья; Золь-Дикштейн, Яша (2016). «Глубокое распространение информации». Международная конференция по обучению представлений . arXiv : 1611.01232 .
^ Перейти обратно: ^а ^б Нил, Рэдфорд М. (1996), «Априорные условия для бесконечных сетей», Байесовское обучение нейронных сетей , Конспекты лекций по статистике, том. 118, Springer New York, стр. 29–53, номер документа : 10.1007/978-1-4612-0745-0_2 , ISBN. 978-0-387-94724-2
^ Хрон, Иржи; Бахри, Ясаман; Золь-Дикштейн, Яша; Новак, Роман (18 июня 2020 г.). «Бесконечное внимание: NNGP и NTK для сетей глубокого внимания». Международная конференция по машинному обучению . 2020 . arXiv : 2006.10540 . Бибкод : 2020arXiv200610540H .
^ Чо, Ёнмин; Сол, Лоуренс К. (2009). «Методы ядра для глубокого обучения» . Нейронные системы обработки информации . 22 : 342–350.
^ Цучида, Рассел; Пирс, Тим; ван дер Хайде, Кристофер; Рооста, Фред; Галлахер, Маркус (2020). «Избежание фиксированных точек ядра: вычисления с бесконечными сетями ELU и GELU». arXiv : 2002.08517 [ cs.LG ].
^ Новак, Роман; Сяо, Лечао; Хрон, Иржи; Ли, Джехун; Алеми, Александр А.; Золь-Дикштейн, Яша; Шенхольц, Сэмюэл С. (05 декабря 2019 г.), «Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python», Международная конференция по обучающим представлениям (ICLR) , том. 2020, arXiv : 1912.02803 , Bibcode : 2019arXiv191202803N

[:11-1] Перейти обратно: ^а ^б Уильямс, Кристофер К.И. (1997). «Вычисления в бесконечных сетях». Нейронные системы обработки информации .

[:0-2] Перейти обратно: ^а ^б ^с Ли, Джехун; Бахри, Ясаман; Новак, Роман; Шенхольц, Сэмюэл С.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2017). «Глубокие нейронные сети как гауссовы процессы». Международная конференция по обучению представлений . arXiv : 1711.00165 . Бибкод : 2017arXiv171100165L .

[:3-3] Перейти обратно: ^а ^б Г. де Дж. Мэтьюз, Александр; Роуленд, Марк; Хрон, Иржи; Тернер, Ричард Э.; Гахрамани, Зубин (2017). «Поведение гауссовского процесса в широких глубоких нейронных сетях». Международная конференция по обучению представлений . arXiv : 1804.11271 . Бибкод : 2018arXiv180411271M .

[:1-4] Перейти обратно: ^а ^б ^с ^д Новак, Роман; Сяо, Лечао; Ли, Джехун; Бахри, Ясаман; Ян, Грег; Аболафия, Дэн; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (2018). «Байесовские глубокие сверточные сети со многими каналами являются гауссовскими процессами». Международная конференция по обучению представлений . arXiv : 1810.05148 . Бибкод : 2018arXiv181005148N .

[:4-5] Перейти обратно: ^а ^б Гаррига-Алонсо, Адриа; Эйчисон, Лоуренс; Расмуссен, Карл Эдвард (2018). «Глубокие сверточные сети как мелкие гауссовские процессы». Международная конференция по обучению представлений . arXiv : 1808.05587 . Бибкод : 2018arXiv180805587G .

[:9-6] Перейти обратно: ^а ^б Боровых, Анастасия (2018). «Взгляд на сверточные нейронные сети с точки зрения гауссовского процесса». arXiv : 1810.10798 [ stat.ML ].

[7] Цучида, Рассел; Пирс, Тим; ван дер Хайде, Кристофер; Рооста, Фред; Галлахер, Маркус (2020). «Избежание фиксированных точек ядра: вычисления с бесконечными сетями ELU и GELU». arXiv : 2002.08517 [ cs.LG ].

[:5-8] Перейти обратно: ^а ^б ^с Ян, Грег (2019). «Тензорные программы I: нейронные сети с широкой прямой связью или рекуррентные нейронные сети любой архитектуры являются гауссовскими процессами» (PDF) . Достижения в области нейронных систем обработки информации . arXiv : 1910.12478 . Бибкод : 2019arXiv191012478Y .

[9] Маккей, Дэвид Дж. К. (1992). «Практическая байесовская основа для сетей обратного распространения ошибки» . Нейронные вычисления . 4 (3): 448–472. дои : 10.1162/neco.1992.4.3.448 . ISSN 0899-7667 . S2CID 16543854 .

[10] Нил, Рэдфорд М. (2012). Байесовское обучение для нейронных сетей . Springer Science and Business Media.

[11] Го, Чуан; Плейсс, Джефф; Сунь, Ю; Вайнбергер, Килиан К. (2017). «О калибровке современных нейронных сетей». Материалы 34-й Международной конференции по машинному обучению. Том 70 . arXiv : 1706.04599 .

[:7-12] Новак, Роман; Бахри, Ясаман; Аболафия, Дэниел А.; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15 февраля 2018 г.). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование» . Международная конференция по обучению представлений . arXiv : 1802.08760 . Бибкод : 2018arXiv180208760N .

[:6-13] Нейшабур, Бехнам; Ли, Чжиюань; Бходжанапалли, Шринад; ЛеКун, Янн; Сребро, Натан (2019). «На пути к пониманию роли чрезмерной параметризации в обобщении нейронных сетей». Международная конференция по обучению представлений . arXiv : 1805.12076 . Бибкод : 2018arXiv180512076N .

[:10-14] Шенхольц, Сэмюэл С.; Гилмер, Джастин; Гангули, Сурья; Золь-Дикштейн, Яша (2016). «Глубокое распространение информации». Международная конференция по обучению представлений . arXiv : 1611.01232 .

[:2-15] Перейти обратно: ^а ^б Нил, Рэдфорд М. (1996), «Априорные условия для бесконечных сетей», Байесовское обучение нейронных сетей , Конспекты лекций по статистике, том. 118, Springer New York, стр. 29–53, номер документа : 10.1007/978-1-4612-0745-0_2 , ISBN. 978-0-387-94724-2

[16] Хрон, Иржи; Бахри, Ясаман; Золь-Дикштейн, Яша; Новак, Роман (18 июня 2020 г.). «Бесконечное внимание: NNGP и NTK для сетей глубокого внимания». Международная конференция по машинному обучению . 2020 . arXiv : 2006.10540 . Бибкод : 2020arXiv200610540H .

[17] Чо, Ёнмин; Сол, Лоуренс К. (2009). «Методы ядра для глубокого обучения» . Нейронные системы обработки информации . 22 : 342–350.

[18] Цучида, Рассел; Пирс, Тим; ван дер Хайде, Кристофер; Рооста, Фред; Галлахер, Маркус (2020). «Избежание фиксированных точек ядра: вычисления с бесконечными сетями ELU и GELU». arXiv : 2002.08517 [ cs.LG ].

[19] Новак, Роман; Сяо, Лечао; Хрон, Иржи; Ли, Джехун; Алеми, Александр А.; Золь-Дикштейн, Яша; Шенхольц, Сэмюэл С. (05 декабря 2019 г.), «Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python», Международная конференция по обучающим представлениям (ICLR) , том. 2020, arXiv : 1912.02803 , Bibcode : 2019arXiv191202803N

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]