Пакетная нормализация

Пакетная нормализация (также известная как пакетная норма ) — это метод, используемый для более быстрого и стабильного обучения искусственных нейронных сетей за счет нормализации входных данных слоев путем повторного центрирования и повторного масштабирования. Его предложили Сергей Иоффе и Кристиан Сегеди в 2015 году. ^[1]

Хотя эффект нормализации партий очевиден, причины ее эффективности остаются дискуссионными. Считалось, что это может смягчить проблему внутреннего ковариатного сдвига , когда инициализация параметров и изменения в распределении входных данных каждого слоя влияют на скорость обучения сети. ^[1] Недавно некоторые ученые заявили, что пакетная нормализация не уменьшает внутренний ковариатный сдвиг, а скорее сглаживает целевую функцию , что, в свою очередь, улучшает производительность. ^[2] Однако при инициализации пакетная нормализация фактически вызывает сильный взрыв градиента в глубоких сетях, который смягчается только пропуском соединений в остаточных сетях. ^[3] Другие утверждают, что пакетная нормализация обеспечивает развязку по длине и тем самым ускоряет работу нейронных сетей . ^[4]

ковариатный Внутренний сдвиг

Каждый слой нейронной сети имеет входы с соответствующим распределением, на которое в процессе обучения влияет случайность инициализации параметров и случайность входных данных. Влияние этих источников случайности на распределение входных данных по внутренним слоям во время обучения описывается как внутренний ковариатный сдвиг . Хотя четкое и точное определение, по-видимому, отсутствует, в экспериментах наблюдалось явление, заключающееся в изменении средних и дисперсий входных данных для внутренних слоев во время обучения.

Первоначально пакетная нормализация была предложена для смягчения внутреннего ковариатного сдвига. ^[1] На этапе обучения сетей, когда параметры предыдущих слоев изменяются, распределение входных данных для текущего уровня соответственно меняется, так что текущему уровню необходимо постоянно приспосабливаться к новым распределениям. Эта проблема особенно серьезна для глубоких сетей, поскольку небольшие изменения в более мелких скрытых слоях будут усиливаться по мере их распространения внутри сети, что приведет к значительному сдвигу в более глубоких скрытых слоях. Поэтому предлагается метод пакетной нормализации, чтобы уменьшить эти нежелательные сдвиги, ускорить обучение и создать более надежные модели.

Считается, что помимо уменьшения внутреннего сдвига ковариат нормализация партий дает множество других преимуществ. Благодаря этой дополнительной операции сеть может использовать более высокую скорость обучения без исчезновения или взрыва градиентов. Более того, пакетная нормализация, по-видимому, оказывает регуляризирующий эффект, так что сеть улучшает свои свойства обобщения, и поэтому нет необходимости использовать отсев для уменьшения переобучения . Также было замечено, что сеть становится более устойчивой к различным схемам инициализации и скорости обучения при использовании пакетной нормализации.

Процедуры [ править ]

Трансформация [ править ]

В нейронной сети пакетная нормализация достигается за счет этапа нормализации, который фиксирует средние значения и дисперсии входных данных каждого слоя. В идеале нормализация должна проводиться по всей обучающей выборке, но для использования этого шага совместно с методами стохастической оптимизации использовать глобальную информацию непрактично. Таким образом, нормализация ограничивается каждой мини-партией в процессе обучения.

Давайте использовать B для обозначения мини-пакета размера m всего обучающего набора. эмпирическое среднее значение и дисперсию B Таким образом , можно обозначить как

$\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ и $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ .

Для слоя сети с d- мерным входом $x=(x^{(1)},...,x^{(d)})$ , каждое измерение его входных данных затем нормализуется (т.е. повторно центрируется и масштабируется) отдельно,

${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\left(\sigma _{B}^{(k)}\right)^{2}+\epsilon }}}$ , где $k\in [1,d]$ и $i\in [1,m]$ ; $\mu _{B}^{(k)}$ и $\sigma _{B}^{(k)}$ — среднее значение по измерению и стандартное отклонение соответственно.

$\epsilon$ добавляется в знаменатель для численной устойчивости и является сколь угодно малой константой. Результирующая нормализованная активация ${\hat {x}}^{(k)}$ иметь нулевое среднее и единичную дисперсию, если $\epsilon$ не учитывается. Чтобы восстановить репрезентативную способность сети, следует следующий этап преобразования:

$y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ ,

где параметры $\gamma ^{(k)}$ и $\beta ^{(k)}$ впоследствии изучаются в процессе оптимизации.

Формально операция, реализующая пакетную нормализацию, представляет собой преобразование $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ называется пакетным нормализующим преобразованием. Результат преобразования BN $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ затем передается на другие сетевые уровни, а нормализованный вывод ${\hat {x}}_{i}^{(k)}$ остается внутренним по отношению к текущему слою.

Обратное распространение ошибки [ править ]

Описанное преобразование BN является дифференцируемой операцией, и градиент потерь l по отношению к различным параметрам можно вычислить непосредственно с помощью цепного правила .

Конкретно, ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ зависит от выбора функции активации , а градиент относительно других параметров может быть выражен как функция ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ :

${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ,

${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ , ${\frac {\partial l}{\partial \beta ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}$ ,
${\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}(x_{i}^{(k)}-\mu _{B}^{(k)})\left(-{\frac {\gamma ^{(k)}}{2}}(\sigma _{B}^{(k)^{2}}+\epsilon )^{-3/2}\right)$ , ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ,

и ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ .

Вывод [ править ]

На этапе обучения этапы нормализации зависят от мини-пакетов, чтобы обеспечить эффективное и надежное обучение. Однако на этапе вывода эта зависимость уже бесполезна. Вместо этого шаг нормализации на этом этапе вычисляется с использованием статистики населения, так что выходные данные могут детерминированным образом зависеть от входных данных. Население означает, $E[x^{(k)}]$ и дисперсия, $\operatorname {Var} [x^{(k)}]$ , вычисляются как:

$E[x^{(k)}]=E_{B}[\mu _{B}^{(k)}]$ , и $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\left(\sigma _{B}^{(k)}\right)^{2}]$ .

Таким образом, статистика населения представляет собой полное представление мини-партий.

Таким образом, преобразование BN на этапе вывода становится

$y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}^{\text{inf}}(x^{(k)})=\gamma ^{(k)}{\frac {x^{(k)}-E[x^{(k)}]}{\sqrt {\operatorname {Var} [x^{(k)}]+\epsilon }}}+\beta ^{(k)}$ ,

где $y^{(k)}$ передается будущим слоям вместо $x^{(k)}$ . Поскольку параметры в этом преобразовании фиксированы, процедура пакетной нормализации по существу применяет линейное преобразование к активации.

Теория [ править ]

Хотя пакетная нормализация стала популярной благодаря своей высокой эмпирической эффективности, рабочий механизм метода еще не до конца понятен. Объяснение, данное в оригинальной статье ^[1] заключалось в том, что пакетная норма работает за счет уменьшения внутреннего сдвига ковариат, но это было поставлено под сомнение в более поздних работах. Один эксперимент ^[2] обучил сеть VGG-16 ^[5] в трех различных режимах обучения: стандартном (без пакетной нормы), пакетной норме и пакетной норме с добавлением шума к каждому слою во время обучения. В третьей модели шум имеет ненулевое среднее и неединичную дисперсию, т.е. он явно вносит ковариатный сдвиг. Несмотря на это, она показала точность, аналогичную второй модели, и обе показали лучшие результаты, чем первая, что позволяет предположить, что сдвиг ковариации не является причиной того, что норма партии улучшает производительность.

Использование пакетной нормализации приводит к тому, что элементы в пакете больше не являются iid , что может привести к трудностям в обучении из-за более низкого качества оценки градиента. ^[6]

Гладкость [ править ]

Одно альтернативное объяснение, ^[2] заключается в том, что улучшение при пакетной нормализации вместо этого связано с созданием более гладкого пространства параметров и более плавных градиентов, что формализуется меньшей константой Липшица .

Рассмотрим две идентичные сети: одна содержит слои пакетной нормализации, а другая — нет. Затем поведение этих двух сетей сравнивается. Обозначим функции потерь как ${\hat {L}}$ и $L$ , соответственно. Пусть вход в обе сети будет $x$ , и результат будет $y$ , для чего $y=Wx$ , где $W$ — это веса слоев. Для второй сети $y$ дополнительно проходит через уровень пакетной нормализации. Обозначим нормализованную активацию как ${\hat {y}}$ , который имеет нулевое среднее значение и единичную дисперсию. Пусть преобразованная активация будет $z=\gamma {\hat {y}}+\beta$ и предположим $\gamma$ и $\beta$ являются константами. Наконец, обозначим стандартное отклонение для мини-партии. ${\hat {y_{j}}}\in \mathbb {R} ^{m}$ как $\sigma _{j}$ .

Во-первых, можно показать, что величина градиента пакетной нормализованной сети $||\triangledown _{y_{i}}{\hat {L}}||$ , ограничено, причем граница выражается как

$||\triangledown _{y_{i}}{\hat {L}}||^{2}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}{\Bigg (}||\triangledown _{y_{i}}L||^{2}-{\frac {1}{m}}\langle 1,\triangledown _{y_{i}}L\rangle ^{2}-{\frac {1}{m}}\langle \triangledown _{y_{i}}L,{\hat {y}}_{j}\rangle ^{2}{\bigg )}$ .

Поскольку величина градиента представляет собой липшицевость потерь, это соотношение указывает на то, что нормализованная партиями сеть может сравнительно достичь большей липшицевости. Обратите внимание, что граница становится ужесточена, когда градиент $\triangledown _{y_{i}}{\hat {L}}$ коррелирует с активацией ${\hat {y_{i}}}$ , что является обычным явлением. Масштабирование ${\frac {\gamma ^{2}}{\sigma _{j}^{2}}}$ также имеет большое значение, поскольку дисперсия часто велика.

Во-вторых, квадратичная форма гессиана потерь относительно активации в направлении градиента может быть ограничена как

$(\triangledown _{y_{j}}{\hat {L}})^{T}{\frac {\partial {\hat {L}}}{\partial y_{j}\partial y_{j}}}(\triangledown _{y_{j}}{\hat {L}})\leq {\frac {\gamma ^{2}}{\sigma ^{2}}}{\bigg (}{\frac {\partial {\hat {L}}}{\partial y_{j}}}{\bigg )}^{T}{\bigg (}{\frac {\partial L}{\partial y_{j}\partial y_{j}}}{\bigg )}{\bigg (}{\frac {\partial {\hat {L}}}{\partial y_{j}}}{\bigg )}-{\frac {\gamma }{m\sigma ^{2}}}\langle \triangledown _{y_{j}}L,{\hat {y_{j}}}\rangle {\bigg |}{\bigg |}{\frac {\partial {\hat {L}}}{\partial y_{j}}}{\bigg |}{\bigg |}^{2}$ .

Масштабирование ${\frac {\gamma ^{2}}{\sigma _{j}^{2}}}$ указывает на то, что гессиан потерь устойчив к дисперсии мини-партии, тогда как второй член в правой части предполагает, что он становится более сглаженным, когда гессиан и внутренний продукт неотрицательны. Если потеря локально выпукла , то гессиан является положительно полуопределенным , а скалярный продукт положителен, если ${\hat {g_{j}}}$ направлена к минимуму потерь. Таким образом, на основании этого неравенства можно сделать вывод, что градиент обычно становится более предсказуемым при использовании слоя пакетной нормализации.

Затем следует перевести границы, связанные с потерями по отношению к нормализованной активации, в границу потерь по отношению к весам сети:

${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ , где $g_{j}=max_{||X||\leq \lambda }||\triangledown _{W}L||^{2}$ и ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ .

В дополнение к более гладкому ландшафту также показано, что пакетная нормализация может привести к лучшей инициализации со следующим неравенством:

$||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ , где $W^{*}$ и ${\hat {W}}^{*}$ — локальные оптимальные веса для двух сетей соответственно.

Некоторые ученые утверждают, что приведенный выше анализ не может полностью отразить эффективность пакетной нормализации, поскольку доказательство касается только наибольшего собственного значения или, что то же самое, одного направления в ландшафте во всех точках. Предполагается, что для проведения окончательного анализа необходимо учитывать полный собственный спектр. ^[4]

^[2]

Измерить [ править ]

Поскольку предполагается, что слои пакетной нормализации могут уменьшить внутренний ковариатный сдвиг, эксперимент ^{[ нужна ссылка ]} настроен для количественного измерения того, насколько уменьшается ковариатный сдвиг. Во-первых, понятие внутреннего ковариатного сдвига необходимо определить математически. В частности, чтобы количественно оценить корректировку, которую параметры слоя вносят в ответ на обновления в предыдущих слоях, измеряется корреляция между градиентами потерь до и после обновления всех предыдущих слоев, поскольку градиенты могут фиксировать сдвиги от обучения первого порядка. метод. Если сдвиг, вносимый изменениями в предыдущих слоях, невелик, то корреляция между градиентами будет близка к 1.

Корреляция между градиентами рассчитывается для четырех моделей: стандартной сети VGG, ^[5] сеть VGG со слоями пакетной нормализации, 25-слойная глубокая линейная сеть (DLN), обученная с помощью полнопакетного градиентного спуска, и сеть DLN со слоями пакетной нормализации. Интересно, что показано, что стандартные модели VGG и DLN имеют более высокую корреляцию градиентов по сравнению со своими аналогами, что указывает на то, что дополнительные слои пакетной нормализации не уменьшают внутренний ковариатный сдвиг.

Исчезновение/взрыв градиентов [ править ]

Несмотря на то, что пакетная норма изначально была введена для облегчения проблем с исчезновением градиента или взрывом , глубокая сеть пакетной нормы на самом деле страдает от взрыва градиента во время инициализации, независимо от того, что она использует для нелинейности. Таким образом, ландшафт оптимизации очень далек от гладкости для случайно инициализированной сети с глубокими пакетными нормами.Точнее, если в сети есть $L$ слоев, то градиент весов первого слоя имеет норму $>c\lambda ^{L}$ для некоторых $\lambda >1,c>0$ зависит только от нелинейности.Для любой фиксированной нелинейности $\lambda$ уменьшается по мере увеличения размера партии. Например, для ReLU $\lambda$ уменьшается до $\pi /(\pi -1)\approx 1.467$ поскольку размер партии стремится к бесконечности.На практике это означает, что сети с глубокими пакетными нормами не поддаются обучению.Это облегчается только пропуском соединений в виде остаточных сетей. ^[3]

Этот градиентный взрыв на поверхности противоречит свойству гладкости , объясненному в предыдущем разделе, но на самом деле они непротиворечивы. В предыдущем разделе изучается эффект от вставки одной пакетной нормы в сеть, в то время как взрыв градиента зависит от наложения пакетных норм, типичного для современных глубоких нейронных сетей.

Развязка [ править ]

Другая возможная причина успеха пакетной нормализации заключается в том, что она отделяет длину и направление весовых векторов и, таким образом, способствует лучшему обучению.

Интерпретируя пакетную норму как репараметризацию весового пространства, можно показать, что длина и направление весов разделены и, следовательно, могут обучаться отдельно. Для конкретного блока нейронной сети с входом $x$ и вектор веса $w$ , обозначим его выход как $f(w)=E_{x}[\phi (x^{T}w)]$ , где $\phi$ – функция активации, и обозначим $S=E[xx^{T}]$ . Предположим, что $E[x]=0$ , и что спектр матрицы $S$ ограничен как $0<\mu =\lambda _{min}(S)$ , $L=\lambda _{max}(S)<\infty$ , такой, что $S$ является симметричным положительно определенным. Таким образом, добавление нормализации партии к этой единице приводит к

$f_{BN}(w,\gamma ,\beta )=E_{x}[\phi (BN(x^{T}w))]=E_{x}{\bigg [}\phi {\bigg (}\gamma ({\frac {x^{T}w-E_{x}[x^{T}w]}{var_{x}[x^{T}w]^{1/2}}})+\beta {\bigg )}{\bigg ]}$ , по определению.

Термин дисперсия можно упростить так, что $var_{x}[x^{T}w]=w^{T}Sw$ . Предположим, что $x$ имеет нулевое среднее и $\beta$ можно опустить, то отсюда следует, что

$f_{BN}(w,\gamma )=E_{x}{\bigg [}\phi {\bigg (}\gamma {\frac {x^{T}w}{(w^{T}Sw)^{1/2}}}{\bigg )}{\bigg ]}$ , где $(w^{T}Sw)^{\frac {1}{2}}$ – индуцированная норма $S$ , $||w||_{s}$ .

Следовательно, можно было сделать вывод, что $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ , где ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ , и $\gamma$ и $w$ отдельно учитывается его длина и направление. Это свойство затем можно было бы использовать для доказательства более быстрой сходимости задач при пакетной нормализации.

Линейная сходимость [ править ]

Задача наименьших квадратов [ править ]

С помощью интерпретации репараметризации затем можно было бы доказать, что применение пакетной нормализации к обычной задаче наименьших квадратов обеспечивает линейную скорость сходимости при градиентном спуске, которая быстрее, чем обычный градиентный спуск с только сублинейной сходимостью.

Обозначим цель минимизации обычной задачи наименьших квадратов как

$min_{{\tilde {w}}\in R^{d}}f_{OLS}({\tilde {w}})=min_{{\tilde {w}}\in R^{d}}(E_{x,y}[(y-x^{T}{\tilde {w}})^{2}])=min_{{\tilde {w}}\in R^{d}}(2u^{T}{\tilde {w}}+{\tilde {w}}^{T}S{\tilde {w}})$ , где $u=E[-yx]$ и $S=E[xx^{T}]$ .

С ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ , цель, таким образом, становится

$min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{OLS}(w,\gamma )=min_{w\in R^{d}\backslash \{0\},\gamma \in R}{\bigg (}2\gamma {\frac {u^{T}w}{||w||_{S}+\gamma ^{2}}}{\bigg )}$ , где 0 исключен, чтобы избежать 0 в знаменателе.

Поскольку цель выпукла относительно $\gamma$ , его оптимальное значение можно рассчитать, установив частную производную цели от $\gamma$ до 0. Цель можно еще упростить и

$min_{w\in R^{d}\backslash \{0\}}\rho (w)=min_{w\in R^{d}\backslash \{0\}}{\bigg (}-{\frac {w^{T}uu^{T}w}{w^{T}Sw}}{\bigg )}$ .

Обратите внимание, что эта цель представляет собой форму обобщенного коэффициента Рэлея.

${\tilde {\rho }}(w)={\frac {w^{T}Bw}{w^{T}Aw}}$ , где $B\in R^{d\times d}$ является симметричной матрицей и $A\in R^{d\times d}$ — симметричная положительно определенная матрица.

Доказано, что скорость сходимости обобщенного фактора Рэлея по градиентному спуску равна

${\frac {\lambda _{1}-\rho (w_{t+1})}{\rho (w_{t+1}-\lambda _{2})}}\leq {\bigg (}1-{\frac {\lambda _{1}-\lambda _{2}}{\lambda _{1}-\lambda _{min}}}{\bigg )}^{2t}{\frac {\lambda _{1}-\rho (w_{t})}{\rho (w_{t})-\lambda _{2}}}$ , где $\lambda _{1}$ является наибольшим собственным значением $B$ , $\lambda _{2}$ является вторым по величине собственным значением $B$ , и $\lambda _{min}$ является наименьшим собственным значением $B$ . ^[7]

В нашем случае $B=uu^{T}$ является матрицей ранга один, и результат сходимости можно соответствующим образом упростить. В частности, рассмотрим шаги градиентного спуска в форме $w_{t+1}=w_{t}-\eta _{t}\triangledown \rho (w_{t})$ с размером шага $\eta _{t}={\frac {w_{t}^{T}Sw_{t}}{2L|\rho (w_{t})|}}$ , и начиная с $\rho (w_{0})\neq 0$ , затем

$\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ .

полупространства проблемы Изучение

Проблема изучения полупространств относится к обучению перцептрона , который является простейшей формой нейронной сети. Задача оптимизации в этом случае состоит в следующем.

$min_{{\tilde {w}}\in R^{d}}f_{LH}({\tilde {w}})=E_{y,x}[\phi (z^{T}{\tilde {w}})]$ , где $z=-yx$ и $\phi$ — произвольная функция потерь.

Предположим, что $\phi$ бесконечно дифференцируема и имеет ограниченную производную. Предположим, что целевая функция $f_{LH}$ является $\zeta$ - гладко , и это решение $\alpha ^{*}=argmin_{\alpha }||\triangledown f(\alpha w)||^{2}$ существует и ограничено так, что $-\infty <\alpha ^{*}<\infty$ . Также предположим $z$ — многомерная нормальная случайная величина . Используя предположение Гаусса, можно показать, что все критические точки лежат на одной прямой при любом выборе функции потерь. $\phi$ . В частности, градиент $f_{LH}$ может быть представлено как

$\triangledown _{\tilde {w}}f_{LH}({\tilde {w}})=c_{1}({\tilde {w}})u+c_{2}({\tilde {w}})S{\tilde {w}}$ , где $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ , $c_{2}({\tilde {w}})=E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})]$ , и $\phi ^{(i)}$ это $i$ -я производная от $\phi$ .

Таким образом, установив градиент равным 0, следует, что ограниченные критические точки ${\tilde {w}}_{*}$ может быть выражено как ${\tilde {w}}_{*}=g_{*}S^{-1}u$ , где $g_{*}$ зависит от ${\tilde {w}}_{*}$ и $\phi$ . Таким образом, объединив это глобальное свойство с развязкой в направлении длины, можно доказать, что эта задача оптимизации сходится линейно.

Во-первых, вариант градиентного спуска с пакетной нормализацией, Градиентный спуск в нормализованной параметризации (GDNP), предназначен для целевой функции. $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ , так что направление и длина весов обновляются отдельно. Обозначим критерий остановки GDNP как

$h(w_{t},\gamma _{t})=E_{z}[\phi '(z^{T}{\tilde {w}}_{t})](u^{T}w_{t})-E_{z}[\phi ''(z^{T}{\tilde {w}}_{t})](u^{T}w_{t})^{2}$ .

Пусть размер шага будет

$s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ .

Для каждого шага, если $h(w_{t},\gamma _{t})\neq 0$ , затем обновите направление как

$w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ .

Затем обновите длину в соответствии с

$\gamma _{t}=Bisection(T_{s},f,w_{t})$ , где $Bisection()$ — классический алгоритм деления пополам , и $T_{s}$ — общее количество итераций, выполненных на этапе деления пополам.

Обозначим общее количество итераций как $T_{d}$ , то конечный результат GDNP будет

${\tilde {w}}_{T_{d}}=\gamma _{T_{d}}{\frac {w_{T_{d}}}{||w_{T_{d}}||_{S}}}$ .

Таким образом, алгоритм GDNP немного модифицирует этап пакетной нормализации для упрощения математического анализа.

Можно показать, что в GDNP частная производная от $f_{LH}$ против компонента длины сходится к нулю с линейной скоростью, так что

$(\partial _{\gamma }f_{LH}(w_{t},a_{t}^{(T_{s})})^{2}\leq {\frac {2^{-T_{s}}\zeta |b_{t}^{(0)}-a_{t}^{(0)}|}{\mu ^{2}}}$ , где $a_{t}^{(0)}$ и $b_{t}^{0}$ являются двумя отправными точками алгоритма деления пополам слева и справа соответственно.

Далее для каждой итерации норма градиента $f_{LH}$ относительно $w$ сходится линейно, так что

$||w_{t}||_{S}^{2}||\triangledown f_{LH}(w_{t},g_{t})||_{S^{-1}}^{2}\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}\Phi ^{2}\gamma _{t}^{2}(\rho (w_{0})-\rho ^{*})$ .

Таким образом, объединив эти два неравенства, можно получить оценку градиента по отношению к ${\tilde {w}}_{T_{d}}$ :

$||\triangledown _{\tilde {w}}f({\tilde {w}}_{T_{d}})||^{2}\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2T_{d}}\Phi ^{2}(\rho (w_{0})-\rho ^{*})+{\frac {2^{-T_{s}}\zeta |b_{t}^{(0)}-a_{t}^{(0)}|}{\mu ^{2}}}$ , так что алгоритм гарантированно сходится линейно.

Хотя доказательство основано на предположении о гауссовском входе, эксперименты также показывают, что GDNP может ускорить оптимизацию без этого ограничения.

Нейронные сети [ править ]

Рассмотрим многослойный перцептрон (MLP) с одним скрытым слоем и $m$ скрытые модули с отображением из ввода $x\in R^{d}$ к скалярному выходу, описываемому как

$F_{x}({\tilde {W}},\Theta )=\sum _{i=1}^{m}\theta _{i}\phi (x^{T}{\tilde {w}}^{(i)})$ , где ${\tilde {w}}^{(i)}$ и $\theta _{i}$ - это входные и выходные веса единицы $i$ соответственно, и $\phi$ является функцией активации и предполагается, что это функция tanh .

Затем входные и выходные веса можно оптимизировать с помощью

$min_{{\tilde {W}},\Theta }(f_{NN}({\tilde {W}},\Theta )=E_{y,x}[l(-yF_{x}({\tilde {W}},\Theta ))])$ , где $l$ представляет собой функцию потерь, ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ , и $\Theta =\{\theta ^{(1)},...,\theta ^{(m)}\}$ .

Считайте фиксированным $\Theta$ и только оптимизация ${\tilde {W}}$ , можно показать, что критические точки $f_{NN}({\tilde {W}})$ конкретного скрытого блока $i$ , ${\hat {w}}^{(i)}$ , все выравниваются по одной линии в зависимости от поступающей информации в скрытый слой, так что

${\hat {w}}^{(i)}={\hat {c}}^{(i)}S^{-1}u$ , где ${\hat {c}}^{(i)}\in R$ является скаляром, $i=1,...,m$ .

Этот результат можно доказать, установив градиент $f_{NN}$ к нулю и решению системы уравнений.

Примените алгоритм GDNP к этой задаче оптимизации, чередуя оптимизацию различных скрытых единиц. В частности, для каждого скрытого блока запустите GDNP, чтобы найти оптимальный $W$ и $\gamma$ . При том же выборе критерия остановки и размера шага отсюда следует, что

$||\triangledown _{{\tilde {w}}^{(i)}}f({\tilde {w}}_{t}^{(i)})||_{S^{-1}}^{2}\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}C(\rho (w_{0})-\rho ^{*})+{\frac {2^{-T_{s}^{(i)}}\zeta |b_{t}^{(0)}-a_{t}^{(0)}|}{\mu ^{2}}}$ .

Поскольку параметры каждой скрытой единицы сходятся линейно, вся задача оптимизации имеет линейную скорость сходимости. ^[4]

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б ^с ^д Иоффе, Сергей; Сегеди, Кристиан (2015). «Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариатного сдвига». arXiv : 1502.03167 [ cs.LG ].
^ Jump up to: Перейти обратно: ^а ^б ^с ^д Сантуркар, Шибани; Ципрас, Димитрис; Ильяс, Андрей; Мадри, Александр (29 мая 2018 г.). «Как пакетная нормализация помогает оптимизации?». arXiv : 1805.11604 [ stat.ML ].
^ Jump up to: Перейти обратно: ^а ^б Ян, Грег; Пеннингтон, Джеффри; Рао, Винай; Золь-Дикштейн, Яша; Шенхольц, Сэмюэл С. (2019). «Теория среднего поля пакетной нормализации». arXiv : 1902.08129 [ cs.NE ].
^ Jump up to: Перейти обратно: ^а ^б ^с Колер, Йонас; Данешманд, Хади; Лукки, Орельен; Чжоу, Мин; Неймейр, Клаус; Хофманн, Томас (27 мая 2018 г.). «Экспоненциальная скорость сходимости для пакетной нормализации: сила разделения по длине в невыпуклой оптимизации». arXiv : 1805.10694 [ stat.ML ].
^ Jump up to: Перейти обратно: ^а ^б Симонян, Карен; Эндрю, Зиссерман (2014). «Сети очень глубокой свертки для крупномасштабного распознавания изображений». arXiv : 1409.1556 [ cs.CV ].
^ Ба, Дж., Кирос, младший, и Хинтон, GE (2016). Слой нормализации. ArXiv, абс/1607.06450.
^ Князев, Неймейр, А.В., К. (2003). «Геометрическая теория для предварительно обусловленной обратной итерации III: короткая и точная оценка сходимости для обобщенных задач на собственные значения» . Линейная алгебра и ее приложения . 358 (1–3): 95–114. дои : 10.1016/S0024-3795(01)00461-X . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

Дальнейшее чтение [ править ]

Иоффе, Сергей; Сегеди, Кристиан (2015). «Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариатного сдвига», ICML'15: Материалы 32-й Международной конференции по машинному обучению - Том 37, июль 2015 г., страницы 448–456
Симонян, Карен; Зиссерман, Эндрю (2014). «Очень глубокие сверточные сети для крупномасштабного распознавания изображений». arXiv : 1409.1556 [ cs.CV ].

[:0-1] Jump up to: Перейти обратно: ^а ^б ^с ^д Иоффе, Сергей; Сегеди, Кристиан (2015). «Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариатного сдвига». arXiv : 1502.03167 [ cs.LG ].

[:1-2] Jump up to: Перейти обратно: ^а ^б ^с ^д Сантуркар, Шибани; Ципрас, Димитрис; Ильяс, Андрей; Мадри, Александр (29 мая 2018 г.). «Как пакетная нормализация помогает оптимизации?». arXiv : 1805.11604 [ stat.ML ].

[:7-3] Jump up to: Перейти обратно: ^а ^б Ян, Грег; Пеннингтон, Джеффри; Рао, Винай; Золь-Дикштейн, Яша; Шенхольц, Сэмюэл С. (2019). «Теория среднего поля пакетной нормализации». arXiv : 1902.08129 [ cs.NE ].

[:2-4] Jump up to: Перейти обратно: ^а ^б ^с Колер, Йонас; Данешманд, Хади; Лукки, Орельен; Чжоу, Мин; Неймейр, Клаус; Хофманн, Томас (27 мая 2018 г.). «Экспоненциальная скорость сходимости для пакетной нормализации: сила разделения по длине в невыпуклой оптимизации». arXiv : 1805.10694 [ stat.ML ].

[VGG-5] Jump up to: Перейти обратно: ^а ^б Симонян, Карен; Эндрю, Зиссерман (2014). «Сети очень глубокой свертки для крупномасштабного распознавания изображений». arXiv : 1409.1556 [ cs.CV ].

[6] Ба, Дж., Кирос, младший, и Хинтон, GE (2016). Слой нормализации. ArXiv, абс/1607.06450.

[7] Князев, Неймейр, А.В., К. (2003). «Геометрическая теория для предварительно обусловленной обратной итерации III: короткая и точная оценка сходимости для обобщенных задач на собственные значения» . Линейная алгебра и ее приложения . 358 (1–3): 95–114. дои : 10.1016/S0024-3795(01)00461-X . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[1]

[2]

[3]

[4]

[5]

[6]

[7]

ковариатный Внутренний сдвиг ​