Выпрямитель (нейронные сети)

В контексте искусственных нейронных сетей или функция активации выпрямителя ReLU (выпрямленная линейная единица) ^[1]^[2] — это функция активации, определяемая как положительная часть ее аргумента:

f(x)=x^{+}=\max(0,x)={\frac {x+|x|}{2}}={\begin{cases}x&{\text{if }}x>0,\\0&{\text{otherwise}},\end{cases}}

где $x$ является входом для нейрона. Это также известно как функция линейного изменения и аналогично полуволновому выпрямлению в электротехнике . Эта функция активации была введена Кунихико Фукусимой в 1969 году в контексте извлечения визуальных признаков в иерархических нейронных сетях. ^[3]^[4]^[5] Позже утверждалось, что это имеет сильную биологическую мотивацию и математическое обоснование. ^[6]^[7] В 2011 году было обнаружено, что это позволяет лучше обучать более глубокие сети. ^[8] по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая основана на теории вероятностей ; см. Логистическую регрессию ) и ее более практичной функцией. ^[9] аналог — гиперболический тангенс . Выпрямитель по состоянию на 2017 год ^[update], самая популярная функция активации для глубоких нейронных сетей . ^[10]

Выпрямленные линейные единицы находят применение в компьютерном зрении ^[8] и распознавание речи ^[11]^[12] использование глубоких нейронных сетей и вычислительной нейробиологии . ^[13]^[14]^[15]

Преимущества

Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (имеют ненулевой выход).
Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях. ^[8]
Эффективные вычисления: только сравнение, сложение и умножение.
Масштабно-инвариантный ( однородный ): $\max(0,ax)=a\max(0,x){\text{ for }}a\geq 0$ .

Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая была обучена под наблюдением для изучения нескольких задач компьютерного зрения. ^[16] В 2011 году ^[8] Было показано, что использование выпрямителя в качестве нелинейного устройства позволяет обучать нейронные сети с глубоким учителем, не требуя без учителя предварительного обучения . Выпрямленные линейные единицы по сравнению с сигмовидной функцией или аналогичными функциями активации позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.

Потенциальные проблемы

Недифференцируемый в нуле; однако он дифференцируем в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
Не с нулевым центром: выходные данные ReLU всегда неотрицательны. Это может затруднить обучение сети во время обратного распространения ошибки, поскольку обновления градиента имеют тенденцию смещать веса в одном направлении (положительном или отрицательном). Пакетная нормализация может помочь решить эту проблему. ^{[ нужна ссылка ]}
Неограниченный.
Умирающая проблема ReLU: нейроны ReLU (выпрямленная линейная единица) иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входных данных. В этом состоянии градиенты не текут обратно через нейрон, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это одна из форм проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвом состоянии, что существенно снижает емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена слишком высока. Это можно смягчить, используя вместо этого дырявые ReLU, которые присваивают небольшой положительный наклон для x < 0; однако производительность снижается.

Варианты

Кусочно-линейные варианты

Дырявый РеЛУ

Утечки ReLU допускают небольшой положительный градиент, когда устройство не активно. ^[12] помогая смягчить проблему исчезающего градиента.

f(x)={\begin{cases}x&{\text{if }}x>0,\\0.01x&{\text{otherwise}}.\end{cases}}\qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\0.01&{\text{otherwise}}.\end{cases}}

Параметрический ReLU

Параметрические ReLU (PReLU) развивают эту идею дальше, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети. ^[17]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a\cdot x&{\text{otherwise}}.\end{cases}}\qquad \qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\a&{\text{otherwise}}.\end{cases}}

Обратите внимание, что для a ≤ 1 это эквивалентно

f(x)=\max(x,ax)

и, таким образом, имеет отношение к сетям «maxout». ^[17]

Другие нелинейные варианты

Линейный блок с гауссовой ошибкой (GELU)

GELU — плавное приближение к выпрямителю:

f(x)=x\cdot \Phi (x),

f'(x)=x\cdot \Phi '(x)+\Phi (x),

где $\Phi (x)=P(X\leqslant x)$ — кумулятивная функция распределения стандартного нормального распределения .

Эта функция активации показана на рисунке в начале этой статьи. Он имеет «выпуклость» слева от x < 0 и служит активацией по умолчанию для таких моделей, как BERT . ^[18]

SiLU

SiLU (сигмовидная линейная единица) или функция взмаха ^[19] это еще одно гладкое приближение, впервые предложенное в статье GELU: ^[18]

f(x)=x\cdot \operatorname {sigmoid} (x),

f'(x)=x\cdot \operatorname {sigmoid} '(x)+\operatorname {sigmoid} (x),

где $\operatorname {sigmoid} (x)$ это сигмовидная функция .

Софтплюс

Гладким приближением выпрямителя является аналитическая функция

f(x)=\ln(1+e^{x}),\qquad \qquad f'(x)={\frac {e^{x}}{1+e^{x}}}={\frac {1}{1+e^{-x}}},

который называется софтплюс ^[20]^[8] или функцию SmoothReLU . ^[21] Для большого негатива $x$ это примерно $\ln 1$ , то есть чуть выше 0, а для больших положительных $x$ это примерно $\ln(e^{x})$ , так чуть выше $x$ .

Эту функцию можно аппроксимировать следующим образом:

\ln \left(1+e^{x}\right)\approx {\begin{cases}\ln 2,&x=0,\\[6pt]{\frac {x}{1-e^{-x/\ln 2}}},&x\neq 0\end{cases}}

Сделав замену переменных $x=y\ln(2)$ , это эквивалентно

\log _{2}(1+2^{y})\approx {\begin{cases}1,&y=0,\\[6pt]{\frac {y}{1-e^{-y}}},&y\neq 0.\end{cases}}

Параметр резкости $k$ могут быть включены:

f(x)={\frac {\ln(1+e^{kx})}{k}},\qquad \qquad f'(x)={\frac {e^{kx}}{1+e^{kx}}}={\frac {1}{1+e^{-kx}}}.

Производная softplus — логистическая функция .

Логистическая сигмоидальная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой функции Хевисайда .

Многопараметрическим обобщением softplus с одной переменной является LogSumExp с первым аргументом, установленным в ноль:

\operatorname {LSE_{0}} ^{+}(x_{1},\dots ,x_{n}):=\operatorname {LSE} (0,x_{1},\dots ,x_{n})=\ln(1+e^{x_{1}}+\cdots +e^{x_{n}}).

Функция LogSumExp

\operatorname {LSE} (x_{1},\dots ,x_{n})=\ln(e^{x_{1}}+\cdots +e^{x_{n}}),

и его градиент — softmax ; softmax с первым аргументом, равным нулю, представляет собой многовариантное обобщение логистической функции. И LogSumExp, и softmax используются в машинном обучении.

ВВЕРХ

Экспоненциальные линейные блоки пытаются приблизить средние активации к нулю, что ускоряет обучение. Было показано, что ELU могут обеспечить более высокую точность классификации, чем ReLU. ^[22]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a\left(e^{x}-1\right)&{\text{otherwise}}.\end{cases}}\qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\a\cdot e^{x}&{\text{otherwise}}.\end{cases}}

В этих формулах $a$ это гиперпараметр, который нужно настроить с учетом ограничения $a\geq 0$ .

ELU можно рассматривать как сглаженную версию сдвинутой ReLU (SReLU), которая имеет вид $f(x)=\max(-a,x)$ , учитывая ту же интерпретацию $a$ .

Миш

Миш-функцию также можно использовать в качестве плавной аппроксимации выпрямителя. ^[19] Это определяется как

f(x)=x\tanh {\big (}\operatorname {softplus} (x){\big )},

где $\tanh(x)$ - гиперболический тангенс , а $\operatorname {softplus} (x)$ это функция softplus .

Миш немонотонен и самодостаточен . ^[23] Он был вдохновлен Swish , который сам по себе является вариантом ReLU . ^[23]

Скверплюс

Скверплюс ^[24] это функция

\operatorname {squareplus} _{b}(x)={\frac {x+{\sqrt {x^{2}+b}}}{2}}

где $b\geq 0$ — гиперпараметр, определяющий «размер» изогнутой области вблизи $x=0$ . (Например, позволив $b=0$ дает ReLU, и позволяя $b=4$ дает функцию металлического среднего .)Squareplus имеет много общих свойств с softplus: он монотонен , строго положителен , приближается к 0 при $x\to -\infty$ , приближается к тождеству как $x\to +\infty$ , и есть $C^{\infty }$ гладкий . Однако Squareplus можно вычислить, используя только алгебраические функции , что делает его хорошо подходящим для ситуаций, когда вычислительные ресурсы или наборы команд ограничены. Кроме того, Squareplus не требует особого внимания для обеспечения числовой стабильности при $x$ большой.

См. также

Ссылки

^ Браунли, Джейсон (8 января 2019 г.). «Нежное введение в выпрямленный линейный блок (ReLU)» . Мастерство машинного обучения . Проверено 8 апреля 2021 г.
^ Лю, Даньцин (30 ноября 2017 г.). «Практическое руководство по ReLU» . Середина . Проверено 8 апреля 2021 г.
^ Фукусима, К. (1969). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225 .
^ Фукусима, К.; Мияке, С. (1982). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания визуальных образов». Конкуренция и сотрудничество в нейронных сетях . Конспект лекций по биоматематике. Том. 45. Спрингер. стр. 267–285. дои : 10.1007/978-3-642-46466-9_18 . ISBN 978-3-540-11574-8 . {{cite book}}: |journal= игнорируется ( помогите )
^ Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [ cs.NE ].
^ Ханлозер, Р.; Сарпешкар Р.; Маховальд, Массачусетс; Дуглас, Р.Дж.; Сын, HS (2000). «Цифровая селекция и аналоговое усиление сосуществуют в кремниевой схеме, основанной на коре головного мозга». Природа . 405 (6789): 947–951. Бибкод : 2000Natur.405..947H . дои : 10.1038/35016072 . ПМИД 10879535 . S2CID 4399014 .
^ Ханлозер, Р.; Сын, HS (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях . НИПС 2001.
^ Jump up to: ^а ^б ^с ^д ^и Ксавье Глорот; Антуан Борд; Йошуа Бенджио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АЙСТАТС. Функции активации выпрямителя и softplus. Второй вариант является более гладкой версией первого.
^ Ян ЛеКун ; Леон Ботту ; Женевьева Б. Орр; Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF) . У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости . Спрингер.
^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].
^ Ласло Тот (2013). Распознавание телефона с помощью нейронных сетей с глубоким разреженным выпрямителем (PDF) . ИКАССП .
^ Jump up to: ^а ^б Эндрю Л. Маас, Ауни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронных сетей .
^ Гензель, Д.; ван Вресвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации в зрительной коре кошки» . Дж. Нейроски. 22 (12): 5118–5128. doi : 10.1523/JNEUROSCI.22-12-05118.2002 . ПМК 6757721 . ПМИД 12077207 .
^ Кадмон, Джонатан; Сомполинский, Хаим (19 ноября 2015 г.). «Переход к хаосу в случайных нейронных сетях». Физический обзор X . 5 (4): 041030. arXiv : 1508.06486 . Бибкод : 2015PhRvX...5d1030K . дои : 10.1103/PhysRevX.5.041030 . S2CID 7813832 .
^ Энгелькен, Райнер; Вольф, Фред; Эбботт, LF (03.06.2020). «Ляпуновские спектры хаотических рекуррентных нейронных сетей». arXiv : 2006.02427 [ nlin.CD ].
^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений . Конспекты лекций по информатике. Том. 2766. Спрингер. дои : 10.1007/b11963 . ISBN 978-3-540-40722-5 . S2CID 1304548 .
^ Jump up to: ^а ^б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Углубление выпрямителей: превосходство человеческого уровня при классификации сетей изображений ». arXiv : 1502.01852 [ cs.CV ].
^ Jump up to: ^а ^б Хендрикс, Дэн; Гимпел, Кевин (2016). «Линейные единицы гауссовой ошибки (GELU)». arXiv : 1606.08415 [ cs.LG ].
^ Jump up to: ^а ^б Диганта Мисра (23 августа 2019 г.), Миш: Саморегуляризованная немонотонная функция активации (PDF) , arXiv : 1908.08681v1 , получено 26 марта 2022 г.
^ Дугас, Чарльз; Бенджио, Йошуа; Белиль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Включение функциональных знаний второго порядка для лучшего ценообразования опционов» (PDF) . Материалы 13-й Международной конференции по нейронным системам обработки информации (NIPS'00) . Массачусетский технологический институт Пресс: 451–457. Поскольку сигмоида h имеет положительную первую производную, ее примитивная форма, которую мы называем softplus, является выпуклой.
^ «Прямой уровень линейного блока плавного выпрямителя (SmoothReLU)» . Руководство разработчика по библиотеке ускорения Intel Data Analytics . 2017 . Проверено 4 декабря 2018 г.
^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрейтер, Зепп (2015). «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [ cs.LG ].
^ Jump up to: ^а ^б Шоу, Света (10 мая 2020 г.). «Функции активации в сравнении с экспериментами» . В&Б . Проверено 11 июля 2022 г.
^ Бэррон, Джонатан Т. (22 декабря 2021 г.). «Squareplus: алгебраический выпрямитель в стиле Softplus». arXiv : 2112.11687 [ cs.NE ].

[1] Браунли, Джейсон (8 января 2019 г.). «Нежное введение в выпрямленный линейный блок (ReLU)» . Мастерство машинного обучения . Проверено 8 апреля 2021 г.

[2] Лю, Даньцин (30 ноября 2017 г.). «Практическое руководство по ReLU» . Середина . Проверено 8 апреля 2021 г.

[3] Фукусима, К. (1969). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225 .

[4] Фукусима, К.; Мияке, С. (1982). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания визуальных образов». Конкуренция и сотрудничество в нейронных сетях . Конспект лекций по биоматематике. Том. 45. Спрингер. стр. 267–285. дои : 10.1007/978-3-642-46466-9_18 . ISBN 978-3-540-11574-8 . {{cite book}}: |journal= игнорируется ( помогите )

[5] Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [ cs.NE ].

[6] Ханлозер, Р.; Сарпешкар Р.; Маховальд, Массачусетс; Дуглас, Р.Дж.; Сын, HS (2000). «Цифровая селекция и аналоговое усиление сосуществуют в кремниевой схеме, основанной на коре головного мозга». Природа . 405 (6789): 947–951. Бибкод : 2000Natur.405..947H . дои : 10.1038/35016072 . ПМИД 10879535 . S2CID 4399014 .

[7] Ханлозер, Р.; Сын, HS (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях . НИПС 2001.

[Yoshua_Bengio-2011-8] Jump up to: ^а ^б ^с ^д ^и Ксавье Глорот; Антуан Борд; Йошуа Бенджио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АЙСТАТС. Функции активации выпрямителя и softplus. Второй вариант является более гладкой версией первого.

[9] Ян ЛеКун ; Леон Ботту ; Женевьева Б. Орр; Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF) . У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости . Спрингер.

[10] Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].

[11] Ласло Тот (2013). Распознавание телефона с помощью нейронных сетей с глубоким разреженным выпрямителем (PDF) . ИКАССП .

[Andrew_L-12] Jump up to: ^а ^б Эндрю Л. Маас, Ауни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронных сетей .

[13] Гензель, Д.; ван Вресвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации в зрительной коре кошки» . Дж. Нейроски. 22 (12): 5118–5128. doi : 10.1523/JNEUROSCI.22-12-05118.2002 . ПМК 6757721 . ПМИД 12077207 .

[14] Кадмон, Джонатан; Сомполинский, Хаим (19 ноября 2015 г.). «Переход к хаосу в случайных нейронных сетях». Физический обзор X . 5 (4): 041030. arXiv : 1508.06486 . Бибкод : 2015PhRvX...5d1030K . дои : 10.1103/PhysRevX.5.041030 . S2CID 7813832 .

[15] Энгелькен, Райнер; Вольф, Фред; Эбботт, LF (03.06.2020). «Ляпуновские спектры хаотических рекуррентных нейронных сетей». arXiv : 2006.02427 [ nlin.CD ].

[16] Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений . Конспекты лекций по информатике. Том. 2766. Спрингер. дои : 10.1007/b11963 . ISBN 978-3-540-40722-5 . S2CID 1304548 .

[He-2015-17] Jump up to: ^а ^б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Углубление выпрямителей: превосходство человеческого уровня при классификации сетей изображений ». arXiv : 1502.01852 [ cs.CV ].

[Hendrycks-2016-18] Jump up to: ^а ^б Хендрикс, Дэн; Гимпел, Кевин (2016). «Линейные единицы гауссовой ошибки (GELU)». arXiv : 1606.08415 [ cs.LG ].

[Diganta_Misra-2019-19] Jump up to: ^а ^б Диганта Мисра (23 августа 2019 г.), Миш: Саморегуляризованная немонотонная функция активации (PDF) , arXiv : 1908.08681v1 , получено 26 марта 2022 г.

[20] Дугас, Чарльз; Бенджио, Йошуа; Белиль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Включение функциональных знаний второго порядка для лучшего ценообразования опционов» (PDF) . Материалы 13-й Международной конференции по нейронным системам обработки информации (NIPS'00) . Массачусетский технологический институт Пресс: 451–457. Поскольку сигмоида h имеет положительную первую производную, ее примитивная форма, которую мы называем softplus, является выпуклой.

[21] «Прямой уровень линейного блока плавного выпрямителя (SmoothReLU)» . Руководство разработчика по библиотеке ускорения Intel Data Analytics . 2017 . Проверено 4 декабря 2018 г.

[22] Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрейтер, Зепп (2015). «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [ cs.LG ].

[Shaw-2020-23] Jump up to: ^а ^б Шоу, Света (10 мая 2020 г.). «Функции активации в сравнении с экспериментами» . В&Б . Проверено 11 июля 2022 г.

[24] Бэррон, Джонатан Т. (22 декабря 2021 г.). «Squareplus: алгебраический выпрямитель в стиле Softplus». arXiv : 2112.11687 [ cs.NE ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]