Функция взмаха
Функция swish — это математическая функция, определяемая следующим образом:
где β — либо постоянный, либо обучаемый параметр в зависимости от модели. При β = 1 функция становится эквивалентной сигмовидной линейной единице. [2] или SiLU, впервые предложенная вместе с GELU в 2016 году. Позже SiLU была заново открыта в 2017 году как функция сигмоидно-взвешенной линейной единицы (SiL), используемая в обучении с подкреплением . [3] [1] Затем SiLU/SiL был заново открыт как swish, спустя год после его первоначального открытия, первоначально предложенного без обучаемого параметра β, так что β неявно равнялся 1. Затем статья Swish была обновлена, чтобы предложить активацию с обучаемым параметром β, хотя исследователи обычно полагают, что β = 1, и не используют обучаемый параметр β. При β = 0 функция превращается в масштабированную линейную функцию f( x ) = x /2. [1] При β → ∞ сигмовидная компонента поточечно приближается к функции 0-1, поэтому swish поточечно приближается к функции ReLU . Таким образом, ее можно рассматривать как функцию сглаживания, которая нелинейно интерполирует линейную функцию и функцию ReLU. [1] Эта функция использует немонотонность и, возможно, повлияла на предложение других функций активации с этим свойством, таких как Mish . [4]
При рассмотрении положительных значений Swish представляет собой частный случай функции сигмовидной усадки, определенной в [5] (см. форму усадки сигмовидной кишки с двойной параметризацией, заданную уравнением (3) этой ссылки).
Приложения
[ редактировать ]В 2017 году после анализа данных ImageNet исследователи из Google указали, что использование этой функции в качестве функции активации в искусственных нейронных сетях повышает производительность по сравнению с ReLU и сигмовидными функциями. [1] Считается, что одной из причин улучшения является то, что функция swish помогает смягчить проблему исчезновения градиента во время обратного распространения ошибки . [6]
Ссылки
[ редактировать ]- ^ Jump up to: а б с д и Рамачандран, Праджит; Зоф, Баррет; Ле, Куок В. (27 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941v2 [ cs.NE ].
- ^ Хендрикс, Дэн; Гимпел, Кевин (2016). «Линейные единицы гауссовой ошибки (GELU)». arXiv : 1606.08415 [ cs.LG ].
- ^ Эльфвинг, Стефан; Утибе, Эйдзи; Дойя, Кенджи (2 ноября 2017 г.). «Сигмовидные линейные единицы для аппроксимации функций нейронной сети при обучении с подкреплением». arXiv : 1702.03118v3 [ cs.LG ].
- ^ Мисра, Диганта (2019). «Миш: саморегуляризованная немонотонная функция активации нейронов». arXiv : 1908.08681 [ cs.LG ].
- ^ Атто, Абдуррахман М.; Пастор Доминик; Мерсье, Грегуар (март 2008 г.). «Плавное сжатие сигмовидного вейвлета для непараметрической оценки» . Международная конференция IEEE 2008 г. по акустике, речи и обработке сигналов (PDF) . стр. 3265–3268. дои : 10.1109/ICASSP.2008.4518347 . ISBN 978-1-4244-1483-3 . S2CID 9959057 .
- ^ Серенгиль, Сефик Илькин (21 августа 2018 г.). «Swish как функция активации нейронных сетей» . Машинное обучение, Математика. Архивировано из оригинала 18 июня 2020 г. Проверено 18 июня 2020 г.