Jump to content

Функция взмаха

(Перенаправлено из Swish (функция) )

Функция swish — это математическая функция, определяемая следующим образом:

Функция взмаха
[1]

где β — либо постоянный, либо обучаемый параметр в зависимости от модели. При β = 1 функция становится эквивалентной сигмовидной линейной единице. [2] или SiLU, впервые предложенная вместе с GELU в 2016 году. Позже SiLU была заново открыта в 2017 году как функция сигмоидно-взвешенной линейной единицы (SiL), используемая в обучении с подкреплением . [3] [1] Затем SiLU/SiL был заново открыт как swish, спустя год после его первоначального открытия, первоначально предложенного без обучаемого параметра β, так что β неявно равнялся 1. Затем статья Swish была обновлена, чтобы предложить активацию с обучаемым параметром β, хотя исследователи обычно полагают, что β = 1, и не используют обучаемый параметр β. При β = 0 функция превращается в масштабированную линейную функцию f( x ) = x /2. [1] При β → ∞ сигмовидная компонента поточечно приближается к функции 0-1, поэтому swish поточечно приближается к функции ReLU . Таким образом, ее можно рассматривать как функцию сглаживания, которая нелинейно интерполирует линейную функцию и функцию ReLU. [1] Эта функция использует немонотонность и, возможно, повлияла на предложение других функций активации с этим свойством, таких как Mish . [4]

При рассмотрении положительных значений Swish представляет собой частный случай функции сигмовидной усадки, определенной в [5] (см. форму усадки сигмовидной кишки с двойной параметризацией, заданную уравнением (3) этой ссылки).

Приложения

[ редактировать ]

В 2017 году после анализа данных ImageNet исследователи из Google указали, что использование этой функции в качестве функции активации в искусственных нейронных сетях повышает производительность по сравнению с ReLU и сигмовидными функциями. [1] Считается, что одной из причин улучшения является то, что функция swish помогает смягчить проблему исчезновения градиента во время обратного распространения ошибки . [6]

  1. ^ Jump up to: а б с д и Рамачандран, Праджит; Зоф, Баррет; Ле, Куок В. (27 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941v2 [ cs.NE ].
  2. ^ Хендрикс, Дэн; Гимпел, Кевин (2016). «Линейные единицы гауссовой ошибки (GELU)». arXiv : 1606.08415 [ cs.LG ].
  3. ^ Эльфвинг, Стефан; Утибе, Эйдзи; Дойя, Кенджи (2 ноября 2017 г.). «Сигмовидные линейные единицы для аппроксимации функций нейронной сети при обучении с подкреплением». arXiv : 1702.03118v3 [ cs.LG ].
  4. ^ Мисра, Диганта (2019). «Миш: саморегуляризованная немонотонная функция активации нейронов». arXiv : 1908.08681 [ cs.LG ].
  5. ^ Атто, Абдуррахман М.; Пастор Доминик; Мерсье, Грегуар (март 2008 г.). «Плавное сжатие сигмовидного вейвлета для непараметрической оценки» . Международная конференция IEEE 2008 г. по акустике, речи и обработке сигналов (PDF) . стр. 3265–3268. дои : 10.1109/ICASSP.2008.4518347 . ISBN  978-1-4244-1483-3 . S2CID   9959057 .
  6. ^ Серенгиль, Сефик Илькин (21 августа 2018 г.). «Swish как функция активации нейронных сетей» . Машинное обучение, Математика. Архивировано из оригинала 18 июня 2020 г. Проверено 18 июня 2020 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 65f79621ab4916d8171ddd3a243ccabd__1689995040
URL1:https://arc.ask3.ru/arc/aa/65/bd/65f79621ab4916d8171ddd3a243ccabd.html
Заголовок, (Title) документа по адресу, URL1:
Swish function - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)