Выпрямитель (нейронные сети)

График функций выпрямителя ReLU (синий) и GELU (зеленый) вблизи x = 0

В контексте искусственных нейронных сетей или функция активации выпрямителя ReLU (выпрямленная линейная единица) [1] [2] — это функция активации, определяемая как положительная часть ее аргумента:

где является входом для нейрона. Это также известно как функция линейного изменения и аналогично полуволновому выпрямлению в электротехнике . Эта функция активации была введена Кунихико Фукусимой в 1969 году в контексте извлечения визуальных признаков в иерархических нейронных сетях. [3] [4] [5] Позже утверждалось, что это имеет сильную биологическую мотивацию и математическое обоснование. [6] [7] В 2011 году было обнаружено, что это позволяет лучше обучать более глубокие сети. [8] по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая основана на теории вероятностей ; см. Логистическую регрессию ) и ее более практичной функцией. [9] аналог — гиперболический тангенс . Выпрямитель по состоянию на 2017 год , самая популярная функция активации для глубоких нейронных сетей . [10]

Выпрямленные линейные единицы находят применение в компьютерном зрении [8] и распознавание речи [11] [12] использование глубоких нейронных сетей и вычислительной нейробиологии . [13] [14] [15]

Преимущества [ править ]

  • Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (имеют ненулевой выход).
  • Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях. [8]
  • Эффективные вычисления: только сравнение, сложение и умножение.
  • Масштабно-инвариантный: .

Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая была обучена под наблюдением для изучения нескольких задач компьютерного зрения. [16] В 2011 году [8] Было показано, что использование выпрямителя в качестве нелинейного устройства позволяет обучать нейронные сети с глубоким учителем, не требуя без учителя предварительного обучения . Выпрямленные линейные единицы по сравнению с сигмовидной функцией или аналогичными функциями активации позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.

Возможные проблемы [ править ]

  • Недифференцируемый в нуле; однако он дифференцируем в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
  • Не с нулевым центром: выходные данные ReLU всегда неотрицательны. Это может затруднить обучение сети во время обратного распространения ошибки, поскольку обновления градиента имеют тенденцию смещать веса в одном направлении (положительном или отрицательном). Пакетная нормализация может помочь решить эту проблему. [ нужна ссылка ]
  • Неограниченный.
  • Умирающая проблема ReLU: нейроны ReLU (выпрямленная линейная единица) иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входных данных. В этом состоянии градиенты не текут обратно через нейрон, поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это одна из форм проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвом состоянии, что существенно снижает емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена ​​слишком высока. Это можно смягчить, используя вместо этого дырявые ReLU, которые присваивают небольшой положительный наклон для x <0; однако производительность снижается.

Варианты [ править ]

Кусочно-линейные варианты [ править ]

Утечка ReLU [ править ]

Утечки ReLU допускают небольшой положительный градиент, когда устройство не активно. [12] помогая смягчить проблему исчезающего градиента.

Параметрический ReLU [ править ]

Параметрические ReLU (PReLU) развивают эту идею дальше, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети. [17]

Обратите внимание, что для a ≤ 1 это эквивалентно

и, таким образом, имеет отношение к сетям «maxout». [17]

Другие нелинейные варианты [ править ]

Линейная единица с гауссовой ошибкой (GELU) [ править ]

GELU — плавное приближение к выпрямителю:

где кумулятивная функция распределения стандартного нормального распределения .

Эта функция активации показана на рисунке в начале этой статьи. Он имеет «выпуклость» слева от x < 0 и служит активацией по умолчанию для таких моделей, как BERT . [18]

SiLU [ edit ]

SiLU (сигмовидная линейная единица) или функция взмаха [19] это еще одно гладкое приближение, впервые предложенное в статье GELU: [18]

где это сигмовидная функция .

Софтплюс [ править ]

Гладким приближением выпрямителя является аналитическая функция

который называется софтплюс [20] [8] или функцию SmoothReLU . [21] Для большого негатива это примерно , то есть чуть выше 0, а для больших положительных это примерно , так чуть выше .

Эту функцию можно аппроксимировать следующим образом:

Сделав замену переменных , это эквивалентно

Параметр резкости могут быть включены:

Производная softplus — логистическая функция .

Логистическая сигмоидальная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой ​​функции Хевисайда .

Многопараметрическим обобщением softplus с одной переменной является LogSumExp с первым аргументом, установленным в ноль:

Функция LogSumExp

и его градиент — softmax ; softmax с первым аргументом, равным нулю, представляет собой многовариантное обобщение логистической функции. И LogSumExp, и softmax используются в машинном обучении.

ВВЕРХ [ править ]

Экспоненциальные линейные блоки пытаются приблизить средние активации к нулю, что ускоряет обучение. Было показано, что ELU могут обеспечить более высокую точность классификации, чем ReLU. [22]

В этих формулах это гиперпараметр, который нужно настроить с учетом ограничения .

ELU можно рассматривать как сглаженную версию сдвинутого ReLU (SReLU), которая имеет вид , учитывая ту же интерпретацию .

Миш [ править ]

Миш-функцию также можно использовать в качестве плавной аппроксимации выпрямителя. [19] Это определяется как

где - гиперболический тангенс , а это функция softplus .

Миш немонотонен и самодостаточен . [23] Он был вдохновлен Swish , который сам по себе является вариантом ReLU . [23]

Скверплюс [ править ]

Скверплюс [24] это функция

где — это гиперпараметр, определяющий «размер» изогнутой области вблизи . (Например, позволив дает ReLU, и позволяя дает функцию металлического среднего .)Squareplus имеет много общих свойств с softplus: он монотонен , строго положителен , приближается к 0 при , приближается к тождеству как , и есть гладкий . Однако Squareplus можно вычислить, используя только алгебраические функции , что делает его хорошо подходящим для ситуаций, когда вычислительные ресурсы или наборы команд ограничены. Кроме того, Squareplus не требует особого внимания для обеспечения числовой стабильности при большой.

См. также [ править ]

Ссылки [ править ]

  1. ^ Браунли, Джейсон (8 января 2019 г.). «Нежное введение в выпрямленный линейный блок (ReLU)» . Мастерство машинного обучения . Проверено 8 апреля 2021 г.
  2. ^ Лю, Даньцин (30 ноября 2017 г.). «Практическое руководство по ReLU» . Середина . Проверено 8 апреля 2021 г.
  3. ^ Фукусима, К. (1969). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225 .
  4. ^ Фукусима, К.; Мияке, С. (1982). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания визуальных образов». Конкуренция и сотрудничество в нейронных сетях . Конспект лекций по биоматематике. Том. 45. Спрингер. стр. 267–285. дои : 10.1007/978-3-642-46466-9_18 . ISBN  978-3-540-11574-8 . {{cite book}}: |journal= игнорируется ( помогите )
  5. ^ Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [ cs.NE ].
  6. ^ Ханлозер, Р.; Сарпешкар Р.; Маховальд, Массачусетс; Дуглас, Р.Дж.; Сын, HS (2000). «Цифровая селекция и аналоговое усиление сосуществуют в кремниевой схеме, основанной на коре головного мозга». Природа . 405 (6789): 947–951. Бибкод : 2000Natur.405..947H . дои : 10.1038/35016072 . ПМИД   10879535 . S2CID   4399014 .
  7. ^ Ханлозер, Р.; Сын, HS (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях . НИПС 2001.
  8. ^ Jump up to: а б с д и Ксавье Глорот; Антуан Борд; Йошуа Бенджио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АЙСТАТС. Функции активации выпрямителя и softplus. Второй вариант является более гладкой версией первого.
  9. ^ Ян ЛеКун ; Леон Ботту ; Женевьева Б. Орр; Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF) . У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости . Спрингер.
  10. ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].
  11. ^ Ласло Тот (2013). Распознавание телефона с помощью нейронных сетей с глубоким разреженным выпрямителем (PDF) . ИКАССП .
  12. ^ Jump up to: а б Эндрю Л. Маас, Ауни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронных сетей .
  13. ^ Гензель, Д.; ван Вресвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации в зрительной коре кошки» . Дж. Нейроски. 22 (12): 5118–5128. doi : 10.1523/JNEUROSCI.22-12-05118.2002 . ПМК   6757721 . ПМИД   12077207 .
  14. ^ Кадмон, Джонатан; Сомполинский, Хаим (19 ноября 2015 г.). «Переход к хаосу в случайных нейронных сетях». Физический обзор X . 5 (4): 041030. arXiv : 1508.06486 . Бибкод : 2015PhRvX...5d1030K . дои : 10.1103/PhysRevX.5.041030 . S2CID   7813832 .
  15. ^ Энгелькен, Райнер; Вольф, Фред; Эбботт, LF (03.06.2020). «Ляпуновские спектры хаотических рекуррентных нейронных сетей». arXiv : 2006.02427 [ nlin.CD ].
  16. ^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений . Конспекты лекций по информатике. Том. 2766. Спрингер. дои : 10.1007/b11963 . ISBN  978-3-540-40722-5 . S2CID   1304548 .
  17. ^ Jump up to: а б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Углубление выпрямителей: превосходство человеческого уровня при классификации сетей изображений ». arXiv : 1502.01852 [ cs.CV ].
  18. ^ Jump up to: а б Хендрикс, Дэн; Гимпел, Кевин (2016). «Линейные единицы гауссовой ошибки (GELU)». arXiv : 1606.08415 [ cs.LG ].
  19. ^ Jump up to: а б Диганта Мисра (23 августа 2019 г.), Миш: Саморегуляризованная немонотонная функция активации (PDF) , arXiv : 1908.08681v1 , получено 26 марта 2022 г.
  20. ^ Дугас, Чарльз; Бенджио, Йошуа; Белиль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Включение функциональных знаний второго порядка для лучшего ценообразования опционов» (PDF) . Материалы 13-й Международной конференции по нейронным системам обработки информации (NIPS'00) . Массачусетский технологический институт Пресс: 451–457. Поскольку сигмоида h имеет положительную первую производную, ее примитивная форма, которую мы называем softplus, является выпуклой.
  21. ^ «Прямой уровень линейного блока плавного выпрямителя (SmoothReLU)» . Руководство разработчика по библиотеке ускорения Intel Data Analytics . 2017 . Проверено 4 декабря 2018 г.
  22. ^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрейтер, Зепп (2015). «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [ cs.LG ].
  23. ^ Jump up to: а б Шоу, Света (10 мая 2020 г.). «Функции активации в сравнении с экспериментами» . В&Б . Проверено 11 июля 2022 г.
  24. ^ Бэррон, Джонатан Т. (22 декабря 2021 г.). «Squareplus: алгебраический выпрямитель в стиле Softplus». arXiv : 2112.11687 [ cs.NE ].