Софтплюс
В математике и обучении функция softplus машинном
Это плавное приближение (по сути, аналитическая функция ) к функции линейного изменения , которая в машинном обучении известна как выпрямитель или ReLU (выпрямленная линейная единица) . Для большого негатива это , то есть чуть выше 0, а для больших положительных это , так чуть выше .
Имена софтплюс [1] [2] и ГладРеЛУ [3] используются в машинном обучении. Название «softplus» (2000), по аналогии с более ранним softmax (1989), предположительно связано с тем, что это плавное ( мягкое ) приближение положительной части x , которое иногда обозначается надстрочным индексом plus , .
Связанные функции
[ редактировать ]Производная softplus — это логистическая функция :
Логистическая сигмоидальная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой функции Хевисайда .
ЛогСумЭксп
[ редактировать ]Многопараметрическим обобщением softplus с одной переменной является LogSumExp с первым аргументом, установленным в ноль:
Функция LogSumExp
и его градиент — softmax ; softmax с первым аргументом, равным нулю, представляет собой многовариантное обобщение логистической функции. И LogSumExp, и softmax используются в машинном обучении.
Выпуклое сопряжение
[ редактировать ]Выпуклое сопряжение (в частности, преобразование Лежандра ) функции softplus представляет собой отрицательную двоичную энтропию (с основанием e ). Это связано с тем, что (согласно определению преобразования Лежандра: производные являются обратными функциями) производная softplus — это логистическая функция, обратной функцией которой является logit , которая является производной отрицательной двоичной энтропии.
Softplus можно интерпретировать как логистические потери (как положительное число), поэтому в соответствии с двойственностью минимизация логистических потерь соответствует максимизации энтропии. Это оправдывает принцип максимальной энтропии как минимизации потерь.
Альтернативные формы
[ редактировать ]Эту функцию можно аппроксимировать следующим образом:
Сделав замену переменных , это эквивалентно
Параметр резкости могут быть включены:
Ссылки
[ редактировать ]- ^ Дугас, Чарльз; Бенджио, Йошуа; Белиль, Франсуа; Надо, Клод; Гарсия, Рене (2000). «Включение функциональных знаний второго порядка для лучшего ценообразования опционов» (PDF) . Материалы 13-й Международной конференции по нейронным системам обработки информации (NIPS'00) . Массачусетский технологический институт Пресс: 451–457.
Поскольку сигмоида h имеет положительную первую производную, ее примитивная форма, которую мы называем softplus, является выпуклой.
- ^ Ксавье Глорот; Антуан Борд; Йошуа Бенджио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АЙСТАТС.
Функции активации выпрямителя и softplus. Второй вариант является более гладкой версией первого.
- ^ «Прямой уровень линейного блока плавного выпрямителя (SmoothReLU)» . Руководство разработчика по библиотеке ускорения Intel Data Analytics . 2017 . Проверено 4 декабря 2018 г.