Плавный максимум
В математике индексированного гладкий максимум семейства чисел x 1 , ..., x n является гладким приближением к максимума . функции имеется в виду параметрическое семейство функций такой, что для любого α функция является гладким, и семейство сходится к максимальной функции как . понятие гладкого минимума Аналогично определяется . Во многих случаях одно семейство аппроксимирует оба: максимум, когда параметр стремится к положительной бесконечности, минимум, когда параметр стремится к отрицательной бесконечности; в символах, как и как . Этот термин также можно свободно использовать для обозначения конкретной гладкой функции, которая ведет себя аналогично максимуму, не обязательно являясь частью параметризованного семейства.
Примеры
[ редактировать ]Больцмановский оператор
[ редактировать ]При больших положительных значениях параметра , следующая формулировка представляет собой гладкую дифференцируемую аппроксимацию максимальной функции. При больших по абсолютной величине отрицательных значениях параметра он приближается к минимуму.
имеет следующие свойства:
- как
- это среднее арифметическое его входов
- как
Градиент тесно связан с softmax и определяется выражением
Это делает функцию softmax полезной для методов оптимизации, использующих градиентный спуск .
Этот оператор иногда называют оператором Больцмана. [1] после распределения Больцмана .
ЛогСумЭксп
[ редактировать ]Еще один плавный максимум — LogSumExp :
Это также можно нормализовать, если все неотрицательны, что дает функцию с областью определения и диапазон :
The термин корректирует тот факт, что путем отмены всех экспонент, кроме одной нулевой, и если все равны нулю.
Меллоумакс
[ редактировать ]Оператор mellowmax [1] определяется следующим образом:
Это нерасширяющийся оператор. Как , он действует как максимум. Как , оно действует как среднее арифметическое. Как , он действует как минимум. Этот оператор можно рассматривать как конкретную реализацию среднего квазиарифметического значения . Его также можно вывести из принципов теории информации как способа регуляризации политики с функцией затрат, определяемой дивергенцией KL. Ранее оператор использовался в других областях, например, в энергетике. [2]
р-норма
[ редактировать ]Еще один плавный максимум — это p-норма :
который сходится к как .
Преимущество p-нормы в том, что это норма . По существу, он масштабно-инвариантен ( однороден ): , и оно удовлетворяет неравенству треугольника .
Гладкая максимальная единица
[ редактировать ]Следующий бинарный оператор называется гладкой максимальной единицей (SMU): [3]
где является параметром. Как , и таким образом .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б Асади, Кавош; Литтман, Майкл Л. (2017). «Альтернативный оператор Softmax для обучения с подкреплением» . ПМЛР . 70 : 243–252. arXiv : 1612.05628 . Проверено 6 января 2023 г.
- ^ Сафак, Айсель (февраль 1993 г.). «Статистический анализ суммы степеней нескольких коррелированных логнормальных компонентов» . Транзакции IEEE по автомобильным технологиям . 42 (1): {58–61. дои : 10.1109/25.192387 . Проверено 6 января 2023 г.
- ^ Бисвас, Кошик; Кумар, Сандип; Банерджи, Шилпак; Ашиш Кумар Пандей (2021). «SMU: функция плавной активации для глубоких сетей с использованием техники максимального сглаживания». arXiv : 2111.04682 [ cs.LG ].
https://www.johndcook.com/soft_maximum.pdf
М. Ланге, Д. Зюльке, О. Хольц и Т. Виллманн, «Применение lp-норм и их гладких аппроксимаций для градиентного векторного квантования обучения», в Proc. ЕСАНН , апрель 2014 г., стр. 271–276.( https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2014-153.pdf )