Логсумэксп
Эта статья нуждается в дополнительных цитатах для проверки . ( август 2015 г. ) |
LogSumExp ( LSE ) (также называемый RealSoftMax [1] или multivariable softplus ) функция представляет собой гладкий максимум — плавное приближение к функции максимума , в основном используемое алгоритмами машинного обучения . [2] Он определяется как логарифм суммы экспонент аргументов:
Характеристики
[ редактировать ]LogSumExp: Область применения функции , реальное координатное пространство и его кодомен , реальная линия . Это приближение к максимуму со следующими границами Первое неравенство является строгим, если только . Второе неравенство является строгим, если все аргументы не равны.(Доказательство: Пусть . Затем . Применение логарифма к неравенству дает результат.)
Кроме того, мы можем масштабировать функцию, чтобы сделать границы более жесткими. Рассмотрим функцию . Затем (Доказательство: заменить каждый с для некоторых в приведенных выше неравенствах, чтобы дать и, поскольку наконец, разделив на дает результат.)
Кроме того, если вместо этого мы умножим на отрицательное число, мы, конечно, найдем сравнение с функция:
Функция LogSumExp является выпуклой и строго возрастает всюду в своей области определения. [3] Он не является строго выпуклым, поскольку аффинен ( линейен плюс константа) на диагональных и параллельных прямых: [4]
В остальном, кроме этого направления, оно строго выпуклое ( гессиан имеет ранг ), поэтому, например, ограничение гиперплоскостью , трансверсальной диагонали, приводит к строго выпуклой функции. Видеть , ниже.
Письмо частные производные : это означает, что градиент LogSumExp является функцией softmax .
Выпуклое сопряжение LogSumExp — это отрицательная энтропия .
трюк с log-sum-exp для вычислений в логарифмической области
[ редактировать ]Функция LSE часто встречается, когда обычные арифметические вычисления выполняются в логарифмическом масштабе , например, в логарифмической вероятности . [5]
Подобно тому, как операции умножения в линейном масштабе становятся простыми сложениями в логарифмическом масштабе, операция сложения влинейный масштаб становится LSE в логарифмическом масштабе:
Общей целью использования вычислений в логарифмической области является повышение точности и избежание проблем с переполнением и переполнением.когда очень маленькие или очень большие числа представляются напрямую (т. е. в линейной области) с использованием ограниченной точностичисла с плавающей запятой. [6]
К сожалению, использование LSE напрямую в этом случае может снова вызвать проблемы с переполнением/недополнением. Таким образом,Вместо этого необходимо использовать следующий эквивалент (особенно, если точность приведенного выше приближения «max» недостаточна).
где
Многие математические библиотеки, такие как IT++, предоставляют стандартную процедуру LSE и используют эту формулу внутри себя.
Строго выпуклая функция типа log-sum-exp.
[ редактировать ]LSE выпукла, но не строго выпукла.Мы можем определить строго выпуклую функцию типа log-sum-exp [7] добавив дополнительный аргумент, равный нулю:
Эта функция является собственным генератором Брегмана (строго выпуклым и дифференцируемым ). Он встречается, например, в машинном обучении как кумулянт полиномиального/биномиального семейства.
В тропическом анализе это сумма в лог-полукольце .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Чжан, Астон; Липтон, Зак; Ли, Му; Смола, Алекс. «Погружение в глубокое обучение, упражнения главы 3» . www.d2l.ai. Проверено 27 июня 2020 г.
- ^ Нильсен, Франк; Сунь, Ке (2016). «Гарантированные границы расходимости Кульбака-Лейблера одномерных смесей с использованием кусочных неравенств логарифмической суммы-эксперимента» . Энтропия . 18 (12): 442. arXiv : 1606.05850 . Бибкод : 2016Entrp..18..442N . дои : 10.3390/e18120442 . S2CID 17259055 .
- ^ Эль Гауи, Лоран (2017). Модели оптимизации и приложения .
- ^ «Выпуклый анализ — О строгой выпуклости функции log-sum-exp — Математический Stack Exchange» . stackexchange.com .
- ^ МакЭлрит, Ричард. Статистическое переосмысление . OCLC 1107423386 .
- ^ «Практические вопросы: Числовая устойчивость» . CS231n Сверточные нейронные сети для визуального распознавания .
- ^ Нильсен, Франк; Хаджерес, Гаэтан (2018). «Информационная геометрия Монте-Карло: двойной плоский случай». arXiv : 1803.07225 [ cs.LG ].