Потеря Хубера
В статистике — потери Хубера это функция потерь , используемая в устойчивой регрессии , которая менее чувствительна к выбросам в данных, чем потеря в квадрате ошибки . Иногда используется вариант классификации.
Определение
[ редактировать ]Функция потерь Хубера описывает штраф, наносимый процедурой оценки f . Хубер (1964) определяет функцию потерь кусочно по формуле [1]
Эта функция является квадратичной для малых значений a и линейной для больших значений с одинаковыми значениями и наклонами различных сечений в двух точках, где . Переменная a часто относится к остаткам, то есть к разнице между наблюдаемыми и прогнозируемыми значениями. , поэтому первое можно расширить до [2]
Потери Хубера — это свертка функции абсолютного значения с прямоугольной функцией , масштабированной и преобразованной. Таким образом, он «сглаживает» угол первого в начале координат.
Мотивация
[ редактировать ]Двумя наиболее часто используемыми функциями потерь являются квадрат потерь , и абсолютная потеря , . Функция квадратичных потерь дает среднеарифметическую несмещенную оценку , а функция потерь абсолютного значения дает несмещенную медианную оценку (в одномерном случае и геометрическую медианно- несмещенную оценку для многомерного случая). Квадрат потерь имеет тот недостаток, что в нем доминируют выбросы — при суммировании по набору 's (как в ), на выборочное среднее слишком сильно влияют несколько особенно крупных -значения, когда распределение имеет тяжелый хвост: с точки зрения теории оценивания асимптотическая относительная эффективность среднего значения низкая для распределений с тяжелым хвостом.
Как определено выше, функция потерь Хубера сильно выпукла в равномерной окрестности своего минимума. ; на границе этой однородной окрестности функция потерь Хубера имеет дифференцируемое продолжение до аффинной функции в точках и . Эти свойства позволяют ему сочетать большую часть чувствительности несмещенной к среднему оценки среднего значения с минимальной дисперсией (с использованием квадратичной функции потерь) и надежность несмещенной к среднему оценки (с использованием функции абсолютного значения).
Функция потерь псевдо-Хубера
[ редактировать ]Функция потерь Псевдо-Хьюбера может использоваться как плавная аппроксимация функции потерь Хубера. Он сочетает в себе лучшие свойства L2 квадрата потерь и L1 абсолютных потерь , будучи сильно выпуклым, когда он близок к целевому/минимуму, и менее крутым для экстремальных значений. Масштаб, в котором функция потерь Псевдо-Хьюбера переходит от потерь L2 для значений, близких к минимуму, к потерям L1 для экстремальных значений, а крутизну при экстремальных значениях можно контролировать с помощью ценить. Функция потерь Псевдо-Хьюбера гарантирует, что производные непрерывны для всех степеней. Это определяется как [3] [4]
Таким образом, эта функция аппроксимирует для небольших значений , и аппроксимирует прямую линию с наклоном для больших значений .
Хотя приведенная выше форма является наиболее распространенной, существуют и другие гладкие аппроксимации функции потерь Хубера. [5]
Вариант классификации
[ редактировать ]В целях классификации вариант потерь Хубера, называемый модифицированным Хубером иногда используется . Учитывая предсказание (реальная оценка классификатора) и истинная метка двоичного класса модифицированные потери Хубера определяются как [6]
Термин — потери на шарнирах , используемые в машинах опорных векторов ; квадратично сглаженная шарнирная потеря является обобщением . [6]
Приложения
[ редактировать ]Функция потерь Хубера используется в робастной статистике , M-оценке и аддитивном моделировании . [7]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Хубер, Питер Дж . (1964). «Надежная оценка параметра местоположения» . Анналы статистики . 53 (1): 73–101. дои : 10.1214/aoms/1177703732 . JSTOR 2238020 .
- ^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2009). Элементы статистического обучения . п. 349. Архивировано из оригинала 26 января 2015 г. По сравнению с Hastie et al. , потери масштабируются с коэффициентом 1 / 2 , чтобы соответствовать первоначальному определению Хубера, данному ранее.
- ^ Шарбонье, П.; Блан-Феро, Л .; Обер, Г.; Барло, М. (1997). «Детерминированная регуляризация с сохранением краев в компьютерных изображениях». IEEE Транс. Процесс изображения . 6 (2): 298–311. Бибкод : 1997ITIP....6..298C . CiteSeerX 10.1.1.64.7521 . дои : 10.1109/83.551699 . ПМИД 18282924 .
- ^ Хартли, Р.; Зиссерман, А. (2003). Множественная геометрия в компьютерном зрении (2-е изд.). Издательство Кембриджского университета. п. 619 . ISBN 978-0-521-54051-3 .
- ^ Ланге, К. (1990). «Сходимость алгоритмов восстановления изображений со сглаживанием Гиббса». IEEE Транс. Мед. Изображение . 9 (4): 439–446. дои : 10.1109/42.61759 . ПМИД 18222791 .
- ^ Jump up to: а б Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска . ИКМЛ.
- ^ Фридман, Дж. Х. (2001). «Аппроксимация жадными функциями: машина повышения градиента» . Анналы статистики . 26 (5): 1189–1232. дои : 10.1214/aos/1013203451 . JSTOR 2699986 .