Потеря шарнира

В машинном обучении шарнирная потеря — это функция потерь, используемая для обучения классификаторов . Потери на шарнирах используются для классификации с «максимальным запасом», особенно для машин опорных векторов (SVM). [1]
Для предполагаемого результата t = ±1 и оценки классификатора y потеря шарнира прогноза y определяется как
Обратите внимание, что должен быть «необработанным» результатом функции решения классификатора, а не прогнозируемой меткой класса. Например, в линейных SVM , где – параметры гиперплоскости и — входная переменная(и).
Когда t и y имеют одинаковый знак (это означает, что y предсказывает правильный класс) и , потеря шарнира . Когда они имеют противоположные знаки, возрастает линейно с увеличением y , и аналогично, если , даже если он имеет тот же знак (правильный прогноз, но с недостаточным запасом).
Расширения
[ редактировать ]Хотя двоичные SVM обычно расширяются до многоклассовой классификации по принципу «один против всех» или «один против одного», [2] для такого конца также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов многоклассовой потери шарнира. [3] Например, Краммер и Сингер. [4] определил его для линейного классификатора как [5]
- ,
где это целевая метка, и — параметры модели.
Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимальным значением: [6] [3]
- .
В структурированном прогнозировании потеря шарнира может быть дополнительно распространена на структурированные выходные пространства. Структурированные SVM с масштабированием запаса используют следующий вариант, где w обозначает параметры SVM, y — прогнозы SVM, φ — совместную функцию признаков, а Δ Хэмминга — потери :
- .
Оптимизация
[ редактировать ]Потери шарнира — выпуклая функция , поэтому с ней могут работать многие обычные выпуклые оптимизаторы, используемые в машинном обучении. Он не дифференцируем , но имеет субградиент по параметрам модели w линейной SVM с оценочной функцией. это дано

Однако, поскольку производная шарнирных потерь при не определено, для оптимизации могут быть предпочтительнее сглаженные версии, такие как Rennie и Srebro. [7]
или квадратично сглаженный
предложил Чжан. [8] Модифицированная потеря Хубера является частным случаем этой функции потерь с , конкретно .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Росаско, Л.; Де Вито, Эд; Капоннетто, А.; Пиана, М.; Верри, А. (2004). «Все ли функции потерь одинаковы?» (PDF) . Нейронные вычисления . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . дои : 10.1162/089976604773135104 . ПМИД 15070510 .
- ^ Дуань, КБ; Кирти, СС (2005). «Какой многоклассовый метод SVM лучше всего? Эмпирическое исследование» (PDF) . Множественные системы классификаторов . ЛНКС . Том. 3541. стр. 278–285. CiteSeerX 10.1.1.110.6789 . дои : 10.1007/11494683_28 . ISBN 978-3-540-26306-7 .
- ^ Jump up to: а б Доган, Урюн; Глазмахерс, Тобиас; Игель, Кристиан (2016). «Единый взгляд на классификацию опорных векторов нескольких классов» (PDF) . Журнал исследований машинного обучения . 17 : 1–32.
- ^ Краммер, Коби; Певец Йорам (2001). «Об алгоритмической реализации многоклассовых векторных машин на основе ядра» (PDF) . Журнал исследований машинного обучения . 2 : 265–292.
- ^ Мур, Роберт С.; ДеНеро, Джон (2011). «Регуляризация L 1 и L 2 для многоклассовых моделей шарнирных потерь» (PDF) . Учеб. Симп. по машинному обучению в обработке речи и языка .
- ^ Уэстон, Джейсон; Уоткинс, Крис (1999). «Машины опорных векторов для многоклассового распознавания образов» (PDF) . Европейский симпозиум по искусственным нейронным сетям .
- ^ Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретными упорядоченными метками (PDF) . Учеб. IJCAI по достижениям в области обработки предпочтений. Междисциплинарный семинар
- ^ Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска (PDF) . ИКМЛ.