Jump to content

Потеря шарнира

Вертикальная ось представляет значение шарнирной потери (синим цветом) и потери ноль-единица (зеленый цвет) для фиксированного t = 1 , в то время как горизонтальная ось представляет значение прогноза y . График показывает, что потеря шарнира наказывает предсказания y < 1 , что соответствует понятию запаса в машине опорных векторов.

В машинном обучении шарнирная потеря — это функция потерь, используемая для обучения классификаторов . Потери на шарнирах используются для классификации с «максимальным запасом», особенно для машин опорных векторов (SVM). [1]

Для предполагаемого результата t = ±1 и оценки классификатора y потеря шарнира прогноза y определяется как

Обратите внимание, что должен быть «необработанным» результатом функции решения классификатора, а не прогнозируемой меткой класса. Например, в линейных SVM , где – параметры гиперплоскости и — входная переменная(и).

Когда t и y имеют одинаковый знак (это означает, что y предсказывает правильный класс) и , потеря шарнира . Когда они имеют противоположные знаки, возрастает линейно с увеличением y , и аналогично, если , даже если он имеет тот же знак (правильный прогноз, но с недостаточным запасом).

Расширения

[ редактировать ]

Хотя двоичные SVM обычно расширяются до многоклассовой классификации по принципу «один против всех» или «один против одного», [2] для такого конца также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов многоклассовой потери шарнира. [3] Например, Краммер и Сингер. [4] определил его для линейного классификатора как [5]

,

где это целевая метка, и — параметры модели.

Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимальным значением: [6] [3]

.

В структурированном прогнозировании потеря шарнира может быть дополнительно распространена на структурированные выходные пространства. Структурированные SVM с масштабированием запаса используют следующий вариант, где w обозначает параметры SVM, y — прогнозы SVM, φ — совместную функцию признаков, а Δ Хэмминга — потери :

.

Оптимизация

[ редактировать ]

Потери шарнира — выпуклая функция , поэтому с ней могут работать многие обычные выпуклые оптимизаторы, используемые в машинном обучении. Он не дифференцируем , но имеет субградиент по параметрам модели w линейной SVM с оценочной функцией. это дано

График трех вариантов потери шарнира в зависимости от z = ty : «обычный» вариант (синий), его квадрат (зеленый) и кусочно-гладкая версия Ренни и Сребро (красный). По оси Y — шарнирные потери l(y) , а по оси X — параметр t.

Однако, поскольку производная шарнирных потерь при не определено, для оптимизации могут быть предпочтительнее сглаженные версии, такие как Rennie и Srebro. [7]

или квадратично сглаженный

предложил Чжан. [8] Модифицированная потеря Хубера является частным случаем этой функции потерь с , конкретно .

См. также

[ редактировать ]
  1. ^ Росаско, Л.; Де Вито, Эд; Капоннетто, А.; Пиана, М.; Верри, А. (2004). «Все ли функции потерь одинаковы?» (PDF) . Нейронные вычисления . 16 (5): 1063–1076. CiteSeerX   10.1.1.109.6786 . дои : 10.1162/089976604773135104 . ПМИД   15070510 .
  2. ^ Дуань, КБ; Кирти, СС (2005). «Какой многоклассовый метод SVM лучше всего? Эмпирическое исследование» (PDF) . Множественные системы классификаторов . ЛНКС . Том. 3541. стр. 278–285. CiteSeerX   10.1.1.110.6789 . дои : 10.1007/11494683_28 . ISBN  978-3-540-26306-7 .
  3. ^ Jump up to: а б Доган, Урюн; Глазмахерс, Тобиас; Игель, Кристиан (2016). «Единый взгляд на классификацию опорных векторов нескольких классов» (PDF) . Журнал исследований машинного обучения . 17 : 1–32.
  4. ^ Краммер, Коби; Певец Йорам (2001). «Об алгоритмической реализации многоклассовых векторных машин на основе ядра» (PDF) . Журнал исследований машинного обучения . 2 : 265–292.
  5. ^ Мур, Роберт С.; ДеНеро, Джон (2011). «Регуляризация L 1 и L 2 для многоклассовых моделей шарнирных потерь» (PDF) . Учеб. Симп. по машинному обучению в обработке речи и языка .
  6. ^ Уэстон, Джейсон; Уоткинс, Крис (1999). «Машины опорных векторов для многоклассового распознавания образов» (PDF) . Европейский симпозиум по искусственным нейронным сетям .
  7. ^ Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретными упорядоченными метками (PDF) . Учеб. IJCAI по достижениям в области обработки предпочтений. Междисциплинарный семинар
  8. ^ Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска (PDF) . ИКМЛ.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d876db73a4efc5cc57409cfffb89a7a2__1704261360
URL1:https://arc.ask3.ru/arc/aa/d8/a2/d876db73a4efc5cc57409cfffb89a7a2.html
Заголовок, (Title) документа по адресу, URL1:
Hinge loss - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)