Машина структурированных опорных векторов
Машина структурированных опорных векторов — это алгоритм машинного обучения , который обобщает классификатор машины опорных векторов (SVM). В то время как классификатор SVM поддерживает бинарную классификацию , мультиклассовую классификацию и регрессию , структурированный SVM позволяет обучать классификатор для общих структурированных выходных меток .
Например, образец экземпляра может представлять собой предложение естественного языка, а выходная метка — аннотированное дерево синтаксического анализа . Обучение классификатора состоит из показа пар правильных пар выборки и выходной метки. После обучения структурированная модель SVM позволяет предсказать для новых экземпляров выборки соответствующую выходную метку; то есть, учитывая предложение естественного языка, классификатор может создать наиболее вероятное дерево разбора.
Обучение
[ редактировать ]Для набора обучающие экземпляры , из выборочного пространства и место для метки , структурированная SVM минимизирует следующую регуляризованную функцию риска.
Функция выпукла по поскольку максимум множества аффинных функций выпуклый. Функция измеряет расстояние в пространстве меток и является произвольной функцией (не обязательно метрикой ) , удовлетворяющей и . Функция — это функция признака, извлекающая некоторый вектор признаков из заданного образца и метки. Конструкция этой функции во многом зависит от приложения.
Поскольку приведенная выше регуляризованная функция риска недифференцируема, ее часто переформулируют в терминах квадратичной программы , вводя одну слабую переменную. для каждой выборки, каждая из которых представляет значение максимума. Стандартная основная формулировка структурированного SVM выглядит следующим образом.
Вывод
[ редактировать ]Во время тестирования только образец известна, а функция прогнозирования сопоставляет его с предсказанной меткой из пространства меток . Для структурированных SVM, учитывая вектор полученная в результате обучения, функция прогнозирования имеет следующий вид.
Следовательно, максимизатор пространства меток является прогнозируемой меткой. Решением этого максимайзера является так называемая проблема вывода, похожая на максимальное апостериорное предсказание (MAP) в вероятностных моделях. В зависимости от структуры функции , решение максимизатора может оказаться сложной задачей.
Разделение
[ редактировать ]Вышеупомянутая квадратичная программа включает в себя очень большое, возможно, бесконечное количество ограничений линейного неравенства. В общем, количество неравенств слишком велико, чтобы его можно было оптимизировать явно. Вместо этого проблема решается с помощью отложенной генерации ограничений , при которой используется только конечное и небольшое подмножество ограничений. Оптимизация по подмножеству ограничений расширяет допустимый набор и дает решение, которое обеспечивает нижнюю границу цели. Чтобы проверить, является ли решение нарушает ограничения полного набора неравенств, необходимо решить проблему разделения. Поскольку неравенства разлагаются по выборкам, для каждой выборки необходимо решить следующую проблему.
Правая цель, которую необходимо максимизировать, состоит из постоянной и член, зависящий от оптимизируемых переменных, а именно . Если достигнутая цель правой части меньше или равна нулю, то для этой выборки не существует нарушенных ограничений. Если оно строго больше нуля, то обнаружено наиболее нарушенное ограничение по отношению к этой выборке. Проблема расширяется из-за этого ограничения и решается. Процесс продолжается до тех пор, пока не будет выявлено ни одного нарушенного неравенства.
Если из приведенной выше задачи исключить константы, мы получим следующую задачу, которую необходимо решить.
Эта проблема очень похожа на проблему вывода. Единственное отличие заключается в добавлении термина . Чаще всего его выбирают таким, чтобы он имел естественную декомпозицию в пространстве меток. В этом случае влияние может быть закодировано в задаче вывода, и решение наиболее нарушающего ограничения эквивалентно решению задачи вывода.
Ссылки
[ редактировать ]- Иоаннис Цочантаридис, Торстен Йоахимс , Томас Хофманн и Ясемин Алтун (2005), Методы с большой маржой для структурированных и взаимозависимых выходных переменных , JMLR, Vol. 6, страницы 1453–1484.
- Томас Финли и Торстен Йоахимс (2008), Обучение структурных SVM, когда точный вывод неразрешим , ICML 2008.
- Сунита Сараваги и Рахул Гупта (2008), Точное обучение максимальной марже для структурированных выходных пространств , ICML 2008.
- Гекхан Бакир, Бен Таскар, Томас Хофманн, Бернхард Шёлкопф, Алекс Смола и СВН Вишванатан (2007), Прогнозирование структурированных данных , MIT Press.
- Войтех Франк и Богдан Савчинский. Дискриминационное обучение классификаторов максимальной суммы , Журнал исследований машинного обучения, 9 (январь): 67–104, 2008, Microtome Publishing.
- Кевин Мерфи [1] Машинное обучение, MIT Press