LPBoost

Повышение с помощью линейного программирования ( LPBoost ) — это контролируемый классификатор из с повышением семейства классификаторов . LPBoost максимизирует разницу между обучающими выборками разных классов и, следовательно, также относится к классу контролируемых алгоритмов классификации, максимизирующих разницу. Рассмотрим функцию классификации

f:{\mathcal {X}}\to \{-1,1\},

который классифицирует образцы из пространства ${\mathcal {X}}$ в один из двух классов, обозначенных 1 и -1 соответственно. LPBoost — это алгоритм для изучения такой функции классификации на основе набора обучающих примеров с известными метками классов. LPBoost — это метод машинного обучения , который особенно подходит для приложений совместной классификации и выбора признаков в структурированных областях.

Обзор LPBoost

Как и во всех повышающих классификаторах, окончательная функция классификации имеет вид

f({\boldsymbol {x}})=\sum _{j=1}^{J}\alpha _{j}h_{j}({\boldsymbol {x}}),

где $\alpha _{j}$ являются неотрицательными весами для слабых классификаторов $h_{j}:{\mathcal {X}}\to \{-1,1\}$ . Каждый отдельный слабый классификатор $h_{j}$ может быть немного лучше, чем случайное, но полученная линейная комбинация многих слабых классификаторов может работать очень хорошо.

Конструкции LPBoost $f$ начав с пустого набора слабых классификаторов. Итеративно выбирается один слабый классификатор для добавления к набору рассматриваемых слабых классификаторов, добавляется и все веса ${\boldsymbol {\alpha }}$ для текущего набора слабых классификаторов скорректированы. Это повторяется до тех пор, пока не останется слабых классификаторов, которые можно добавить.

Свойство, заключающееся в том, что все веса классификатора корректируются на каждой итерации, известно как полностью корректирующее свойство. Ранние методы повышения, такие как AdaBoost, не обладают этим свойством и сходятся медленнее.

Линейная программа

В более общем смысле, пусть ${\mathcal {H}}=\{h(\cdot ;\omega )|\omega \in \Omega \}$ быть возможно бесконечным набором слабых классификаторов, также называемых гипотезами . Один из способов записать проблему, которую решает LPBoost, — это линейная программа с бесконечным количеством переменных.

Основная линейная программа LPBoost, оптимизирующая неотрицательный весовой вектор. ${\boldsymbol {\alpha }}$ , неотрицательный вектор ${\boldsymbol {\xi }}$ слабых переменных и запаса $\rho$ заключается в следующем.

{\begin{array}{cl}{\underset {{\boldsymbol {\alpha }},{\boldsymbol {\xi }},\rho }{\min }}&-\rho +D\sum _{n=1}^{\ell }\xi _{n}\\{\textrm {sb.t.}}&\sum _{\omega \in \Omega }y_{n}\alpha _{\omega }h({\boldsymbol {x}}_{n};\omega )+\xi _{n}\geq \rho ,\qquad n=1,\dots ,\ell ,\\&\sum _{\omega \in \Omega }\alpha _{\omega }=1,\\&\xi _{n}\geq 0,\qquad n=1,\dots ,\ell ,\\&\alpha _{\omega }\geq 0,\qquad \omega \in \Omega ,\\&\rho \in {\mathbb {R} }.\end{array}}

Обратите внимание на влияние слабых переменных ${\boldsymbol {\xi }}\geq 0$ : их одна норма штрафуется в целевой функции постоянным коэффициентом $D$ , который, если он достаточно мал, всегда приводит к простой допустимой линейной программе.

Здесь мы приняли обозначение пространства параметров $\Omega$ , такой, что для выбора $\omega \in \Omega$ слабый классификатор $h(\cdot ;\omega ):{\mathcal {X}}\to \{-1,1\}$ определяется однозначно.

Когда приведенная выше линейная программа была впервые записана в ранних публикациях о методах бустинга, ее игнорировали как трудноразрешимую из-за большого количества переменных. ${\boldsymbol {\alpha }}$ . Лишь позже было обнаружено, что такие линейные программы действительно могут быть эффективно решены с использованием классической техники генерации столбцов .

Генерация столбцов для LPBoost

В линейной программе столбец . соответствует основной переменной Генерация столбцов — это метод решения больших линейных программ. Обычно он работает в ограниченной задаче, имея дело только с подмножеством переменных. Путем итеративной генерации основных переменных по требованию в конечном итоге восстанавливается исходная неограниченная проблема со всеми переменными. Умно выбрав столбцы для создания проблемы, можно решить ее так, что, гарантируя, что полученное решение будет оптимальным для исходной полной задачи, нужно будет создать лишь небольшую часть столбцов.

Двойная проблема с LPBoost

Столбцы в основной линейной программе соответствуют строкам в двойной линейной программе . Эквивалентной двойной линейной программой LPBoost является следующая линейная программа.

{\begin{array}{cl}{\underset {{\boldsymbol {\lambda }},\gamma }{\max }}&\gamma \\{\textrm {sb.t.}}&\sum _{n=1}^{\ell }y_{n}h({\boldsymbol {x}}_{n};\omega )\lambda _{n}+\gamma \leq 0,\qquad \omega \in \Omega ,\\&0\leq \lambda _{n}\leq D,\qquad n=1,\dots ,\ell ,\\&\sum _{n=1}^{\ell }\lambda _{n}=1,\\&\gamma \in \mathbb {R} .\end{array}}

Для линейных программ оптимальное значение основной и двойственной задач одинаково. Для вышеупомянутых основных и двойственных задач оптимальное значение равно отрицательному «мягкому запасу». Мягкая маржа — это размер границы, разделяющей положительные и отрицательные экземпляры обучения, за вычетом положительных слабых переменных, которые влекут за собой штрафы за образцы, нарушающие границы. Таким образом, мягкий запас может быть положительным, хотя не все выборки линейно разделены функцией классификации. Последняя называется «жесткой маржой» или «реализованной маржой».

Критерий сходимости

Рассмотрим подмножество удовлетворяемых ограничений в двойственной задаче. Для любого конечного подмножества мы можем решить линейную программу и, таким образом, удовлетворить все ограничения. Если бы мы могли доказать, что из всех ограничений, которые мы не добавили к двойственной задаче, ни одно ограничение не нарушается, мы бы доказали, что решение нашей ограниченной задачи эквивалентно решению исходной задачи. Более формально, пусть $\gamma ^{*}$ быть оптимальным значением целевой функции для любого ограниченного случая. Затем мы можем сформулировать задачу поиска «наиболее нарушенного ограничения» в исходном проблемном пространстве, а именно найти $\omega ^{*}\in \Omega$ как

\omega ^{*}={\underset {\omega \in \Omega }{\textrm {argmax}}}\sum _{n=1}^{\ell }y_{n}h({\boldsymbol {x}}_{n};\omega )\lambda _{n}.

То есть мы ищем пространство ${\mathcal {H}}$ за один пень решения $h(\cdot ;\omega ^{*})$ максимизация левой части двойного ограничения. Если ограничение не может быть нарушено каким-либо выбором пня решения, ни одно из соответствующих ограничений не может быть активным в исходной задаче, и ограниченная задача эквивалентна.

Константа штрафа $D$

Положительное значение константы штрафа $D$ должен быть найден с использованием методов выбора модели . Однако, если мы выберем $D={\frac {1}{\ell \nu }}$ , где $\ell$ количество обучающих выборок и $0<\nu <1$ , то новый параметр $\nu$ имеет следующие свойства.

$\nu$ – верхняя граница доли ошибок обучения; то есть, если $k$ обозначает количество неправильно классифицированных обучающих выборок, затем ${\frac {k}{\ell }}\leq \nu$ .
$\nu$ — это нижняя граница доли обучающих выборок за пределами или на границе.

Алгоритм

Вход:
- Тренировочный набор $X=\{{\boldsymbol {x}}_{1},\dots ,{\boldsymbol {x}}_{\ell }\}$ , ${\boldsymbol {x}}_{i}\in {\mathcal {X}}$
- Тренировочные этикетки $Y=\{y_{1},\dots ,y_{\ell }\}$ , $y_{i}\in \{-1,1\}$
- Порог сходимости $\theta \geq 0$
Выход:
- Функция классификации $f:{\mathcal {X}}\to \{-1,1\}$

Инициализация
1. Весы, униформа $\lambda _{n}\leftarrow {\frac {1}{\ell }},\quad n=1,\dots ,\ell$
2. Край $\gamma \leftarrow 0$
3. Количество гипотез $J\leftarrow 1$
Итерировать
1. ${\hat {h}}\leftarrow {\underset {\omega \in \Omega }{\textrm {argmax}}}\sum _{n=1}^{\ell }y_{n}h({\boldsymbol {x}}_{n};\omega )\lambda _{n}$
2. если $\sum _{n=1}^{\ell }y_{n}{\hat {h}}({\boldsymbol {x}}_{n})\lambda _{n}+\gamma \leq \theta$ $\sum _{n=1}^{\ell }y_{n}{\hat {h}}({\boldsymbol {x}}_{n})\lambda _{n}+\gamma \ лек \ тета$ затем
  1. перерыв
3. $h_{J}\leftarrow {\hat {h}}$
4. $J\leftarrow J+1$
5. $({\boldsymbol {\lambda }},\gamma )\leftarrow$ решение двойного LPBoost
6. ${\boldsymbol {\alpha }}\leftarrow$ Множители Лагранжа решения двойственной задачи LPBoost
$f({\boldsymbol {x}}):={\textrm {sign}}\left(\sum _{j=1}^{J}\alpha _{j}h_{j}({\boldsymbol {x}})\right)$

Обратите внимание, что если порог сходимости установлен на $\theta =0$ полученное решение является глобальным оптимальным решением указанной выше линейной программы. На практике, $\theta$ установлено небольшое положительное значение, чтобы быстро получить хорошее решение.

Реализованная маржа

Фактическая разница, разделяющая обучающие выборки, называется реализованной границей и определяется как

\rho ({\boldsymbol {\alpha }}):=\min _{n=1,\dots ,\ell }y_{n}\sum _{\alpha _{\omega }\in \Omega }\alpha _{\omega }h({\boldsymbol {x}}_{n};\omega ).

Реализованная маржа может и обычно будет отрицательной на первых итерациях. Для пространства гипотез, которое позволяет выделить любую отдельную выборку, как это обычно бывает, реализованная разница в конечном итоге сойдется к некоторому положительному значению.

Гарантия конвергенции

Хотя доказана сходимость приведенного выше алгоритма, в отличие от других формул повышения, таких как AdaBoost и TotalBoost , для LPBoost не существует известных границ сходимости. Однако на практике известно, что LPBoost сходится быстро, часто быстрее, чем другие составы.

Базовые ученики

LPBoost является методом ансамблевого обучения и поэтому не диктует выбор базовых обучающихся, пространства гипотез. ${\mathcal {H}}$ . Демирис и др. показали, что при мягких предположениях можно использовать любого базового обучаемого. Если базовые учащиеся особенно просты, их часто называют пнями решений .

Число базовых обучающихся, обычно используемых с Boosting в литературе, велико. Например, если ${\mathcal {X}}\subseteq {\mathbb {R} }^{n}$ Базовым обучающимся может быть линейная машина опорных векторов с мягкими границами . Или еще проще, простой обрубок вида

h({\boldsymbol {x}};\omega \in \{1,-1\},p\in \{1,\dots ,n\},t\in {\mathbb {R} }):=\left\{{\begin{array}{cl}\omega &{\textrm {if~}}{\boldsymbol {x}}_{p}\leq t\\-\omega &{\textrm {otherwise}}\end{array}}\right..

Вышеупомянутые пни решения выглядят только в одном измерении. $p$ входного пространства и просто устанавливает пороговое значение для соответствующего столбца выборки, используя постоянный порог $t$ . Затем он может принять решение в любом направлении, в зависимости от $\omega$ для положительного или отрицательного класса.

Учитывая веса обучающих выборок, построение оптимальной пени решения приведенной выше формы просто включает поиск по всем столбцам выборки и определение $p$ , $t$ и $\omega$ для оптимизации функции усиления.

Ссылки

Повышение эффективности линейного программирования посредством генерации столбцов , А. Демирис, К. П. Беннетт и Дж. Шоу-Тейлор. Опубликовано в 2002 г. в журнале Kluwer Machine Learning 46, страницы 225–254.