Дискриминационная модель

Дискриминационные модели , также называемые условными моделями , представляют собой класс моделей, часто используемых для классификации . Обычно они используются для присвоения меток, таких как «прошел/не прошел», «выиграл/проиграл», «жив/мертв» или «здоров/нездоров», существующим точкам данных.

Типы дискриминативных моделей включают логистическую регрессию (LR), условные случайные поля (CRF), деревья решений и многие другие. Типичные подходы к генеративным моделям включают наивные классификаторы Байеса , модели гауссовой смеси , вариационные автокодировщики , генеративно-состязательные сети и другие.

Определение [ править ]

В отличие от генеративного моделирования, изучающего совместную вероятность $P(x,y)$ дискриминационное моделирование изучает $P(y|x)$ или отображает данную ненаблюдаемую переменную (цель) $x$ к метке класса $y$ зависит от наблюдаемых переменных (обучающих выборок). Например, при распознавании объектов $x$ скорее всего, это вектор необработанных пикселей (или признаков, извлеченных из необработанных пикселей изображения). В вероятностной модели это делается путем моделирования условного распределения вероятностей. $P(y|x)$ , который можно использовать для прогнозирования $y$ от $x$ . Обратите внимание, что различие между условной моделью и дискриминативной моделью все еще существует, хотя чаще их просто относят к дискриминативной модели.

дискриминативная модель против условной модели Чистая

Условная модель моделирует условное распределение вероятностей , в то время как традиционная дискриминативная модель направлена на оптимизацию сопоставления входных данных вокруг наиболее похожих обученных выборок. ^[1]

подходы дискриминационного Типичные моделирования

Следующий подход основан на предположении, что ему дан набор обучающих данных $D=\{(x_{i};y_{i})|i\leq N\in \mathbb {Z} \}$ , где $y_{i}$ соответствующий выход для входа $x_{i}$ . ^[2]

Линейный классификатор [ править ]

Мы намерены использовать функцию $f(x)$ смоделировать поведение того, что мы наблюдали из обучающего набора данных, с помощью метода линейного классификатора . Использование вектора совместных признаков $\phi (x,y)$ , функция решения определяется как:

f(x;w)=\arg \max _{y}w^{T}\phi (x,y)

Согласно интерпретации Мемишевича, ^[2] $w^{T}\phi (x,y)$ , что также $c(x,y;w)$ , вычисляет оценку, которая измеряет совместимость входных данных $x$ с потенциальным выходом $y$ . Тогда $\arg \max$ определяет класс с наибольшим количеством баллов.

Логистическая регрессия (LR) [ править ]

Поскольку функция потерь 0–1 широко используется в теории принятия решений, условное распределение вероятностей $P(y|x;w)$ , где $w$ представляет собой вектор параметров для оптимизации обучающих данных, для модели логистической регрессии его можно пересмотреть следующим образом:

P(y|x;w)={\frac {1}{Z(x;w)}}\exp(w^{T}\phi (x,y))

, с

Z(x;w)=\textstyle \sum _{y}\displaystyle \exp(w^{T}\phi (x,y))

Уравнение выше представляет собой логистическую регрессию . Обратите внимание, что основное различие между моделями заключается в способе введения апостериорной вероятности. Апостериорная вероятность выводится из параметрической модели. Затем мы можем максимизировать параметр, используя следующее уравнение:

L(w)=\textstyle \sum _{i}\displaystyle \log p(y^{i}|x^{i};w)

Его также можно заменить приведенным ниже уравнением логарифмических потерь :

l^{\log }(x^{i},y^{i},c(x^{i};w))=-\log p(y^{i}|x^{i};w)=\log Z(x^{i};w)-w^{T}\phi (x^{i},y^{i})

Поскольку логарифмические потери дифференцируемы, для оптимизации модели можно использовать градиентный метод. Глобальный оптимум гарантирован, поскольку целевая функция выпукла. Градиент логарифмической вероятности представлен:

{\frac {\partial L(w)}{\partial w}}=\textstyle \sum _{i}\displaystyle \phi (x^{i},y^{i})-E_{p(y|x^{i};w)}\phi (x^{i},y)

где $E_{p(y|x^{i};w)}$ это ожидание $p(y|x^{i};w)$ .

Вышеупомянутый метод обеспечит эффективные вычисления для относительно небольшого количества классификаций.

с генеративной Контраст моделью

Контраст в подходах [ править ]

Допустим, нам дано $m$ метки классов (классификация) и $n$ переменные функции, $Y:\{y_{1},y_{2},\ldots ,y_{m}\},X:\{x_{1},x_{2},\ldots ,x_{n}\}$ , как обучающие образцы.

Генеративная модель принимает совместную вероятность $P(x,y)$ , где $x$ это вход и $y$ это метка и предсказывает наиболее возможную известную метку ${\widetilde {y}}\in Y$ для неизвестной переменной ${\widetilde {x}}$ используя теорему Байеса . ^[3]

Дискриминационные модели, в отличие от генеративных , не позволяют генерировать выборки из совместного распределения наблюдаемых и целевых переменных. Однако для таких задач, как классификация и регрессия , которые не требуют совместного распределения, дискриминационные модели могут дать более высокую производительность (отчасти потому, что они требуют меньше переменных для вычисления). ^[4]^[5]^[3] С другой стороны, генеративные модели обычно более гибки, чем дискриминационные модели, при выражении зависимостей в сложных задачах обучения. Кроме того, большинство дискриминационных моделей по своей сути являются контролируемыми и не могут легко поддерживать обучение без учителя . Детали, специфичные для приложения, в конечном итоге определяют целесообразность выбора дискриминационной или генеративной модели.

Дискриминационные модели и генеративные модели также различаются введением апостериорной возможности . ^[6] Чтобы сохранить наименьшие ожидаемые потери, необходимо минимизировать ошибочную классификацию результатов. В дискриминативной модели апостериорные вероятности $P(y|x)$ , выводится из параметрической модели, где параметры берутся из обучающих данных. Точки оценки параметров получаются в результате максимизации правдоподобия или вычисления распределения по параметрам. С другой стороны, учитывая, что генеративные модели фокусируются на совместной вероятности, апостериорная возможность класса $P(k)$ рассматривается в теореме Байеса , которая

P(y|x)={\frac {p(x|y)p(y)}{\textstyle \sum _{i}p(x|i)p(i)\displaystyle }}={\frac {p(x|y)p(y)}{p(x)}}

. ^[6]

Преимущества и недостатки в применении [ править ]

В повторных экспериментах здесь применяются логистическая регрессия и наивный Байес для различных моделей задачи двоичной классификации, дискриминационное обучение приводит к меньшим асимптотическим ошибкам, тогда как генеративное обучение быстрее приводит к более высоким асимптотическим ошибкам. ^[3] Однако в совместной работе Улусоя и Бишопа « Сравнение генеративных и дискриминативных методов обнаружения и классификации объектов » они заявляют, что приведенное выше утверждение верно только тогда, когда модель подходит для данных (т. е. распределение данных правильно моделируется генеративной моделью). ).

Преимущества [ править ]

Существенными преимуществами использования дискриминативного моделирования являются:

Более высокая точность, что в большинстве случаев приводит к лучшему результату обучения.
Позволяет упростить ввод и обеспечивает прямой подход к $P(y|x)$
Экономит ресурс вычислений
Генерирует меньшие асимптотические ошибки

По сравнению с преимуществами использования генеративного моделирования:

Принимает во внимание все данные, что может привести к замедлению обработки как к недостатку.
Требуется меньше обучающих выборок
Гибкая структура, которая может легко взаимодействовать с другими потребностями приложения.

Недостатки [ править ]

Метод обучения обычно требует нескольких методов численной оптимизации. ^[1]
Точно так же по определению, дискриминационная модель потребует сочетания нескольких подзадач для решения сложной реальной проблемы. ^[2]

Оптимизации в приложениях [ править ]

Поскольку оба способа моделирования имеют как преимущества, так и недостатки, сочетание обоих подходов будет хорошим практическим моделированием. Например, в статье Марраса « Совместная дискриминативная генеративная модель для построения и классификации деформируемых моделей» : ^[7] он и его соавторы применяют комбинацию двух моделей для классификации лиц моделей и получают более высокую точность, чем традиционный подход.

Аналогично, мошенничество ^[8] также предложил комбинацию двух моделей для классификации пикселей в своей статье « Объединение генеративных и дискриминативных методов для классификации пикселей с многоусловным обучением» .

В процессе извлечения отличительных признаков перед кластеризацией анализ главных компонентов (PCA), хотя и широко используется, не обязательно является дискриминационным подходом. Напротив, LDA является дискриминационным. ^[9] Линейный дискриминантный анализ (LDA) обеспечивает эффективный способ устранения недостатка, который мы перечислили выше. Как мы знаем, дискриминационная модель требует комбинации нескольких подзадач перед классификацией, и LDA обеспечивает подходящее решение этой проблемы за счет уменьшения размерности.

Типы [ править ]

Примеры дискриминативных моделей включают в себя:

Логистическая регрессия — тип обобщенной линейной регрессии, используемый для прогнозирования двоичных или категориальных выходных данных (также известный как классификаторы максимальной энтропии ).
Бустинг (метаалгоритм)
Условные случайные поля
Линейная регрессия
Случайные леса

См. также [ править ]

Генеративная модель

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б Баллестерос, Мигель. «Дискриминативные модели» (PDF) . Проверено 28 октября 2018 г. ^{[ постоянная мертвая ссылка ]}
^ Jump up to: Перейти обратно: ^а ^б ^с Мемишевич, Роланд (21 декабря 2006 г.). «Введение в структурированное дискриминативное обучение» . Проверено 29 октября 2018 г.
^ Jump up to: Перейти обратно: ^а ^б ^с Нг, Эндрю Ю.; Джордан, Майкл И. (2001). О дискриминативных и генеративных классификаторах: сравнение логистической регрессии и наивного Байеса .
^ Сингла, Параг; Домингос, Педро (2005). «Дискриминационное обучение марковских логических сетей» . Материалы 20-й Национальной конференции по искусственному интеллекту. Том 2 . АААИ'05. Питтсбург, Пенсильвания: AAAI Press: 868–873. ISBN 978-1577352365 .
^ Дж. Лафферти, А. МакКаллум и Ф. Перейра. Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательностей. В ICML , 2001 г.
^ Jump up to: Перейти обратно: ^а ^б Улусой, Илкай (май 2016 г.). «Сравнение генеративных и дискриминативных методов обнаружения и классификации объектов» (PDF) . Майкрософт . Проверено 30 октября 2018 г.
^ Маррас, Иоаннис (2017). «Совместная дискриминационная генеративная модель для построения и классификации деформируемых моделей» (PDF) . Проверено 5 ноября 2018 г.
^ Кельм, Б. Майкл. «Сочетание генеративных и дискриминативных методов классификации пикселей с многоусловным обучением» (PDF) . Архивировано из оригинала (PDF) 17 июля 2019 года . Проверено 5 ноября 2018 г.
^ Ван, Чжанъян (2015). «Среда совместной оптимизации разреженного кодирования и дискриминационной кластеризации» (PDF) . Проверено 5 ноября 2018 г.

[:0-1] Jump up to: Перейти обратно: ^а ^б Баллестерос, Мигель. «Дискриминативные модели» (PDF) . Проверено 28 октября 2018 г. ^{[ постоянная мертвая ссылка ]}

[:1-2] Jump up to: Перейти обратно: ^а ^б ^с Мемишевич, Роланд (21 декабря 2006 г.). «Введение в структурированное дискриминативное обучение» . Проверено 29 октября 2018 г.

[:2-3] Jump up to: Перейти обратно: ^а ^б ^с Нг, Эндрю Ю.; Джордан, Майкл И. (2001). О дискриминативных и генеративных классификаторах: сравнение логистической регрессии и наивного Байеса .

[4] Сингла, Параг; Домингос, Педро (2005). «Дискриминационное обучение марковских логических сетей» . Материалы 20-й Национальной конференции по искусственному интеллекту. Том 2 . АААИ'05. Питтсбург, Пенсильвания: AAAI Press: 868–873. ISBN 978-1577352365 .

[5] Дж. Лафферти, А. МакКаллум и Ф. Перейра. Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательностей. В ICML , 2001 г.

[:3-6] Jump up to: Перейти обратно: ^а ^б Улусой, Илкай (май 2016 г.). «Сравнение генеративных и дискриминативных методов обнаружения и классификации объектов» (PDF) . Майкрософт . Проверено 30 октября 2018 г.

[7] Маррас, Иоаннис (2017). «Совместная дискриминационная генеративная модель для построения и классификации деформируемых моделей» (PDF) . Проверено 5 ноября 2018 г.

[8] Кельм, Б. Майкл. «Сочетание генеративных и дискриминативных методов классификации пикселей с многоусловным обучением» (PDF) . Архивировано из оригинала (PDF) 17 июля 2019 года . Проверено 5 ноября 2018 г.

[9] Ван, Чжанъян (2015). «Среда совместной оптимизации разреженного кодирования и дискриминационной кластеризации» (PDF) . Проверено 5 ноября 2018 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]