Jump to content

Линейный классификатор

В области машинного обучения цель статистической классификации — использовать характеристики объекта для определения того, к какому классу (или группе) он принадлежит. Линейный классификатор достигает этого, принимая решение о классификации на основе значения линейной комбинации характеристик. Характеристики объекта также известны как значения признаков и обычно представляются машине в виде вектора, называемого вектором признаков . Такие классификаторы хорошо работают для практических задач, таких как классификация документов , и в более общем плане для задач со многими переменными ( особенностями ), достигая уровня точности, сравнимого с нелинейными классификаторами, и при этом требуя меньше времени для обучения и использования. [1] 5–12–23

Определение [ править ]

В этом случае сплошные и пустые точки можно правильно классифицировать любым количеством линейных классификаторов. H1 (синий) классифицирует их правильно, как и H2 (красный). H2 можно считать «лучшей» в том смысле, что она дальше всего от обеих групп. H3 (зеленый) не может правильно классифицировать точки.

Если входной вектор признаков классификатора является действительным вектором , то выходной балл равен

где — действительный вектор весов, а f — функция, которая преобразует скалярное произведение двух векторов в желаемый результат. (Другими словами, является одноформовым или линейным функциональным отображением на R .) Весовой вектор изучается из набора помеченных обучающих образцов. Часто f является пороговой функцией , которая отображает все значения выше определенного порога для первого класса и всех других значений для второго класса; например,

Верхний индекс T указывает на транспонирование и является скалярным порогом. Более сложное f может дать вероятность того, что элемент принадлежит определенному классу.

Для задачи классификации двух классов можно визуализировать работу линейного классификатора как разделение многомерного входного пространства гиперплоскостью : все точки на одной стороне гиперплоскости классифицируются как «да», а другие классифицируются как "нет".

Линейный классификатор часто используется в ситуациях, когда скорость классификации является проблемой, поскольку зачастую он является самым быстрым классификатором, особенно когда является редким. Кроме того, линейные классификаторы часто работают очень хорошо, когда количество измерений в является большим, как в классификации документов , где каждый элемент в обычно это количество вхождений слова в документ (см. матрицу терминов документа ). В таких случаях классификатор должен быть хорошо регуляризован .

Генеративные модели дискриминативных против моделей

Существует два широких класса методов определения параметров линейного классификатора. . Это могут быть генеративные и дискриминативные модели. [2] [3] Методы первой модели совместного распределения вероятностей , тогда как методы второй модели являются функциями условной плотности. . Примеры таких алгоритмов включают в себя:

Второй набор методов включает в себя дискриминационные модели , которые пытаются максимизировать качество результатов обучающего набора . Дополнительные члены в функции стоимости обучения могут легко выполнить регуляризацию окончательной модели. Примеры дискриминационного обучения линейных классификаторов включают:

  • Логистическая регрессия — оценка максимального правдоподобия предполагая, что наблюдаемый обучающий набор был создан с помощью биномиальной модели, которая зависит от выходных данных классификатора.
  • Персептрон — алгоритм, который пытается исправить все ошибки, встречающиеся в обучающем наборе.
  • Линейный дискриминантный анализ Фишера — алгоритм (отличный от «LDA»), который максимизирует соотношение разброса между классами и разброса внутри класса без каких-либо других предположений. По сути, это метод уменьшения размерности для двоичной классификации. [4]
  • Машина опорных векторов — алгоритм, который максимизирует разницу между гиперплоскостью решения и примерами в обучающем наборе.

Примечание. Несмотря на свое название, LDA не принадлежит к классу дискриминативных моделей в этой таксономии. Однако его название имеет смысл, когда мы сравниваем LDA с другим основным алгоритмом уменьшения линейной размерности : анализом главных компонентов (PCA). LDA — это алгоритм обучения с учителем , который использует метки данных, а PCA — это алгоритм обучения без учителя , который игнорирует метки. Подводя итог, можно сказать, что название является историческим артефактом. [5] : 117 

Дискриминационное обучение часто дает более высокую точность, чем моделирование функций условной плотности. [ нужна ссылка ] . Однако обрабатывать недостающие данные часто проще с помощью моделей условной плотности. [ нужна ссылка ] .

Все перечисленные выше алгоритмы линейного классификатора можно преобразовать в нелинейные алгоритмы, работающие в другом входном пространстве. , используя трюк ядра .

обучение Дискриминационное

Дискриминационное обучение линейных классификаторов обычно происходит контролируемым образом с помощью алгоритма оптимизации , которому предоставляется обучающий набор с желаемыми выходными данными и функция потерь , которая измеряет несоответствие между выходными данными классификатора и желаемыми выходными данными. Таким образом, алгоритм обучения решает оптимизационную задачу вида [1]

где

  • w — вектор параметров классификатора,
  • Л ( йи , ш Т x i ) — это функция потерь, которая измеряет несоответствие между прогнозом классификатора и истинным выходным сигналом y i для i -го обучающего примера,
  • R ( w ) функция регуляризации , которая предотвращает слишком большие размеры параметров (вызывая переобучение ), и
  • C — скалярная константа (задаваемая пользователем алгоритма обучения), которая контролирует баланс между регуляризацией и функцией потерь.

Популярные функции потерь включают шарнирные потери (для линейных SVM) и логарифмические потери (для линейной логистической регрессии). Если функция регуляризации R выпукла , то описанная выше задача является выпуклой . [1] Существует множество алгоритмов для решения таких задач; Популярные методы линейной классификации включают ( стохастический ) градиентный спуск , L-BFGS , координатный спуск и методы Ньютона .

См. также [ править ]

Примечания [ править ]

  1. Перейти обратно: Перейти обратно: а б с Го-Сюнь Юань; Чиа-Хуа Хо; Чи-Джень Линь (2012). «Последние достижения крупномасштабной линейной классификации» (PDF) . Учеб. ИИЭЭ . 100 (9). Архивировано (PDF) из оригинала 10 июня 2017 г.
  2. ^ Т. Митчелл, Генеративные и дискриминационные классификаторы: наивный Байес и логистическая регрессия. Черновая версия, 2005 г.
  3. ^ AY Ng и MI Jordan. О дискриминативных и генеративных классификаторах: сравнение логистической регрессии и наивного Байеса. в НИПС 14, 2002 г.
  4. ^ Р.О. Дуда, П.Е. Харт, Д.Г. Сторк, «Классификация шаблонов», Wiley, (2001). ISBN   0-471-05669-3
  5. ^ Р.О. Дуда, П.Е. Харт, Д.Г. Сторк, «Классификация шаблонов», Wiley, (2001). ISBN   0-471-05669-3

Дальнейшее чтение [ править ]

  1. Ю. Ян, С. Лю, «Пересмотр категоризации текста», Proc. Конференция ACM SIGIR, стр. 42–49 (1999). бумага @ citeseer
  2. Р. Хербрич, «Изучение классификаторов ядра: теория и алгоритмы», MIT Press, (2001). ISBN   0-262-08306-X
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b5a77e07983774826b25a8e43d1342df__1707240120
URL1:https://arc.ask3.ru/arc/aa/b5/df/b5a77e07983774826b25a8e43d1342df.html
Заголовок, (Title) документа по адресу, URL1:
Linear classifier - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)