Jump to content

Статистическая классификация

Когда классификация выполняется с помощью компьютера, для разработки алгоритма обычно используются статистические методы.

Часто отдельные наблюдения анализируются с целью получения набора количественных свойств, известных как объясняющие переменные или характеристики . Эти свойства могут быть категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «малый»), целочисленными (например, количество появлений определенного слова в электронном письме ) или вещественное значение (например, измерение артериального давления ). Другие классификаторы работают путем сравнения наблюдений с предыдущими наблюдениями с помощью функции сходства или расстояния .

Алгоритм , реализующий классификацию, особенно в конкретной реализации, известен как классификатор . Термин «классификатор» иногда также относится к математической функции , реализуемой алгоритмом классификации, которая отображает входные данные в категорию.

Терминология в разных областях весьма разнообразна. В статистике , где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются объясняющими переменными (или независимыми переменными , регрессорами и т. д.), а прогнозируемые категории известны как результаты, которые считаются быть возможными значениями зависимой переменной . В машинном обучении наблюдения часто называют экземплярами , независимые переменные называются признаками (сгруппированными в вектор признаков ), а возможные категории, подлежащие прогнозированию, — классами . В других областях может использоваться другая терминология: например, в экологии сообществ термин «классификация» обычно относится к кластерному анализу .

Связь с другими проблемами [ править ]

Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в присвоении некоторого вида выходного значения заданному входному значению. Другими примерами являются регрессия , которая присваивает каждому входу выходной сигнал с действительным знаком; маркировка последовательности , которая присваивает класс каждому члену последовательности значений (например, маркировка части речи , которая присваивает часть речи каждому слову во входном предложении); синтаксический анализ , который присваивает дерево разбора входному предложению , описывающее синтаксическую структуру предложения; и т. д.

Распространенным подклассом классификации является вероятностная классификация . Алгоритмы такого типа используют статистический вывод , чтобы найти лучший класс для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «лучший» класс, вероятностные алгоритмы выводят вероятность того, что экземпляр является членом каждого из возможных классов. Лучший класс обычно выбирается как класс с наибольшей вероятностью. Однако такой алгоритм имеет множество преимуществ перед невероятностными классификаторами:

  • Он может выводить значение достоверности, связанное с его выбором (как правило, классификатор, который может это делать, известен как классификатор, взвешенный по доверию ).
  • Соответственно, он может воздержаться , если его уверенность в выборе какого-либо конкретного результата слишком низка.
  • Благодаря генерируемым вероятностям вероятностные классификаторы можно более эффективно включать в более крупные задачи машинного обучения таким образом, чтобы частично или полностью избежать проблемы распространения ошибок .

Частые процедуры [ править ]

Ранние работы по статистической классификации были предприняты Фишером . [1] [2] в контексте задач с двумя группами, что приводит к линейной дискриминантной функции Фишера как правилу назначения группы новому наблюдению. [3] В этой ранней работе предполагалось, что значения данных внутри каждой из двух групп имеют многомерное нормальное распределение . Распространение этого же контекста на более чем две группы также рассматривалось с ограничением, согласно которому правило классификации должно быть линейным . [3] [4] Более поздняя работа над многомерным нормальным распределением позволила сделать классификатор нелинейным : [5] можно вывести несколько правил классификации на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение будет присвоено группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.

Байесовские процедуры [ править ]

В отличие от частотных процедур, процедуры байесовской классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. [6] Байесовские процедуры, как правило, требуют больших вычислительных затрат, и задолго до того, как были разработаны вычисления Монте-Карло с использованием цепей Маркова , были разработаны аппроксимации для правил байесовской кластеризации. [7]

Некоторые байесовские процедуры включают расчет вероятностей членства в группе : они обеспечивают более информативный результат, чем простое присвоение одной групповой метки каждому новому наблюдению.

и мультиклассовая классификация Бинарная

Классификацию можно рассматривать как две отдельные проблемы — бинарную классификацию и мультиклассовую классификацию . В бинарной классификации, более понятной задаче, задействованы только два класса, тогда как многоклассовая классификация предполагает отнесение объекта к одному из нескольких классов. [8] Поскольку многие методы классификации были разработаны специально для бинарной классификации, многоклассовая классификация часто требует совместного использования нескольких двоичных классификаторов.

Векторы признаков [ править ]

Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть предсказана с использованием вектора признаков отдельных измеримых свойств экземпляра. Каждое свойство называется признаком , также известным в статистике как объясняющая переменная (или независимая переменная , хотя признаки могут быть или не быть статистически независимыми ). Функции могут быть двоичными (например, «включено» или «выключено»); категориальный (например, «А», «В», «АВ» или «О» для группы крови ); порядковый номер (например, «большой», «средний» или «маленький»); целочисленное значение (например, количество вхождений определенного слова в электронное письмо); или вещественное значение (например, измерение артериального давления). Если экземпляр является изображением, значения признаков могут соответствовать пикселям изображения; если экземпляр представляет собой фрагмент текста, значения признаков могут быть частотами появления разных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы вещественные или целочисленные данные были дискретизированы на группы (например, меньше 5, от 5 до 10 или больше 10).

Линейные классификаторы [ править ]

Большое количество алгоритмов классификации можно сформулировать в виде линейной функции , которая присваивает балл каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Прогнозируемая категория — это категория с наивысшим баллом. Этот тип функции оценки известен как функция линейного прогнозирования и имеет следующую общую форму: где X i — вектор признаков, например i , β k — вектор весов, соответствующий категории k , а Score( X i , k ) — это оценка, связанная с присвоением экземпляра i категории k . В теории дискретного выбора , где экземпляры представляют людей, а категории представляют выбор, оценка считается полезностью, связанной с человеком i, выбирающим категорию k .

Алгоритмы с такой базовой настройкой известны как линейные классификаторы . Что их отличает, так это процедура определения (обучения) оптимальных весов/коэффициентов и способ интерпретации результатов.

Примеры таких алгоритмов включают в себя

Алгоритмы [ править ]

Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. К наиболее часто используемым относятся: [9]

Выбор между различными возможными алгоритмами часто делается на основе количественной оценки точности .

Домены приложений [ править ]

Классификация имеет множество применений. В некоторых из них он используется в качестве процедуры интеллектуального анализа данных , тогда как в других проводится более детальное статистическое моделирование.

См. также [ править ]

Ссылки [ править ]

  1. ^ Фишер, Р.А. (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники . 7 (2): 179–188. дои : 10.1111/j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
  2. ^ Фишер, Р.А. (1938). «Статистическое использование множественных измерений». Анналы евгеники . 8 (4): 376–386. дои : 10.1111/j.1469-1809.1938.tb02189.x . hdl : 2440/15232 .
  3. ^ Jump up to: Перейти обратно: а б Гнанадэсикан, Р. (1977) Методы статистического анализа данных многомерных наблюдений , Wiley. ISBN   0-471-30845-5 (стр. 83–86)
  4. ^ Рао, CR (1952) Расширенные статистические методы в многомерном анализе , Wiley. (Раздел 9в)
  5. ^ Андерсон, Т.В. (1958) Введение в многомерный статистический анализ , Wiley.
  6. ^ Биндер, Д.А. (1978). «Байесовский кластерный анализ». Биометрика . 65 : 31–38. дои : 10.1093/biomet/65.1.31 .
  7. ^ Биндер, Дэвид А. (1981). «Приближения к байесовским правилам кластеризации». Биометрика . 68 : 275–285. дои : 10.1093/biomet/68.1.275 .
  8. ^ Хар-Пелед, С. , Рот, Д., Зимак, Д. (2003) «Классификация ограничений для мультиклассовой классификации и ранжирования». В: Беккер Б., Трун С. , Обермайер К. (редакторы) Достижения в области нейронных систем обработки информации 15: Материалы конференции 2002 г. , MIT Press. ISBN   0-262-02550-7
  9. ^ «Экскурсия по 10 лучшим алгоритмам для новичков в машинном обучении» . Встроенный . 20 января 2018 г. Проверено 10 июня 2019 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a750bc6832d9b8da78b57879f97fbf9e__1718706480
URL1:https://arc.ask3.ru/arc/aa/a7/9e/a750bc6832d9b8da78b57879f97fbf9e.html
Заголовок, (Title) документа по адресу, URL1:
Statistical classification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)