Статистическая классификация
В статистике классификация — это проблема определения того, к какой из множества категорий (субпопуляций) наблюдение принадлежит (или наблюдения). Примерами могут служить отнесение данного электронного письма к классу «спам» или «не спам» и назначение диагноза данному пациенту на основе наблюдаемых характеристик пациента (пол, артериальное давление, наличие или отсутствие определенных симптомов и т. д.). .
Часто отдельные наблюдения анализируются с целью получения набора количественных свойств, известных как объясняющие переменные или характеристики . Эти свойства могут быть категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «малый»), целочисленными (например, количество появлений определенного слова в электронном письме ) или вещественное значение (например, измерение артериального давления ). Другие классификаторы работают путем сравнения наблюдений с предыдущими наблюдениями с помощью функции сходства или расстояния .
Алгоритм , реализующий классификацию, особенно в конкретной реализации, известен как классификатор . Термин «классификатор» иногда также относится к математической функции , реализуемой алгоритмом классификации, которая отображает входные данные в категорию.
Терминология в разных областях весьма разнообразна. В статистике , где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются объясняющими переменными (или независимыми переменными , регрессорами и т. д.), а прогнозируемые категории известны как результаты, которые считаются быть возможными значениями зависимой переменной . В машинном обучении наблюдения часто называют экземплярами , независимые переменные называются признаками (сгруппированными в вектор признаков ), а возможные категории, подлежащие прогнозированию, — классами . В других областях может использоваться другая терминология: например, в экологии сообществ термин «классификация» обычно относится к кластерному анализу .
Связь с другими проблемами [ править ]
Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в присвоении некоторого вида выходного значения заданному входному значению. Другими примерами являются регрессия , которая присваивает каждому входу выходной сигнал с действительным знаком; маркировка последовательности , которая присваивает класс каждому члену последовательности значений (например, маркировка части речи , которая присваивает часть речи каждому слову во входном предложении); синтаксический анализ , который присваивает дерево разбора входному предложению , описывающее синтаксическую структуру предложения; и т. д.
Распространенным подклассом классификации является вероятностная классификация . Алгоритмы такого типа используют статистический вывод , чтобы найти лучший класс для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «лучший» класс, вероятностные алгоритмы выводят вероятность того, что экземпляр является членом каждого из возможных классов. Лучший класс обычно выбирается как класс с наибольшей вероятностью. Однако такой алгоритм имеет множество преимуществ перед невероятностными классификаторами:
- Он может выводить значение достоверности, связанное с его выбором (как правило, классификатор, который может это делать, известен как классификатор, взвешенный по доверию ).
- Соответственно, он может воздержаться , если его уверенность в выборе какого-либо конкретного результата слишком низка.
- Благодаря генерируемым вероятностям вероятностные классификаторы можно более эффективно включать в более крупные задачи машинного обучения таким образом, чтобы частично или полностью избежать проблемы распространения ошибок .
Частые процедуры [ править ]
Ранние работы по статистической классификации были предприняты Фишером . [1] [2] в контексте задач с двумя группами, что приводит к линейной дискриминантной функции Фишера как правилу назначения группы новому наблюдению. [3] В этой ранней работе предполагалось, что значения данных внутри каждой из двух групп имеют многомерное нормальное распределение . Распространение этого же контекста на более чем две группы также рассматривалось с ограничением, согласно которому правило классификации должно быть линейным . [3] [4] Более поздняя работа над многомерным нормальным распределением позволила сделать классификатор нелинейным. [ необходимо уточнение ] : [5] можно вывести несколько правил классификации на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение будет присвоено группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.
Байесовские процедуры [ править ]
В отличие от частотных процедур, процедуры байесовской классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. [6] Байесовские процедуры, как правило, требуют больших вычислительных затрат, и задолго до того, как были разработаны вычисления Монте-Карло с использованием цепей Маркова , были разработаны аппроксимации для правил байесовской кластеризации. [7]
Некоторые байесовские процедуры включают расчет вероятностей членства в группе : они обеспечивают более информативный результат, чем простое присвоение одной групповой метки каждому новому наблюдению.
и мультиклассовая классификация Бинарная
Классификацию можно рассматривать как две отдельные проблемы — бинарную классификацию и мультиклассовую классификацию . В бинарной классификации, более понятной задаче, задействованы только два класса, тогда как многоклассовая классификация предполагает отнесение объекта к одному из нескольких классов. [8] Поскольку многие методы классификации были разработаны специально для бинарной классификации, многоклассовая классификация часто требует совместного использования нескольких двоичных классификаторов.
Векторы признаков [ править ]
Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть предсказана с использованием вектора признаков отдельных измеримых свойств экземпляра. Каждое свойство называется признаком , также известным в статистике как объясняющая переменная (или независимая переменная , хотя признаки могут быть или не быть статистически независимыми ). Функции могут быть двоичными (например, «включено» или «выключено»); категориальный (например, «А», «В», «АВ» или «О» для группы крови ); порядковый номер (например, «большой», «средний» или «маленький»); целочисленное значение (например, количество вхождений определенного слова в электронное письмо); или вещественное значение (например, измерение артериального давления). Если экземпляр является изображением, значения признаков могут соответствовать пикселям изображения; если экземпляр представляет собой фрагмент текста, значения признаков могут быть частотами появления разных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы вещественные или целочисленные данные были дискретизированы на группы (например, меньше 5, от 5 до 10 или больше 10).
Линейные классификаторы [ править ]
Большое количество алгоритмов классификации можно сформулировать в виде линейной функции , которая присваивает балл каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Прогнозируемая категория — это категория с наивысшим баллом. Этот тип функции оценки известен как функция линейного прогнозирования и имеет следующую общую форму:
Алгоритмы с такой базовой настройкой известны как линейные классификаторы . Что их отличает, так это процедура определения (обучения) оптимальных весов/коэффициентов и способ интерпретации результатов.
Примеры таких алгоритмов включают в себя
- Логистическая регрессия - Статистическая модель для бинарной зависимой переменной.
- Полиномиальная логистическая регрессия - регрессия для более чем двух дискретных результатов.
- Пробит-регрессия – статистическая регрессия, при которой зависимая переменная может принимать только два значения.
- Алгоритм перцептрона
- Машина опорных векторов - набор методов контролируемого статистического обучения.
- Линейный дискриминантный анализ - метод, используемый в статистике, распознавании образов и других областях.
Алгоритмы [ править ]
Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. К наиболее часто используемым относятся: [9]
- Искусственные нейронные сети — вычислительная модель, используемая в машинном обучении, основанная на связанных иерархических функциях.
- Повышение (мета-алгоритм) — метод машинного обучения.
- Обучение дереву решений – алгоритм машинного обучения
- Случайный лес — метод ансамблевого машинного обучения на основе двоичного дерева поиска.
- Генетическое программирование - развитие компьютерных программ с использованием методов, аналогичных естественным генетическим процессам.
- Программирование экспрессии генов – эволюционный алгоритм
- Мультивыраженное программирование
- Линейное генетическое программирование - тип алгоритма генетического программирования.
- Оценка ядра — оконная функция.
- k-ближайший сосед — метод непараметрической классификации.
- Обучение векторному квантованию
- Линейный классификатор - Статистическая классификация в машинном обучении
- Линейный дискриминант Фишера — метод, используемый в статистике, распознавании образов и других областях.
- Логистическая регрессия - Статистическая модель для бинарной зависимой переменной.
- Наивный классификатор Байеса - алгоритм вероятностной классификации
- Персептрон - алгоритм контролируемого обучения бинарных классификаторов
- Квадратичный классификатор - используется в машинном обучении для разделения измерений двух или более классов объектов.
- Машина опорных векторов - набор методов контролируемого статистического обучения.
Оценка [ править ]
Производительность классификатора во многом зависит от характеристик классифицируемых данных. Не существует единого классификатора, который лучше всего работал бы для всех заданных задач (феномен, который можно объяснить теоремой об отсутствии бесплатного обеда ). Были проведены различные эмпирические тесты для сравнения производительности классификатора и определения характеристик данных, которые определяют производительность классификатора. Однако определение подходящего классификатора для данной проблемы все еще является скорее искусством, чем наукой.
Главной проблемой при оценке производительности классификатора является точность. Оценка посредством явного расчета точности по заданной формуле важна, поскольку позволяет сделать выбор между двумя альтернативными классификаторами. Это важно как при разработке классификатора, так и при выборе того, какой классификатор использовать. Однако существует множество различных методов оценки точности классификатора и не существует общего метода определения того, какой метод следует использовать в каких обстоятельствах. В разных областях применялись разные подходы. В распознавании образов популярен коэффициент ошибок. Коэффициент Джини и статистика KS широко используются в индустрии кредитного скоринга. Чувствительность и специфичность широко используются в эпидемиологии и медицине. Точность и полнота широко используются при поиске информации. [10]
Совсем недавно кривые рабочих характеристик приемника (ROC) использовались для оценки компромисса между истинными и ложноположительными показателями алгоритмов классификации.
Как показатель производительности коэффициент неопределенности имеет преимущество перед простой точностью , поскольку на него не влияют относительные размеры различных классов. [11] Более того, это не будет наказывать алгоритм за простую перестановку классов.
Домены приложений [ править ]
Классификация имеет множество применений. В некоторых из них он используется в качестве процедуры интеллектуального анализа данных , тогда как в других проводится более детальное статистическое моделирование.
- Биологическая классификация - наука об идентификации, описании, определении и названии групп биологических организмов.
- Биометрические показатели — показатели, связанные с человеческими характеристиками. идентификации целей перенаправления.
- Компьютерное зрение – компьютеризированное извлечение информации из изображений.
- Анализ медицинских изображений и медицинская визуализация . Техника и процесс создания визуальных представлений внутренней части тела.
- Оптическое распознавание символов – Компьютерное распознавание визуального текста.
- Отслеживание видео — поиск объекта в каждом кадре видеопоследовательности.
- Кредитный скоринг — числовое выражение, представляющее кредитоспособность человека.
- Классификация документов . Процесс категоризации документов.
- лекарств Открытие и разработка – процесс вывода на рынок нового фармацевтического препарата.
- Токсикогеномика - раздел токсикологии и геномики.
- Количественная взаимосвязь структура-активность – прогнозирующая химическая модель.
- Геостатистика - раздел статистики, специализирующийся на наборах пространственных данных.
- Распознавание рукописного ввода - способность компьютера получать и интерпретировать понятный рукописный ввод.
- Интернета Поисковые системы
- Классификация микрочипов
- Распознавание образов – автоматическое распознавание закономерностей и закономерностей в данных.
- Рекомендательная система – система фильтрации информации для прогнозирования предпочтений пользователей.
- Распознавание речи – автоматическое преобразование разговорной речи в текст.
- Статистическая обработка естественного языка - область лингвистики и информатики.
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( январь 2010 г. ) |
См. также [ править ]
- Искусственный интеллект - Интеллект машин
- Бинарная классификация - классификация элементов набора на одну или две группы.
- Мультиклассовая классификация - проблема машинного обучения и статистической классификации.
- Вероятности членства в классе — задача машинного обучения.
- Правило классификации
- Обработка сложных терминов
- Матрица путаницы — макет таблицы для визуализации производительности; также называется матрицей ошибок
- Интеллектуальный анализ данных — процесс извлечения и обнаружения закономерностей в больших наборах данных.
- Хранилище данных – Централизованное хранилище знаний
- Нечеткая логика - система рассуждений о неопределенности.
- Поиск информации - получение информационных ресурсов, соответствующих информационной потребности.
- Список наборов данных для исследований в области машинного обучения
- Машинное обучение – изучение алгоритмов, которые автоматически улучшаются на основе опыта.
- Рекомендательная система – система фильтрации информации для прогнозирования предпочтений пользователей.
Ссылки [ править ]
- ^ Фишер, Р.А. (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники . 7 (2): 179–188. дои : 10.1111/j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
- ^ Фишер, Р.А. (1938). «Статистическое использование множественных измерений». Анналы евгеники . 8 (4): 376–386. дои : 10.1111/j.1469-1809.1938.tb02189.x . hdl : 2440/15232 .
- ^ Перейти обратно: а б Гнанадэсикан, Р. (1977) Методы статистического анализа данных многомерных наблюдений , Wiley. ISBN 0-471-30845-5 (стр. 83–86)
- ^ Рао, CR (1952) Расширенные статистические методы в многомерном анализе , Wiley. (Раздел 9в)
- ^ Андерсон, Т.В. (1958) Введение в многомерный статистический анализ , Wiley.
- ^ Биндер, Д.А. (1978). «Байесовский кластерный анализ». Биометрика . 65 : 31–38. дои : 10.1093/biomet/65.1.31 .
- ^ Биндер, Дэвид А. (1981). «Приближения к байесовским правилам кластеризации». Биометрика . 68 : 275–285. дои : 10.1093/biomet/68.1.275 .
- ^ Хар-Пелед, С. , Рот, Д., Зимак, Д. (2003) «Классификация ограничений для мультиклассовой классификации и ранжирования». В: Беккер Б., Трун С. , Обермайер К. (редакторы) Достижения в области нейронных систем обработки информации 15: Материалы конференции 2002 г. , MIT Press. ISBN 0-262-02550-7
- ^ «Экскурсия по 10 лучшим алгоритмам для новичков в машинном обучении» . Встроенный . 20 января 2018 г. Проверено 10 июня 2019 г.
- ^ Дэвид Хэнд (2012). «Оценка эффективности методов классификации». Международный статистический обзор . 80 (3): 400–414.
- ^ Питер Миллс (2011). «Эффективная статистическая классификация спутниковых измерений». Международный журнал дистанционного зондирования . 32 (21): 6109–6132. arXiv : 1202.2194 . Бибкод : 2011IJRS...32.6109M . дои : 10.1080/01431161.2010.507795 . S2CID 88518570 .