Статистическая классификация
Когда классификация выполняется с помощью компьютера, для разработки алгоритма обычно используются статистические методы.
Часто отдельные наблюдения анализируются с целью получения набора количественных свойств, известных как объясняющие переменные или характеристики . Эти свойства могут быть категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «малый»), целочисленными (например, количество появлений определенного слова в электронном письме ) или вещественное значение (например, измерение артериального давления ). Другие классификаторы работают путем сравнения наблюдений с предыдущими наблюдениями с помощью функции сходства или расстояния .
Алгоритм , реализующий классификацию, особенно в конкретной реализации, известен как классификатор . Термин «классификатор» иногда также относится к математической функции , реализуемой алгоритмом классификации, которая отображает входные данные в категорию.
Терминология в разных областях весьма разнообразна. В статистике , где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются объясняющими переменными (или независимыми переменными , регрессорами и т. д.), а прогнозируемые категории известны как результаты, которые считаются быть возможными значениями зависимой переменной . В машинном обучении наблюдения часто называют экземплярами , независимые переменные называются признаками (сгруппированными в вектор признаков ), а возможные категории, подлежащие прогнозированию, — классами . В других областях может использоваться другая терминология: например, в экологии сообществ термин «классификация» обычно относится к кластерному анализу .
Связь с другими проблемами [ править ]
Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в присвоении некоторого вида выходного значения заданному входному значению. Другими примерами являются регрессия , которая присваивает каждому входу выходной сигнал с действительным знаком; маркировка последовательности , которая присваивает класс каждому члену последовательности значений (например, маркировка части речи , которая присваивает часть речи каждому слову во входном предложении); синтаксический анализ , который присваивает дерево разбора входному предложению , описывающее синтаксическую структуру предложения; и т. д.
Распространенным подклассом классификации является вероятностная классификация . Алгоритмы такого типа используют статистический вывод , чтобы найти лучший класс для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «лучший» класс, вероятностные алгоритмы выводят вероятность того, что экземпляр является членом каждого из возможных классов. Лучший класс обычно выбирается как класс с наибольшей вероятностью. Однако такой алгоритм имеет множество преимуществ перед невероятностными классификаторами:
- Он может выводить значение достоверности, связанное с его выбором (как правило, классификатор, который может это делать, известен как классификатор, взвешенный по доверию ).
- Соответственно, он может воздержаться , если его уверенность в выборе какого-либо конкретного результата слишком низка.
- Благодаря генерируемым вероятностям вероятностные классификаторы можно более эффективно включать в более крупные задачи машинного обучения таким образом, чтобы частично или полностью избежать проблемы распространения ошибок .
Частые процедуры [ править ]
Ранние работы по статистической классификации были предприняты Фишером . [1] [2] в контексте задач с двумя группами, что приводит к линейной дискриминантной функции Фишера как правилу назначения группы новому наблюдению. [3] В этой ранней работе предполагалось, что значения данных внутри каждой из двух групп имеют многомерное нормальное распределение . Распространение этого же контекста на более чем две группы также рассматривалось с ограничением, согласно которому правило классификации должно быть линейным . [3] [4] Более поздняя работа над многомерным нормальным распределением позволила сделать классификатор нелинейным : [5] можно вывести несколько правил классификации на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение будет присвоено группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.
Байесовские процедуры [ править ]
В отличие от частотных процедур, процедуры байесовской классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. [6] Байесовские процедуры, как правило, требуют больших вычислительных затрат, и задолго до того, как были разработаны вычисления Монте-Карло с использованием цепей Маркова , были разработаны аппроксимации для правил байесовской кластеризации. [7]
Некоторые байесовские процедуры включают расчет вероятностей членства в группе : они обеспечивают более информативный результат, чем простое присвоение одной групповой метки каждому новому наблюдению.
и мультиклассовая классификация Бинарная
Классификацию можно рассматривать как две отдельные проблемы — бинарную классификацию и мультиклассовую классификацию . В бинарной классификации, более понятной задаче, задействованы только два класса, тогда как многоклассовая классификация предполагает отнесение объекта к одному из нескольких классов. [8] Поскольку многие методы классификации были разработаны специально для бинарной классификации, многоклассовая классификация часто требует совместного использования нескольких двоичных классификаторов.
Векторы признаков [ править ]
Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть предсказана с использованием вектора признаков отдельных измеримых свойств экземпляра. Каждое свойство называется признаком , также известным в статистике как объясняющая переменная (или независимая переменная , хотя признаки могут быть или не быть статистически независимыми ). Функции могут быть двоичными (например, «включено» или «выключено»); категориальный (например, «А», «В», «АВ» или «О» для группы крови ); порядковый номер (например, «большой», «средний» или «маленький»); целочисленное значение (например, количество вхождений определенного слова в электронное письмо); или вещественное значение (например, измерение артериального давления). Если экземпляр является изображением, значения признаков могут соответствовать пикселям изображения; если экземпляр представляет собой фрагмент текста, значения признаков могут быть частотами появления разных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы вещественные или целочисленные данные были дискретизированы на группы (например, меньше 5, от 5 до 10 или больше 10).
Линейные классификаторы [ править ]
Большое количество алгоритмов классификации можно сформулировать в виде линейной функции , которая присваивает балл каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Прогнозируемая категория — это категория с наивысшим баллом. Этот тип функции оценки известен как функция линейного прогнозирования и имеет следующую общую форму: где X i — вектор признаков, например i , β k — вектор весов, соответствующий категории k , а Score( X i , k ) — это оценка, связанная с присвоением экземпляра i категории k . В теории дискретного выбора , где экземпляры представляют людей, а категории представляют выбор, оценка считается полезностью, связанной с человеком i, выбирающим категорию k .
Алгоритмы с такой базовой настройкой известны как линейные классификаторы . Что их отличает, так это процедура определения (обучения) оптимальных весов/коэффициентов и способ интерпретации результатов.
Примеры таких алгоритмов включают в себя
- Логистическая регрессия - Статистическая модель для бинарной зависимой переменной.
- Полиномиальная логистическая регрессия - регрессия для более чем двух дискретных результатов.
- Пробит-регрессия – статистическая регрессия, при которой зависимая переменная может принимать только два значения.
- Алгоритм перцептрона
- Машина опорных векторов - набор методов контролируемого статистического обучения.
- Линейный дискриминантный анализ - метод, используемый в статистике, распознавании образов и других областях.
Алгоритмы [ править ]
Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. К наиболее часто используемым относятся: [9]
- Искусственные нейронные сети — вычислительная модель, используемая в машинном обучении, основанная на связанных иерархических функциях.
- Повышение (мета-алгоритм) — метод машинного обучения.
- Обучение дереву решений – алгоритм машинного обучения
- Случайный лес — метод ансамблевого машинного обучения на основе двоичного дерева поиска.
- Генетическое программирование - развитие компьютерных программ с использованием методов, аналогичных естественным генетическим процессам.
- Программирование экспрессии генов – эволюционный алгоритм
- Мультивыраженное программирование
- Линейное генетическое программирование - тип алгоритма генетического программирования.
- Оценка ядра — оконная функция.
- k-ближайший сосед — метод непараметрической классификации.
- Обучение векторному квантованию
- Линейный классификатор - Статистическая классификация в машинном обучении
- Линейный дискриминант Фишера — метод, используемый в статистике, распознавании образов и других областях.
- Логистическая регрессия - Статистическая модель для бинарной зависимой переменной.
- Наивный классификатор Байеса - алгоритм вероятностной классификации
- Персептрон - алгоритм контролируемого обучения бинарных классификаторов
- Квадратичный классификатор - используется в машинном обучении для разделения измерений двух или более классов объектов.
- Машина опорных векторов - набор методов контролируемого статистического обучения.
Выбор между различными возможными алгоритмами часто делается на основе количественной оценки точности .
Домены приложений [ править ]
Классификация имеет множество применений. В некоторых из них он используется в качестве процедуры интеллектуального анализа данных , тогда как в других проводится более детальное статистическое моделирование.
- Биологическая классификация - наука об идентификации, описании, определении и названии групп биологических организмов.
- Биометрические показатели — показатели, связанные с человеческими характеристиками. идентификации целей перенаправления.
- Компьютерное зрение – компьютеризированное извлечение информации из изображений.
- Анализ медицинских изображений и медицинская визуализация . Техника и процесс создания визуальных представлений внутренней части тела.
- Оптическое распознавание символов – Компьютерное распознавание визуального текста.
- Отслеживание видео — поиск объекта в каждом кадре видеопоследовательности.
- Кредитный скоринг — числовое выражение, представляющее кредитоспособность человека.
- Классификация документов . Процесс категоризации документов.
- лекарств Открытие и разработка – процесс вывода на рынок нового фармацевтического препарата.
- Токсикогеномика - раздел токсикологии и геномики.
- Количественная взаимосвязь структура-активность – прогнозирующая химическая модель.
- Геостатистика - раздел статистики, специализирующийся на наборах пространственных данных.
- Распознавание рукописного ввода - способность компьютера получать и интерпретировать понятный рукописный ввод.
- Интернета Поисковые системы
- Классификация микрочипов
- Распознавание образов – автоматическое распознавание закономерностей и закономерностей в данных.
- Рекомендательная система – система фильтрации информации для прогнозирования предпочтений пользователей.
- Распознавание речи – автоматическое преобразование разговорной речи в текст.
- Статистическая обработка естественного языка - область лингвистики и информатики.
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( январь 2010 г. ) |
См. также [ править ]
- Искусственный интеллект - Интеллект машин
- Бинарная классификация - классификация элементов набора на одну или две группы.
- Мультиклассовая классификация - проблема машинного обучения и статистической классификации.
- Вероятности членства в классе — задача машинного обучения.
- Правило классификации
- Обработка сложных терминов
- Матрица путаницы — макет таблицы для визуализации производительности; также называется матрицей ошибок
- Интеллектуальный анализ данных — процесс извлечения и обнаружения закономерностей в больших наборах данных.
- Хранилище данных – Централизованное хранилище знаний
- Нечеткая логика - система рассуждений о неопределенности.
- Поиск информации - получение информационных ресурсов, соответствующих информационной потребности.
- Список наборов данных для исследований в области машинного обучения
- Машинное обучение – изучение алгоритмов, которые автоматически улучшаются на основе опыта.
- Рекомендательная система – система фильтрации информации для прогнозирования предпочтений пользователей.
Ссылки [ править ]
- ^ Фишер, Р.А. (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники . 7 (2): 179–188. дои : 10.1111/j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
- ^ Фишер, Р.А. (1938). «Статистическое использование множественных измерений». Анналы евгеники . 8 (4): 376–386. дои : 10.1111/j.1469-1809.1938.tb02189.x . hdl : 2440/15232 .
- ^ Jump up to: Перейти обратно: а б Гнанадэсикан, Р. (1977) Методы статистического анализа данных многомерных наблюдений , Wiley. ISBN 0-471-30845-5 (стр. 83–86)
- ^ Рао, CR (1952) Расширенные статистические методы в многомерном анализе , Wiley. (Раздел 9в)
- ^ Андерсон, Т.В. (1958) Введение в многомерный статистический анализ , Wiley.
- ^ Биндер, Д.А. (1978). «Байесовский кластерный анализ». Биометрика . 65 : 31–38. дои : 10.1093/biomet/65.1.31 .
- ^ Биндер, Дэвид А. (1981). «Приближения к байесовским правилам кластеризации». Биометрика . 68 : 275–285. дои : 10.1093/biomet/68.1.275 .
- ^ Хар-Пелед, С. , Рот, Д., Зимак, Д. (2003) «Классификация ограничений для мультиклассовой классификации и ранжирования». В: Беккер Б., Трун С. , Обермайер К. (редакторы) Достижения в области нейронных систем обработки информации 15: Материалы конференции 2002 г. , MIT Press. ISBN 0-262-02550-7
- ^ «Экскурсия по 10 лучшим алгоритмам для новичков в машинном обучении» . Встроенный . 20 января 2018 г. Проверено 10 июня 2019 г.