Классификация
Под классификацией обычно понимают отнесение объектов к определенным ранее существовавшим классам или категориям. Это отличает его от более раннего этапа, на котором сами классы создаются, часто посредством кластеризации , при которой схожие объекты группируются вместе. [1] Примеры включают тест на беременность, выявление спам-сообщений и принятие решения о том, выдавать ли кому-либо водительские права.
Классификация является частью многих различных видов деятельности и изучается с разных точек зрения, включая медицину , философию , право , антропологию , биологию , таксономию , познание , коммуникации , организацию знаний , психологию , статистику , машинное обучение , библиотечное дело и математику .
Помимо «категории», синонимы или почти синонимы слова «класс» включают «тип», «вид», «отряд», «концепцию», «таксон», «группу» и «отдел».
Значение слова «классификация» (и его синонимов) может принимать одно из нескольких связанных значений. Это может включать в себя как классификацию, так и создание классов, как, например, в «задаче категоризации страниц в Википедии»; эта общая деятельность указана в разделе «Таксономия» . Оно может относиться исключительно к базовой схеме классов (которая иначе может называться таксономией). Или это может относиться к метке, присвоенной объекту классификатором.
Двоичная и многоклассовая классификация
[ редактировать ]Методическую работу, направленную на повышение точности классификатора, принято разделять на случаи, когда классов ровно два ( бинарная классификация ), и случаи, когда классов три и более ( многоклассовая классификация ).
Оценка точности
[ редактировать ]В отличие от теории принятия решений , предполагается, что классификатор повторяет задачу классификации снова и снова. И в отличие от лотереи предполагается, что каждая классификация может быть либо правильной, либо неправильной; в теории измерений под классификацией понимают измерение по номинальной шкале. Таким образом можно попытаться измерить точность классификатора.
Измерение точности классификатора позволяет сделать выбор между двумя альтернативными классификаторами. Это важно как при разработке классификатора, так и при выборе того, какой классификатор использовать. Однако существует множество различных методов оценки точности классификатора и не существует общего метода определения того, какой метод следует использовать в каких обстоятельствах. В разных областях используются разные подходы, даже в бинарной классификации. В распознавании образов популярен коэффициент ошибок. Коэффициент Джини и статистика KS широко используются в индустрии кредитного скоринга. Чувствительность и специфичность широко используются в эпидемиологии и медицине. Точность и полнота широко используются при поиске информации. [2]
Точность классификатора во многом зависит от характеристик классифицируемых данных. Не существует единого классификатора, который лучше всего работал бы для всех заданных задач (феномен, который можно объяснить теоремой об отсутствии бесплатного обеда ).
См. также
[ редактировать ]- Класс (значения)
- Засекречено (значения)
- Классификатор (значения)
- Классификация данных (значения)
- Категоризация
- Классификационная теорема
- Народная систематика
- Нечеткая классификация
- Таксономия
Ссылки
[ редактировать ]- ^ https://www.theclassificationsociety.org/about/
- ^ Дэвид Хэнд (2012). «Оценка эффективности методов классификации». Международный статистический обзор . 80 (3): 400–414.
Внешние ссылки
[ редактировать ]- СМИ, связанные с классификацией, на Викискладе?