Классификация данных (бизнес-аналитика)
Эта статья нуждается в дополнительных цитатах для проверки . ( апрель 2017 г. ) |
В аналитике бизнес - классификация данных — это «построение некоего метода вынесения суждений для продолжающейся последовательности случаев, при котором каждый новый случай должен быть отнесен к одному из заранее определенных классов». [1]
Классификация данных тесно связана с кластеризацией данных , но там, где кластеризация данных носит описательный характер , классификация данных является прогнозирующей . [2] [3] По сути, классификация данных состоит из использования переменных с известными значениями для прогнозирования неизвестных или будущих значений других переменных. Его можно использовать, например, в прямом маркетинге , обнаружении мошенничества в страховании или в медицинской диагностике . [3]
Первым шагом в классификации данных является кластеризация набора данных, используемого для обучения категорий, для создания желаемого количества категорий. каждой модель описательную . Затем к категориям применяется алгоритм, называемый классификатором, создавая для Эти модели затем можно использовать для категоризации новых элементов в созданной системе классификации. [2]
Эффективность
[ редактировать ]По мнению Гольфарелли и Рицци, мерами эффективности классификатора являются: [2]
- Точность прогнозирования : насколько хорошо он предсказывает категории новых наблюдений?
- Скорость : какова вычислительная стоимость использования классификатора?
- Надежность : насколько хорошо работают созданные модели, если качество данных низкое?
- Масштабируемость : эффективно ли классификатор работает с большими объемами данных?
- Интерпретируемость : понятны ли результаты пользователям?
Типичными примерами входных данных для классификации данных могут быть такие переменные, как демография , информация об образе жизни или экономическое поведение.
Проблемы
[ редактировать ]Существует несколько проблем при работе с классификацией данных. В частности, всем, кто использует категории, например, клиентов или клиентов, необходимо выполнять моделирование в итеративном процессе. Это сделано для того, чтобы изменения в характеристиках групп клиентов не остались незамеченными, делая существующие категории устаревшими и устаревшими, и никто этого не заметит.
Это может иметь особое значение для страховых или банковских компаний, где обнаружение мошенничества чрезвычайно важно. Новые модели мошенничества могут остаться незамеченными, если не будут разработаны и внедрены методы наблюдения за этими изменениями и оповещения об изменении, исчезновении или появлении новых категорий.
Ссылки
[ редактировать ]- ^ Механна, Фади Самих Омар (2005). На пути к масштабируемой и эффективной методике классификации данных . Университет Луисвилля. п. в . Проверено 10 января 2024 г.
- ^ Jump up to: а б с Гольфарелли М. и Рицци С. (2009). Проектирование хранилища данных: современные принципы и методологии. МакГроу-Хилл Осберн. ISBN 0-07-161039-1
- ^ Jump up to: а б Кимбалл Р. и др. (2008). Набор инструментов для жизненного цикла хранилища данных. (2. Ред.) . Уайли. ISBN 0-471-25547-5