Классификация данных (бизнес-аналитика)

В аналитике бизнес - классификация данных — это «построение некоего метода вынесения суждений для продолжающейся последовательности случаев, при котором каждый новый случай должен быть отнесен к одному из заранее определенных классов». ^[1]

Классификация данных тесно связана с кластеризацией данных , но там, где кластеризация данных носит описательный характер , классификация данных является прогнозирующей . ^[2]^[3] По сути, классификация данных состоит из использования переменных с известными значениями для прогнозирования неизвестных или будущих значений других переменных. Его можно использовать, например, в прямом маркетинге , обнаружении мошенничества в страховании или в медицинской диагностике . ^[3]

Первым шагом в классификации данных является кластеризация набора данных, используемого для обучения категорий, для создания желаемого количества категорий. каждой модель описательную . Затем к категориям применяется алгоритм, называемый классификатором, создавая для Эти модели затем можно использовать для категоризации новых элементов в созданной системе классификации. ^[2]

Эффективность

По мнению Гольфарелли и Рицци, мерами эффективности классификатора являются: ^[2]

Точность прогнозирования : насколько хорошо он предсказывает категории новых наблюдений?
Скорость : какова вычислительная стоимость использования классификатора?
Надежность : насколько хорошо работают созданные модели, если качество данных низкое?
Масштабируемость : эффективно ли классификатор работает с большими объемами данных?
Интерпретируемость : понятны ли результаты пользователям?

Типичными примерами входных данных для классификации данных могут быть такие переменные, как демография , информация об образе жизни или экономическое поведение.

Проблемы

Существует несколько проблем при работе с классификацией данных. В частности, всем, кто использует категории, например, клиентов или клиентов, необходимо выполнять моделирование в итеративном процессе. Это сделано для того, чтобы изменения в характеристиках групп клиентов не остались незамеченными, делая существующие категории устаревшими и устаревшими, и никто этого не заметит.

Это может иметь особое значение для страховых или банковских компаний, где обнаружение мошенничества чрезвычайно важно. Новые модели мошенничества могут остаться незамеченными, если не будут разработаны и внедрены методы наблюдения за этими изменениями и оповещения об изменении, исчезновении или появлении новых категорий.

Ссылки

^ Механна, Фади Самих Омар (2005). На пути к масштабируемой и эффективной методике классификации данных . Университет Луисвилля. п. в . Проверено 10 января 2024 г.
^ Jump up to: ^а ^б ^с Гольфарелли М. и Рицци С. (2009). Проектирование хранилища данных: современные принципы и методологии. МакГроу-Хилл Осберн. ISBN 0-07-161039-1
^ Jump up to: ^а ^б Кимбалл Р. и др. (2008). Набор инструментов для жизненного цикла хранилища данных. (2. Ред.) . Уайли. ISBN 0-471-25547-5

[1] Механна, Фади Самих Омар (2005). На пути к масштабируемой и эффективной методике классификации данных . Университет Луисвилля. п. в . Проверено 10 января 2024 г.

[rizzi-2] Jump up to: ^а ^б ^с Гольфарелли М. и Рицци С. (2009). Проектирование хранилища данных: современные принципы и методологии. МакГроу-Хилл Осберн. ISBN 0-07-161039-1

[kimball-3] Jump up to: ^а ^б Кимбалл Р. и др. (2008). Набор инструментов для жизненного цикла хранилища данных. (2. Ред.) . Уайли. ISBN 0-471-25547-5

[1]

[2]

[3]