Jump to content

Классификация данных (бизнес-аналитика)

В аналитике бизнес - классификация данных — это «построение некоего метода вынесения суждений для продолжающейся последовательности случаев, при котором каждый новый случай должен быть отнесен к одному из заранее определенных классов». [1]

Классификация данных тесно связана с кластеризацией данных , но там, где кластеризация данных носит описательный характер , классификация данных является прогнозирующей . [2] [3] По сути, классификация данных состоит из использования переменных с известными значениями для прогнозирования неизвестных или будущих значений других переменных. Его можно использовать, например, в прямом маркетинге , обнаружении мошенничества в страховании или в медицинской диагностике . [3]

Первым шагом в классификации данных является кластеризация набора данных, используемого для обучения категорий, для создания желаемого количества категорий. каждой модель описательную . Затем к категориям применяется алгоритм, называемый классификатором, создавая для Эти модели затем можно использовать для категоризации новых элементов в созданной системе классификации. [2]

Эффективность

[ редактировать ]

По мнению Гольфарелли и Рицци, мерами эффективности классификатора являются: [2]

  • Точность прогнозирования : насколько хорошо он предсказывает категории новых наблюдений?
  • Скорость : какова вычислительная стоимость использования классификатора?
  • Надежность : насколько хорошо работают созданные модели, если качество данных низкое?
  • Масштабируемость : эффективно ли классификатор работает с большими объемами данных?
  • Интерпретируемость : понятны ли результаты пользователям?

Типичными примерами входных данных для классификации данных могут быть такие переменные, как демография , информация об образе жизни или экономическое поведение.

Проблемы

[ редактировать ]

Существует несколько проблем при работе с классификацией данных. В частности, всем, кто использует категории, например, клиентов или клиентов, необходимо выполнять моделирование в итеративном процессе. Это сделано для того, чтобы изменения в характеристиках групп клиентов не остались незамеченными, делая существующие категории устаревшими и устаревшими, и никто этого не заметит.

Это может иметь особое значение для страховых или банковских компаний, где обнаружение мошенничества чрезвычайно важно. Новые модели мошенничества могут остаться незамеченными, если не будут разработаны и внедрены методы наблюдения за этими изменениями и оповещения об изменении, исчезновении или появлении новых категорий.

  1. ^ Механна, Фади Самих Омар (2005). На пути к масштабируемой и эффективной методике классификации данных . Университет Луисвилля. п. в . Проверено 10 января 2024 г.
  2. ^ Jump up to: а б с Гольфарелли М. и Рицци С. (2009). Проектирование хранилища данных: современные принципы и методологии. МакГроу-Хилл Осберн. ISBN   0-07-161039-1
  3. ^ Jump up to: а б Кимбалл Р. и др. (2008). Набор инструментов для жизненного цикла хранилища данных. (2. Ред.) . Уайли. ISBN   0-471-25547-5
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f75d86396cacbe7d049f2d95934283e7__1704927780
URL1:https://arc.ask3.ru/arc/aa/f7/e7/f75d86396cacbe7d049f2d95934283e7.html
Заголовок, (Title) документа по адресу, URL1:
Data classification (business intelligence) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)