Межотраслевой стандартный процесс интеллектуального анализа данных
![]() | Тон или стиль этой статьи могут не отражать энциклопедический тон , используемый в Википедии . ( Июль 2021 г. ) |
Межотраслевой стандартный процесс интеллектуального анализа данных , известный как CRISP-DM , [1] — это открытая стандартная модель процесса, описывающая общие подходы, используемые экспертами по интеллектуальному анализу данных . Это наиболее широко используемая аналитическая модель. [2]
В 2015 году IBM выпустила новую методологию под названием Analytics Solutions Unified Method for Data Mining/Predictive Analytics. [3] [4] (также известный как ASUM-DM), который совершенствует и расширяет CRISP-DM.
История [ править ]
CRISP-DM был задуман в 1996 году и стал проектом Европейского Союза в рамках инициативы финансирования ESPRIT в 1997 году. Проект возглавляли пять компаний: Integral Solutions Ltd (ISL) , Teradata , Daimler AG , NCR Corporation и OHRA страховая компания . .
Этот основной консорциум привнес в проект различный опыт. ISL позже была приобретена и объединена с SPSS . Компьютерный гигант NCR Corporation создал хранилище данных Teradata и собственное программное обеспечение для интеллектуального анализа данных. У Daimler-Benz была значительная команда по анализу данных. OHRA начало изучать потенциальное использование интеллектуального анализа данных.
Первая версия методологии была представлена на 4-м семинаре CRISP-DM SIG в Брюсселе в марте 1999 г. [5] и опубликовано в виде пошагового руководства по интеллектуальному анализу данных позже в том же году. [6]
В период с 2006 по 2008 год была сформирована группа SIG CRISP-DM 2.0, и велись дискуссии об обновлении модели процесса CRISP-DM. [7] Текущий статус этих усилий неизвестен. Однако оригинальный сайт Crisp-dm.org, упомянутый в обзорах, [8] [9] и веб-сайт CRISP-DM 2.0 SIG больше не активны. [7]
Хотя многие специалисты по интеллектуальному анализу данных, не принадлежащие IBM, используют CRISP-DM, [10] [11] [12] IBM — основная корпорация, которая в настоящее время использует модель процессов CRISP-DM. Он делает некоторые старые документы CRISP-DM доступными для загрузки и включает их в свой продукт SPSS Modeler . [6]
Согласно текущим исследованиям, CRISP-DM является наиболее широко используемой формой модели интеллектуального анализа данных из-за ее различных преимуществ, которые решили существующие проблемы в отраслях интеллектуального анализа данных. Некоторые из недостатков этой модели заключаются в том, что она не осуществляет деятельность по управлению проектами. Успех CRISP-DM во многом объясняется тем, что он не зависит от отрасли, инструментов и приложений. [13]
Основные этапы [ править ]

CRISP-DM разбивает процесс интеллектуального анализа данных на шесть основных этапов: [14]
- Понимание бизнеса
- Понимание данных
- Подготовка данных
- Моделирование
- Оценка
- Развертывание
Последовательность фаз не является строгой, и обычно требуется перемещение вперед и назад между различными фазами. Стрелки на схеме процесса указывают наиболее важные и частые зависимости между этапами. Внешний круг на диаграмме символизирует циклический характер самого интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уроки, извлеченные в ходе этого процесса, могут вызвать появление новых, часто более целенаправленных бизнес-вопросов, а последующие процессы интеллектуального анализа данных выиграют от опыта предыдущих.
процессов и альтернативные структуры Опросы
Опросы, проведенные на том же сайте ( KDNuggets ) в 2002, 2004, 2007 и 2014 годах, показывают, что это была ведущая методология, использованная отраслевыми сборщиками данных, решившими ответить на опрос. [10] [11] [12] [15] Единственным другим подходом к интеллектуальному анализу данных, упомянутым в этих опросах, был SEMMA . Однако институт SAS четко заявляет, что SEMMA — это не методология интеллектуального анализа данных, а скорее «логическая организация набора функциональных инструментов SAS Enterprise Miner». В обзоре и критике моделей процессов интеллектуального анализа данных в 2009 году CRISP-DM был назван «фактическим стандартом для разработки проектов интеллектуального анализа данных и открытия знаний». [16] Другие обзоры CRISP-DM и моделей процессов интеллектуального анализа данных включают обзор Кургана и Мусилека 2006 года: [8] и сравнение CRISP-DM и SEMMA, проведенное Азеведо и Сантосом в 2008 году. [9] Попытки обновить методологию начались в 2006 году, но по состоянию на июнь 2015 года не привели к созданию новой версии, а «Группа специальных интересов» (SIG), ответственная за веб-сайт, давно исчезла (см. Историю CRISP-DM ). .
В 2024 году Harvard Business Review опубликовал обновленную структуру bizML, которая предназначена для большей актуальности для бизнес-персонала и предназначена для проектов машинного обучения в частности, а не для проектов в области аналитики , обработки данных или интеллектуального анализа данных в целом. [17]
Ссылки [ править ]
- ^ Ширер К., Модель CRISP-DM: новый план интеллектуального анализа данных , J Data Warehousing (2000); 5:13—22.
- ^ Что ИТ-специалистам нужно знать о процессе интеллектуального анализа данных. Опубликовано Forbes, 29 июля 2015 г., получено 24 июня 2018 г.
- ^ Вы видели АСУМ-ДМ? , Джейсон Хаффар, 16 октября 2015 г., SPSS Predictive Analytics, IBM. Архивировано 8 марта 2016 г. на Wayback Machine.
- ^ Унифицированный метод Analytics Solutions — реализации с использованием принципов Agile. Опубликовано IBM, 1 марта 2016 г., получено 5 октября 2018 г.
- ^ Пит Чепмен (1999); Руководство пользователя CRISP-DM .
- ↑ Перейти обратно: Перейти обратно: а б Пит Чепмен, Джулиан Клинтон, Рэнди Кербер, Томас Хабаза, Томас Рейнартц, Колин Ширер и Рюдигер Вирт (2000); Руководство пользователя CRISP-DM ( статья о семантическом ученом, включая ссылки на PDF-файлы ), ( версия PDF с графикой высокого разрешения. Архивировано 12 сентября 2020 г. на Wayback Machine ).
- ↑ Перейти обратно: Перейти обратно: а б Колин Ширер (2006); Состоялся первый семинар по CRISP-DM 2.0
- ↑ Перейти обратно: Перейти обратно: а б Лукаш Курган и Петр Мусилек (2006 г.); Обзор моделей процессов обнаружения знаний и интеллектуального анализа данных . Обзор инженерии знаний. Том 21, выпуск 1, март 2006 г., стр. 1–24, Cambridge University Press, Нью-Йорк, штат Нью-Йорк, США, doi: 10.1017/S0269888906000737.
- ↑ Перейти обратно: Перейти обратно: а б Азеведо А. и Сантос МФ (2008 г.); KDD, SEMMA и CRISP-DM: параллельный обзор . В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.
- ↑ Перейти обратно: Перейти обратно: а б Григорий Пятецкий-Шапиро (2002); Опрос по методологии KDnuggets
- ↑ Перейти обратно: Перейти обратно: а б Григорий Пятецкий-Шапиро (2004 г.); Опрос по методологии KDnuggets
- ↑ Перейти обратно: Перейти обратно: а б Григорий Пятецкий-Шапиро (2007); Опрос по методологии KDnuggets
- ^ Марискаль Г., Марбан О., Фернандес К. (2010). «Обзор моделей и методологий процессов интеллектуального анализа данных и обнаружения знаний». Обзор инженерии знаний . 25 (2): 137–166. дои : 10.1017/S0269888910000032 . S2CID 31359633 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Харпер, Гэвин; Стивен Д. Пикетт (август 2006 г.). «Методы анализа данных HTS» . Открытие наркотиков сегодня . 11 (15–16): 694–699. дои : 10.1016/j.drudis.2006.06.006 . ПМИД 16846796 .
- ^ Григорий Пятецкий-Шапиро (2014); Опрос по методологии KDnuggets
- ^ Мартинес-Плумед, Фернандо; Контрерас-Очандо, Лидия; Ферри, Цезарь; Флах, Питер; Эрнандес-Оралло, Хосе; Кулл, Меэлис; Лашиш, Николас; Рамирес-Кинтана, Мария Хосе (19 сентября 2017 г.). «CASP-DM: Стандартный контекстно-зависимый процесс интеллектуального анализа данных». arXiv : 1709.09003 [ cs.DB ].
- ^ Эрик Сигел (2024); Доведение проектов машинного обучения от идеи до реализации