Jump to content

Межотраслевой стандартный процесс интеллектуального анализа данных

(Перенаправлено с CRISP-DM )

Межотраслевой стандартный процесс интеллектуального анализа данных , известный как CRISP-DM , [1] — это открытая стандартная модель процесса, описывающая общие подходы, используемые экспертами по интеллектуальному анализу данных . Это наиболее широко используемая аналитическая модель. [2]

В 2015 году IBM выпустила новую методологию под названием Analytics Solutions Unified Method for Data Mining/Predictive Analytics. [3] [4] (также известный как ASUM-DM), который совершенствует и расширяет CRISP-DM.

CRISP-DM был задуман в 1996 году и стал проектом Европейского Союза в рамках инициативы финансирования ESPRIT в 1997 году. Проект возглавляли пять компаний: Integral Solutions Ltd (ISL) , Teradata , Daimler AG , NCR Corporation и OHRA страховая компания . .

Этот основной консорциум привнес в проект различный опыт. ISL позже была приобретена и объединена с SPSS . Компьютерный гигант NCR Corporation создал хранилище данных Teradata и собственное программное обеспечение для интеллектуального анализа данных. У Daimler-Benz была значительная команда по анализу данных. OHRA начало изучать потенциальное использование интеллектуального анализа данных.

Первая версия методологии была представлена ​​на 4-м семинаре CRISP-DM SIG в Брюсселе в марте 1999 г. [5] и опубликовано в виде пошагового руководства по интеллектуальному анализу данных позже в том же году. [6]

В период с 2006 по 2008 год была сформирована группа SIG CRISP-DM 2.0, и велись дискуссии об обновлении модели процесса CRISP-DM. [7] Текущий статус этих усилий неизвестен. Однако оригинальный сайт Crisp-dm.org, упомянутый в обзорах, [8] [9] и веб-сайт CRISP-DM 2.0 SIG больше не активны. [7]

Хотя многие специалисты по интеллектуальному анализу данных, не принадлежащие IBM, используют CRISP-DM, [10] [11] [12] IBM — основная корпорация, которая в настоящее время использует модель процессов CRISP-DM. Он делает некоторые старые документы CRISP-DM доступными для загрузки и включает их в свой продукт SPSS Modeler . [6]

Согласно текущим исследованиям, CRISP-DM является наиболее широко используемой формой модели интеллектуального анализа данных из-за ее различных преимуществ, которые решили существующие проблемы в отраслях интеллектуального анализа данных. Некоторые из недостатков этой модели заключаются в том, что она не осуществляет деятельность по управлению проектами. Успех CRISP-DM во многом объясняется тем, что он не зависит от отрасли, инструментов и приложений. [13]

Основные этапы

[ редактировать ]
Схема процесса, показывающая взаимосвязь между различными этапами CRISP-DM

CRISP-DM разбивает процесс интеллектуального анализа данных на шесть основных этапов: [14]

  • Понимание бизнеса
  • Понимание данных
  • Подготовка данных
  • Моделирование
  • Оценка
  • Развертывание

Последовательность фаз не является строгой, и обычно требуется перемещение вперед и назад между различными фазами. Стрелки на схеме процесса указывают наиболее важные и частые зависимости между этапами. Внешний круг на диаграмме символизирует циклический характер самого интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уроки, извлеченные в ходе этого процесса, могут вызвать появление новых, часто более целенаправленных бизнес-вопросов, а последующие процессы интеллектуального анализа данных выиграют от опыта предыдущих.

Опросы и альтернативные структуры процессов

[ редактировать ]

Опросы, проведенные на том же сайте ( KDNuggets ) в 2002, 2004, 2007 и 2014 годах, показывают, что это была ведущая методология, использованная отраслевыми сборщиками данных, решившими ответить на опрос. [10] [11] [12] [15] Единственным другим подходом к интеллектуальному анализу данных, упомянутым в этих опросах, был SEMMA . Однако институт SAS четко заявляет, что SEMMA — это не методология интеллектуального анализа данных, а скорее «логическая организация набора функциональных инструментов SAS Enterprise Miner». В обзоре и критике моделей процессов интеллектуального анализа данных в 2009 году CRISP-DM был назван «фактическим стандартом для разработки проектов интеллектуального анализа данных и открытия знаний». [16] Другие обзоры CRISP-DM и моделей процессов интеллектуального анализа данных включают обзор Кургана и Мусилека 2006 года: [8] и сравнение CRISP-DM и SEMMA, проведенное Азеведо и Сантосом в 2008 году. [9] Попытки обновить методологию начались в 2006 году, но по состоянию на июнь 2015 года не привели к созданию новой версии, а «Группа специальных интересов» (SIG), ответственная за веб-сайт, давно исчезла (см. Историю CRISP-DM ). .

В 2024 году Harvard Business Review опубликовал обновленную структуру bizML, которая предназначена для большей актуальности для бизнес-персонала и предназначена для проектов машинного обучения в частности, а не для проектов в области аналитики , обработки данных или интеллектуального анализа данных в целом. [17]

  1. ^ Ширер К., Модель CRISP-DM: новый план интеллектуального анализа данных , J Data Warehousing (2000); 5:13—22.
  2. ^ Что ИТ-специалистам нужно знать о процессе интеллектуального анализа данных. Опубликовано Forbes, 29 июля 2015 г., получено 24 июня 2018 г.
  3. ^ Вы видели АСУМ-ДМ? , Джейсон Хаффар, 16 октября 2015 г., SPSS Predictive Analytics, IBM. Архивировано 8 марта 2016 г. на Wayback Machine.
  4. ^ Унифицированный метод Analytics Solutions — реализации с использованием принципов Agile. Опубликовано IBM, 1 марта 2016 г., получено 5 октября 2018 г.
  5. ^ Пит Чепмен (1999); Руководство пользователя CRISP-DM .
  6. ^ Jump up to: а б Пит Чепмен, Джулиан Клинтон, Рэнди Кербер, Томас Хабаза, Томас Рейнартц, Колин Ширер и Рюдигер Вирт (2000); Руководство пользователя CRISP-DM ( статья о семантическом ученом, включая ссылки на PDF-файлы ), ( версия PDF с графикой высокого разрешения. Архивировано 12 сентября 2020 г. на Wayback Machine ).
  7. ^ Jump up to: а б Колин Ширер (2006); Состоялся первый семинар по CRISP-DM 2.0
  8. ^ Jump up to: а б Лукаш Курган и Петр Мусилек (2006 г.); Обзор моделей процессов обнаружения знаний и интеллектуального анализа данных . Обзор инженерии знаний. Том 21, выпуск 1, март 2006 г., стр. 1–24, Cambridge University Press, Нью-Йорк, штат Нью-Йорк, США, doi: 10.1017/S0269888906000737.
  9. ^ Jump up to: а б Азеведо А. и Сантос МФ (2008 г.); KDD, SEMMA и CRISP-DM: параллельный обзор . В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.
  10. ^ Jump up to: а б Григорий Пятецкий-Шапиро (2002); Опрос по методологии KDnuggets
  11. ^ Jump up to: а б Григорий Пятецкий-Шапиро (2004 г.); Опрос по методологии KDnuggets
  12. ^ Jump up to: а б Григорий Пятецкий-Шапиро (2007); Опрос по методологии KDnuggets
  13. ^ Марискаль Г., Марбан О., Фернандес К. (2010). «Обзор моделей и методологий процессов интеллектуального анализа данных и обнаружения знаний». Обзор инженерии знаний . 25 (2): 137–166. дои : 10.1017/S0269888910000032 . S2CID   31359633 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  14. ^ Харпер, Гэвин; Стивен Д. Пикетт (август 2006 г.). «Методы анализа данных HTS» . Открытие наркотиков сегодня . 11 (15–16): 694–699. дои : 10.1016/j.drudis.2006.06.006 . ПМИД   16846796 .
  15. ^ Григорий Пятецкий-Шапиро (2014); Опрос по методологии KDnuggets
  16. ^ Мартинес-Плумед, Фернандо; Контрерас-Очандо, Лидия; Ферри, Сезар; Флах, Питер; Эрнандес-Оралло, Хосе; Кулл, Меэлис; Лашиш, Николя; Рамирес-Кинтана, Мария Хосе (19 сентября 2017 г.). «CASP-DM: Стандартный контекстно-зависимый процесс интеллектуального анализа данных». arXiv : 1709.09003 [ cs.DB ].
  17. ^ Эрик Сигел (2024); Доведение проектов машинного обучения от идеи до реализации
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ed8259b5c5de446c1fe0064d44fa5a46__1719063360
URL1:https://arc.ask3.ru/arc/aa/ed/46/ed8259b5c5de446c1fe0064d44fa5a46.html
Заголовок, (Title) документа по адресу, URL1:
Cross-industry standard process for data mining - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)