Интеллектуальный анализ данных
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Интеллектуальный анализ данных — это процесс извлечения и обнаружения закономерностей в больших наборах данных с использованием методов на стыке машинного обучения , статистики и систем баз данных . [1] Интеллектуальный анализ данных — это междисциплинарная область информатики и статистики, общая цель которой — извлечение информации (с помощью интеллектуальных методов) из набора данных и преобразование этой информации в понятную структуру для дальнейшего использования. [1] [2] [3] [4] Интеллектуальный анализ данных — это этап анализа процесса « обнаружения знаний в базах данных » или KDD. [5] Помимо этапа необработанного анализа, он также включает в себя управления базами данных и данными аспекты , предварительную обработку данных , соображения модели и вывода , метрики интересности, соображения сложности , постобработку обнаруженных структур, визуализацию и онлайн-обновление . [1]
Термин «интеллектуальный анализ данных» является неправильным, поскольку целью является извлечение закономерностей и знаний из больших объемов данных, а не извлечение ( добыча ) самих данных . [6] Это тоже модное слово [7] и часто применяется к любой форме крупномасштабной обработки данных или информации ( сбор , извлечение , хранение , анализ и статистика), а также к любому применению компьютерной системы поддержки принятия решений , включая искусственный интеллект (например, машинное обучение) и бизнес-аналитику. . Часто более подходящими являются более общие термины ( крупномасштабный ) анализ данных и аналитика — или, если говорить о реальных методах, искусственный интеллект и машинное обучение .
Фактической задачей интеллектуального анализа данных является полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных закономерностей, таких как группы записей данных ( кластерный анализ ), необычные записи ( обнаружение аномалий ) и зависимости ( интеллектуальный анализ правил ассоциации , последовательный анализ шаблонов ). Обычно это предполагает использование методов работы с базами данных, таких как пространственные индексы . Эти шаблоны затем можно рассматривать как своего рода сводку входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и прогнозной аналитике . Например, на этапе интеллектуального анализа данных можно идентифицировать несколько групп в данных, которые затем можно использовать для получения более точных результатов прогнозирования с помощью системы поддержки принятия решений . Ни сбор данных, их подготовка, ни интерпретация результатов и отчетность не являются частью этапа интеллектуального анализа данных, хотя они входят в общий процесс KDD в качестве дополнительных этапов.
Разница между анализом данных и интеллектуальным анализом данных заключается в том, что анализ данных используется для проверки моделей и гипотез на наборе данных, например, для анализа эффективности маркетинговой кампании , независимо от объема данных. Напротив, интеллектуальный анализ данных использует машинное обучение и статистические модели для выявления тайных или скрытых закономерностей в большом объеме данных. [8]
Сопутствующие термины «выемка данных» , «вылов данных » и «отслеживание данных» относятся к использованию методов интеллектуального анализа данных для выборки частей более крупного набора данных о населении, которые (или могут быть) слишком малы для того, чтобы можно было сделать надежные статистические выводы о достоверности каких-либо данных. обнаружены закономерности. Однако эти методы можно использовать при создании новых гипотез для проверки на более крупных совокупностях данных.
Этимология [ править ]
В 1960-х годах статистики и экономисты использовали такие термины, как вылов данных или сбор данных , чтобы обозначить то, что они считали плохой практикой анализа данных без априорной гипотезы. Термин «интеллектуальный анализ данных» столь же критично использовал экономист Майкл Ловелл в статье, опубликованной в « Обзоре экономических исследований» в 1983 году. [9] [10] Ловелл указывает, что эта практика «маскируется под различными псевдонимами, от «экспериментирования» (позитивный) до «рыбалки» или «слежки» (негативный).
Термин «интеллектуальный анализ данных» появился примерно в 1990 году в сообществе баз данных и имел в целом положительный оттенок. В течение короткого времени в 1980-х годах использовалась фраза «интеллектуальный анализ баз данных»™, но поскольку она была зарегистрирована как торговая марка компании HNC, базирующейся в Сан-Диего , для продвижения своей рабочей станции для интеллектуального анализа данных; [11] в результате исследователи обратились к интеллектуальному анализу данных . Другие используемые термины включают археологию данных , сбор информации , обнаружение информации , извлечение знаний и т. д. Грегори Пятецкий-Шапиро придумал термин «обнаружение знаний в базах данных» для первого семинара по той же теме (KDD-1989) , и этот термин стал более популярным. в сообществах искусственного интеллекта и машинного обучения . Однако термин интеллектуальный анализ данных стал более популярным в деловых кругах и прессе. [12] В настоящее время термины интеллектуальный анализ данных и обнаружение знаний используются как взаимозаменяемые.
Предыстория [ править ]
Ручное извлечение закономерностей из данных происходило на протяжении веков. Ранние методы выявления закономерностей в данных включают теорему Байеса (1700-е годы) и регрессионный анализ (1800-е годы). [13] Распространение, повсеместное распространение и растущая мощь компьютерных технологий резко расширили возможности сбора, хранения и манипулирования данными. По мере увеличения размера и сложности наборов данных прямой «практический» анализ данных все чаще дополняется косвенной автоматизированной обработкой данных, чему способствуют другие открытия в области информатики, особенно в области машинного обучения, такие как нейронные сети . кластерный анализ , генетические алгоритмы (1950-е годы), деревья решений и правила принятия решений (1960-е годы) и машины опорных векторов (1990-е годы). Интеллектуальный анализ данных — это процесс применения этих методов с целью выявления скрытых закономерностей. [14] в больших наборах данных. Он устраняет разрыв между прикладной статистикой и искусственным интеллектом (который обычно обеспечивает математическую основу) для управления базами данных , используя способ хранения и индексации данных в базах данных для более эффективного выполнения реальных алгоритмов обучения и обнаружения, позволяя применять такие методы для все большие наборы данных.
Процесс [ править ]
Процесс обнаружения знаний в базах данных (KDD) обычно определяется этапами:
- Выбор
- Предварительная обработка
- Трансформация
- Интеллектуальный анализ данных
- Интерпретация/оценка. [5]
Однако он существует во многих вариациях на эту тему, например, в Межотраслевом стандартном процессе интеллектуального анализа данных (CRISP-DM), который определяет шесть этапов:
- Понимание бизнеса
- Понимание данных
- Подготовка данных
- Моделирование
- Оценка
- Развертывание
или упрощенный процесс, такой как (1) предварительная обработка, (2) интеллектуальный анализ данных и (3) проверка результатов.
Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой майнерами данных. [15] [16] [17] [18]
Единственным другим стандартом интеллектуального анализа данных, упомянутым в этих опросах, был SEMMA . Однако об использовании CRISP-DM сообщили в 3–4 раза больше людей. Несколько групп исследователей опубликовали обзоры моделей процессов интеллектуального анализа данных. [19] а Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году. [20]
Предварительная обработка [ править ]
Прежде чем использовать алгоритмы интеллектуального анализа данных, необходимо собрать целевой набор данных. Поскольку интеллектуальный анализ данных может выявить только закономерности, действительно присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти закономерности, оставаясь при этом достаточно кратким, чтобы его можно было проанализировать в течение приемлемого срока. Распространенным источником данных является витрина данных или хранилище данных . Предварительная обработка необходима для анализа многомерных наборов данных перед интеллектуальным анализом данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум , и наблюдения с отсутствующими данными .
Интеллектуальный анализ данных [ править ]
Интеллектуальный анализ данных включает в себя шесть распространенных классов задач: [5]
- Обнаружение аномалий (обнаружение выбросов/изменений/отклонений). Идентификация необычных записей данных, которые могут представлять интерес, или ошибок данных, которые требуют дальнейшего изучения из-за того, что они выходят за пределы стандартного диапазона.
- Изучение правил ассоциации (моделирование зависимостей). Поиск связей между переменными. Например, супермаркет может собирать данные о покупательских привычках клиентов. Используя изучение ассоциативных правил, супермаркет может определить, какие продукты часто покупаются вместе, и использовать эту информацию в маркетинговых целях. Иногда это называют анализом рыночной корзины.
- Кластеризация – это задача обнаружения в данных групп и структур, которые так или иначе «похожи», без использования известных структур в данных.
- Классификация – это задача обобщения известной структуры для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронное письмо как «законное» или как «спам».
- Регрессия – попытка найти функцию, которая моделирует данные с наименьшей ошибкой, то есть для оценки связей между данными или наборами данных.
- Суммирование – обеспечение более компактного представления набора данных, включая визуализацию и создание отчетов.
Проверка результатов [ править ]
Интеллектуальный анализ данных может быть использован непреднамеренно неправильно, что приведет к получению результатов, которые кажутся значительными, но на самом деле не предсказывают будущее поведение и не могут быть воспроизведены на новой выборке данных, поэтому от них мало пользы. Иногда это вызвано исследованием слишком большого количества гипотез и невыполнением надлежащей статистической проверки гипотез . Простая версия этой проблемы в машинном обучении известна как переобучение , но одна и та же проблема может возникнуть на разных этапах процесса, и поэтому разделения обучения и тестирования — если оно вообще применимо — может быть недостаточно, чтобы предотвратить это. [21]
Последним шагом извлечения знаний из данных является проверка того, что закономерности, созданные алгоритмами интеллектуального анализа данных, встречаются в более широком наборе данных. Не все закономерности, найденные алгоритмами, обязательно действительны. Алгоритмы интеллектуального анализа данных обычно находят в обучающем наборе шаблоны, которых нет в общем наборе данных. Это называется переоснащением . Чтобы преодолеть эту проблему, при оценке используется тестовый набор данных, на котором алгоритм интеллектуального анализа данных не обучался. Изученные шаблоны применяются к этому набору тестов, и полученный результат сравнивается с желаемым результатом. Например, алгоритм интеллектуального анализа данных, пытающийся отличить «спам» от «законных» электронных писем, будет обучаться на обучающем наборе образцов электронных писем. После обучения изученные шаблоны будут применены к тестовому набору электронных писем, на которых они не были обучены. Затем точность шаблонов можно измерить по тому, сколько электронных писем они правильно классифицируют. Для оценки алгоритма можно использовать несколько статистических методов, например: ROC-кривые .
Если изученные закономерности не соответствуют желаемым стандартам, необходимо переоценить и изменить этапы предварительной обработки и интеллектуального анализа данных. Если изученные закономерности действительно соответствуют желаемым стандартам, то последним шагом является интерпретация изученных закономерностей и превращение их в знания.
Исследования [ править ]
Ведущей профессиональной организацией в этой области является ) Ассоциации вычислительной техники Специальная группа по интересам (SIG) по обнаружению знаний и интеллектуальному анализу данных ( SIGKDD (ACM) . [22] [23] С 1989 года ACM SIG проводит ежегодную международную конференцию и публикует ее материалы. [24] а с 1999 года он издает выходящий два раза в год академический журнал под названием «SIGKDD Explorations». [25]
Конференции по информатике, посвященные интеллектуальному анализу данных, включают:
- Конференция CIKM - Конференция ACM по управлению информацией и знаниями
- Европейская конференция по машинному обучению, принципам и практике обнаружения знаний в базах данных
- Конференция KDD - Конференция ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных
Темы интеллектуального анализа данных также присутствуют на многих конференциях по управлению данными/базам данных, таких как конференция ICDE, конференция SIGMOD и международная конференция по очень большим базам данных .
Стандарты [ править ]
Предпринимались некоторые попытки определить стандарты процесса интеллектуального анализа данных, например, Европейский межотраслевой стандарт процесса интеллектуального анализа данных 1999 года (CRISP-DM 1.0) и стандарт интеллектуального анализа данных Java 2004 года (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) велась активно в 2006 году, но с тех пор застопорилась. JDM 2.0 был отозван, так и не дойдя до окончательного проекта.
Для обмена извлеченными моделями, в частности для использования в прогнозной аналитике , ключевым стандартом является язык разметки прогнозных моделей (PMML), который представляет собой язык на основе XML , разработанный Data Mining Group (DMG) и поддерживаемый многими в качестве формата обмена. приложения для интеллектуального анализа данных. Как следует из названия, он охватывает только модели прогнозирования — конкретную задачу интеллектуального анализа данных, имеющую большое значение для бизнес-приложений. Однако расширения для охвата (например) кластеризации подпространств были предложены независимо от DMG. [26]
Известные виды использования [ править ]
Интеллектуальный анализ данных используется везде, где есть цифровые данные. Яркие примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке, финансах, строительстве и надзоре.
Проблемы этика и конфиденциальности
Хотя сам термин «интеллектуальный анализ данных» может не иметь этических последствий, он часто ассоциируется со сбором информации о поведении пользователей (этическом и ином). [27]
Способы использования интеллектуального анализа данных в некоторых случаях и контекстах могут вызывать вопросы относительно конфиденциальности , законности и этики . [28] В частности, сбор данных правительственных или коммерческих наборов данных для целей национальной безопасности или правоохранительных органов , например, в программе Total Information Awareness Program или в ADVISE , вызывает обеспокоенность по поводу конфиденциальности. [29] [30]
Интеллектуальный анализ данных требует подготовки данных, которая раскрывает информацию или закономерности, которые ставят под угрозу обязательства по конфиденциальности и неприкосновенности частной жизни . Распространенным способом достижения этой цели является агрегирование данных . Агрегация данных предполагает объединение данных (возможно, из различных источников) таким образом, чтобы облегчить анализ (но это также может сделать идентификацию частных данных индивидуального уровня выводимыми или иным образом очевидными). [31] Это не интеллектуальный анализ данных как таковой , а результат подготовки данных до и для целей анализа. Угроза конфиденциальности человека возникает, когда данные после компиляции позволяют сборщику данных или любому, кто имеет доступ к вновь скомпилированному набору данных, иметь возможность идентифицировать конкретных людей, особенно если данные изначально были анонимными. [32]
Рекомендуется [ по мнению кого? ] необходимо знать следующее : Прежде чем собирать данные, [31]
- Цель сбора данных и любые (известные) проекты интеллектуального анализа данных.
- Как данные будут использоваться.
- Кто сможет добывать данные и использовать их и их производные.
- Статус безопасности доступа к данным.
- Как можно обновить собранные данные.
Данные также могут быть изменены таким образом, чтобы стать анонимными, чтобы людей было трудно идентифицировать. [31] Однако даже « анонимизированные » наборы данных потенциально могут содержать достаточно информации, позволяющей идентифицировать отдельных лиц, как это произошло, когда журналистам удалось найти нескольких человек на основе набора историй поиска, которые были случайно опубликованы AOL. [33]
Непреднамеренное раскрытие личной информации , ведущей к поставщику, нарушает правила добросовестной обработки информации. Эта неосмотрительность может привести к финансовым,причинение эмоционального или телесного вреда указанному лицу. В одном случае нарушения конфиденциальности покровители Walgreens в 2011 году подали иск против компании за продажуинформацию о предписаниях компаниям по сбору данных, которые, в свою очередь, предоставили данныефармацевтическим компаниям. [34]
Ситуация в Европе [ править ]
В Европе действуют довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Однако «Принципы безопасной гавани» США и ЕС , разработанные в период с 1998 по 2000 год, в настоящее время фактически подвергают европейских пользователей эксплуатации конфиденциальности со стороны американских компаний. В результате Эдварда Сноудена усилились раскрытия информации о глобальной слежке дискуссии об отмене этого соглашения, поскольку, в частности, данные будут полностью раскрыты Агентству национальной безопасности , а попытки достичь соглашения с Соединенными Штатами потерпели неудачу. [35]
В Соединенном Королевстве, в частности, были случаи, когда корпорации использовали интеллектуальный анализ данных как способ нацелиться на определенные группы клиентов, вынуждая их платить несправедливо высокие цены. Эти группы, как правило, представляют собой людей с более низким социально-экономическим статусом, которые не понимают, как их можно эксплуатировать на цифровых рынках. [36]
Ситуация в США [ править ]
В Соединенных Штатах проблемы конфиденциальности были решены Конгрессом США посредством принятия нормативного контроля, такого как Закон о переносимости и подотчетности медицинского страхования (HIPAA). HIPAA требует, чтобы люди давали «информированное согласие» в отношении предоставляемой ими информации и ее предполагаемого использования в настоящем и будущем. Согласно статье в журнале Biotech Business Week , «на практике HIPAA не может предложить большей защиты, чем давние правила в сфере исследований», — говорится в AAHC. Что еще более важно, цель этого правила — защита посредством информированного согласия. приблизиться к уровню непостижимости для обычных людей». [37] Это подчеркивает необходимость анонимности данных в практиках агрегирования и анализа данных.
Законодательство США о конфиденциальности информации, такое как HIPAA и Закон о правах семьи на образование и конфиденциальность (FERPA), применяется только к конкретным областям, которые затрагивает каждый такой закон. Использование интеллектуального анализа данных большинством предприятий в США не контролируется никаким законодательством.
Закон об авторском праве [ править ]
Ситуация в Европе [ править ]
В соответствии с европейскими законами о базах данных об авторских правах , добыча произведений, защищенных авторскими правами (например, веб-майнинг ) без разрешения владельца авторских прав незаконна. Если в Европе база данных представляет собой чистые данные, авторские права могут отсутствовать, но права на базу данных могут существовать, поэтому интеллектуальный анализ данных становится предметом интеллектуальной собственности прав владельцев , которые защищены Директивой о базах данных . По рекомендации Харгривза это привело к тому, что правительство Великобритании в 2014 году внесло поправки в свой закон об авторском праве, разрешив добычу контента в качестве ограничения и исключения . [38] Великобритания стала второй страной в мире, сделавшей это после Японии, которая в 2009 году ввела исключение для интеллектуального анализа данных. Однако из-за ограничений Директивы об информационном обществе (2001 г.) исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон Великобритании об авторском праве также не позволяет отменять это положение договорными условиями.С 2020 года Швейцария также регулирует интеллектуальный анализ данных, разрешая его использование в исследовательской сфере при определенных условиях, предусмотренных ст. 24d Швейцарского закона об авторском праве. Новая статья вступила в силу 1 апреля 2020 года. [39]
Европейская комиссия способствовала обсуждению заинтересованных сторон по интеллектуальному анализу текста и данных в 2013 году под названием «Лицензии для Европы». [40] Сосредоточение внимания на решении этого юридического вопроса, такого как лицензирование, а не ограничения и исключения, привело к тому, что представители университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинули диалог с заинтересованными сторонами в мае 2013 года. [41]
Ситуация в США [ править ]
Закон США об авторском праве и, в частности, его положения о добросовестном использовании , поддерживают законность добычи контента в Америке и других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея. Поскольку интеллектуальный анализ контента является преобразующим, то есть не заменяет оригинальную работу, он считается законным при добросовестном использовании. Например, в рамках мирового соглашения по Google Book председательствующий судья постановил, что проект Google по оцифровке книг, защищенных авторскими правами, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки, — одним из которых является интеллектуальный анализ текста и данных. [42]
Программное обеспечение [ править ]
Бесплатное программное обеспечение и приложения для анализа данных с исходным открытым кодом
Следующие приложения доступны по бесплатным лицензиям или лицензиям с открытым исходным кодом. Также доступен публичный доступ к исходному коду приложения.
- Carrot2 : структура кластеризации текста и результатов поиска.
- Chemicalize.org : программа для анализа химических структур и поисковая система в Интернете.
- ELKI : университетский исследовательский проект с расширенным кластерным анализом и методами обнаружения выбросов, написанный на языке Java .
- GATE : инструмент обработки естественного языка и языковой инженерии.
- KNIME : Konstanz Information Miner, удобная и комплексная платформа для анализа данных.
- Массовый онлайн-анализ (MOA) : анализ больших потоков данных в реальном времени с помощью инструмента смещения концепций на языке программирования Java .
- MEPX : кроссплатформенный инструмент для решения задач регрессии и классификации, основанный на варианте генетического программирования.
- mlpack : набор готовых к использованию алгоритмов машинного обучения, написанных на языке C++ .
- NLTK ( Набор инструментов естественного языка ): набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языка Python .
- OpenNN : открытая нейронных сетей . библиотека
- Orange на основе компонентов, : пакет программного обеспечения для анализа данных и машинного обучения написанный на языке Python .
- PSPP : программное обеспечение для интеллектуального анализа данных и статистики в рамках проекта GNU, аналогичное SPSS.
- R : язык программирования и программная среда для статистических вычислений, интеллектуального анализа данных и графики. Это часть проекта GNU .
- scikit-learn : библиотека машинного обучения с открытым исходным кодом для языка программирования Python;
- Torch : с открытым исходным кодом библиотека глубокого обучения для языка программирования Lua и среды научных вычислений с широкой поддержкой алгоритмов машинного обучения .
- UIMA : UIMA (архитектура управления неструктурированной информацией) — это компонентная структура для анализа неструктурированного контента, такого как текст, аудио и видео, первоначально разработанная IBM.
- Weka : набор программных приложений для машинного обучения, написанных на языке программирования Java .
программное обеспечение и приложения для интеллектуального анализа Запатентованное данных
Следующие приложения доступны по проприетарным лицензиям.
- Angoss KnowledgeSTUDIO: инструмент интеллектуального анализа данных
- LIONsolver : интегрированное программное приложение для интеллектуального анализа данных, бизнес-аналитики и моделирования, реализующее подход обучения и интеллектуальной оптимизации (LION).
- PolyAnalyst : программное обеспечение для анализа данных и текста от Megaputer Intelligence.
- Microsoft Analysis Services : программное обеспечение для интеллектуального анализа данных, предоставляемое Microsoft .
- NetOwl : набор многоязычных продуктов для анализа текста и объектов, которые позволяют осуществлять интеллектуальный анализ данных.
- Oracle Data Mining : программное обеспечение для интеллектуального анализа данных от корпорации Oracle .
- PSeven : платформа для автоматизации инженерного моделирования и анализа, междисциплинарной оптимизации и интеллектуального анализа данных, предоставляемая DATADVANCE .
- Qlucore Omics Explorer: программное обеспечение для интеллектуального анализа данных.
- RapidMiner : среда для экспериментов по машинному обучению и интеллектуальному анализу данных.
- SAS Enterprise Miner : программное обеспечение для интеллектуального анализа данных, предоставленное Институтом SAS .
- SPSS Modeler : программное обеспечение для интеллектуального анализа данных, предоставленное IBM .
- STATISTICA Data Miner: программное обеспечение для интеллектуального анализа данных, предоставленное StatSoft .
- Танагра : программное обеспечение для анализа данных, ориентированное на визуализацию, в том числе для обучения.
- Vertica : программное обеспечение для интеллектуального анализа данных, предоставленное Hewlett-Packard .
- Google Cloud Platform : автоматизированные пользовательские модели машинного обучения, управляемые Google .
- Amazon SageMaker : управляемый сервис Amazon для создания и производства пользовательских моделей машинного обучения.
См. также [ править ]
- Методы
- Агент майнинга
- Обнаружение аномалий/выбросов/изменений
- Изучение правил ассоциации
- Байесовские сети
- Классификация
- Кластерный анализ
- Деревья решений
- Ансамблевое обучение
- Факторный анализ
- Генетические алгоритмы
- Намеренный майнинг
- Система классификаторов обучения
- Мультилинейное обучение подпространству
- Нейронные сети
- Регрессионный анализ
- Последовательный майнинг
- Структурированный анализ данных
- Машины опорных векторов
- Анализ текста
- Анализ временных рядов
- Домены приложений
- Аналитика
- Информатика поведения
- Большие данные
- Биоинформатика
- Бизнес-аналитика
- Анализ данных
- Хранилище данных
- Система поддержки принятия решений
- Интеллектуальный анализ данных на основе домена
- Открытие лекарств
- Исследовательский анализ данных
- Прогнозная аналитика
- Данные в реальном времени
- Веб-майнинг
- Примеры применения
- Связанные темы
Для получения дополнительной информации об извлечении информации из данных (в отличие от анализа данных) см.:
- Другие ресурсы
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с «Учебная программа по интеллектуальному анализу данных» . АСМ СИГКДД . 30 апреля 2006 г. Архивировано из оригинала 14 октября 2013 г. Проверено 27 января 2014 г.
- ^ Клифтон, Кристофер (2010). «Британская энциклопедия: определение интеллектуального анализа данных» . Архивировано из оригинала 5 февраля 2011 г. Проверено 9 декабря 2010 г.
- ^ Хасти, Тревор ; Тибширани, Роберт ; Фридман, Джером (2009). «Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование» . Архивировано из оригинала 10 ноября 2009 г. Проверено 7 августа 2012 г.
- ^ Хан, Джайвэй ; Камбер, Мишлин; Пей, Цзянь (2011). Интеллектуальный анализ данных: концепции и методы (3-е изд.). Морган Кауфман. ISBN 978-0-12-381479-1 .
- ↑ Перейти обратно: Перейти обратно: а б с Файяд, Усама ; Пятецкий-Шапиро, Григорий ; Смит, Падрайк (1996). «От интеллектуального анализа данных к обнаружению знаний в базах данных» (PDF) . Архивировано (PDF) из оригинала 9 октября 2022 г. Проверено 17 декабря 2008 г.
- ^ Хан, Цзявэй ; Камбер, Мишлин (2001). Интеллектуальный анализ данных: концепции и методы . Морган Кауфманн . п. 5. ISBN 978-1-55860-489-6 .
Таким образом, интеллектуальный анализ данных следовало бы назвать «извлечение знаний из данных», что, к сожалению, несколько длинное.
- ^ Осенняя конференция OKAIRP 2005 г., Университет штата Аризона. Архивировано 1 февраля 2014 г. в Wayback Machine.
- ^ Олсон, DL (2007). Интеллектуальный анализ данных в бизнес-услугах. Сервисное дело , 1 (3), 181–193. два : 10.1007/s11628-006-0014-7
- ^ Ловелл, Майкл К. (1983). «Интеллектуальный анализ данных». Обзор экономики и статистики . 65 (1): 1–12. дои : 10.2307/1924403 . JSTOR 1924403 .
- ^ Чаремза, Войцех В.; Мертвец, Дерек Ф. (1992). «Интеллектуальный анализ данных». Новые направления в эконометрической практике . Олдершот: Эдвард Элгар. стр. 14–31. ISBN 1-85278-461-Х .
- ^ Мена, Хесус (2011). Криминалистика машинного обучения для правоохранительных органов, безопасности и разведки . Бока-Ратон, Флорида: CRC Press (Taylor & Francisco Group). ISBN 978-1-4398-6069-4 .
- ^ Пятецкий-Шапиро, Григорий ; Паркер, Гэри (2011). «Урок: интеллектуальный анализ данных и обнаружение знаний: введение» . Введение в интеллектуальный анализ данных . КД Наггетс. Архивировано из оригинала 30 августа 2012 года . Проверено 30 августа 2012 г.
- ^ Коэнен, Франс (7 февраля 2011 г.). «Интеллектуальный анализ данных: прошлое, настоящее и будущее» . Обзор инженерии знаний . 26 (1): 25–29. дои : 10.1017/S0269888910000378 . ISSN 0269-8889 . S2CID 6487637 . Архивировано из оригинала 2 июля 2023 г. Проверено 4 сентября 2021 г.
- ^ Кантарджич, Мехмед (2003). Интеллектуальный анализ данных: концепции, модели, методы и алгоритмы . Джон Уайли и сыновья. ISBN 978-0-471-22852-3 . OCLC 50055336 .
- ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2002 г.)?» . КДнаггетс . 2002. Архивировано из оригинала 16 января 2017 года . Проверено 29 декабря 2023 г.
- ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2004 г.)?» . КДнаггетс . 2004. Архивировано из оригинала 8 февраля 2017 года . Проверено 29 декабря 2023 г.
- ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2007 г.)?» . КДнаггетс . 2007. Архивировано из оригинала 17 ноября 2012 года . Проверено 29 декабря 2023 г.
- ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2014 г.)?» . КДнаггетс . 2014. Архивировано из оригинала 1 августа 2016 года . Проверено 29 декабря 2023 г.
- ^ Лукаш Курган и Петр Мусилек: «Обзор моделей процессов обнаружения знаний и интеллектуального анализа данных». Архивировано 26 мая 2013 г. в Wayback Machine . Обзор инженерии знаний . Том 21, выпуск 1, март 2006 г., стр. 1–24, Cambridge University Press, Нью-Йорк, дои : 10.1017/S0269888906000737
- ^ Азеведо, А. и Сантос, MF KDD, SEMMA и CRISP-DM: параллельный обзор. Архивировано 9 января 2013 г. в Wayback Machine . В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.
- ^ Хокинс, Дуглас М. (2004). «Проблема переобучения». Журнал химической информации и компьютерных наук . 44 (1): 1–12. дои : 10.1021/ci0342472 . ПМИД 14741005 . S2CID 12440383 .
- ^ «Microsoft Academic Search: Лучшие конференции по интеллектуальному анализу данных» . Академический поиск Microsoft . Архивировано из оригинала 19 ноября 2014 г. Проверено 13 июня 2014 г.
- ^ «Google Scholar: Лучшие публикации — интеллектуальный анализ и анализ данных» . Google Академик . Архивировано из оригинала 10 февраля 2023 г. Проверено 11 июня 2022 г.
- ^ Материалы, заархивированные 30 апреля 2010 г. на Wayback Machine , Международные конференции по открытию знаний и интеллектуальному анализу данных, ACM, Нью-Йорк.
- ^ Исследования SIGKDD. Архивировано 29 июля 2010 г. в Wayback Machine , ACM, Нью-Йорк.
- ^ Гюннеманн, Стефан; Кремер, Харди; Зайдль, Томас (2011). «Расширение стандарта PMML на модели подпространственной кластеризации». Материалы семинара 2011 года по прогнозному моделированию языка разметки . п. 48. дои : 10.1145/2023598.2023605 . ISBN 978-1-4503-0837-3 . S2CID 14967969 .
- ^ Зельцер, Уильям (2005). «Перспективы и подводные камни интеллектуального анализа данных: этические проблемы» (PDF) . Раздел ASA по государственной статистике . Американская статистическая ассоциация. Архивировано (PDF) из оригинала 9 октября 2022 г.
- ^ Питтс, Чип (15 марта 2007 г.). «Конец незаконному внутреннему шпионажу? Не рассчитывайте на это» . Вашингтонский зритель . Архивировано из оригинала 28 ноября 2007 г.
- ^ Тайпале, Ким А. (15 декабря 2003 г.). «Интеллектуальный анализ данных и внутренняя безопасность: соединение точек для понимания данных» . Обзор законодательства Колумбийского университета в области науки и технологий . 5 (2). OCLC 45263753 . ССНР 546782 . Архивировано из оригинала 5 ноября 2014 года . Проверено 21 апреля 2004 г.
- ^ Резиг, Джон. «Структура для майнинга служб обмена мгновенными сообщениями» (PDF) . Архивировано (PDF) из оригинала 9 октября 2022 г. Проверено 16 марта 2018 г.
- ↑ Перейти обратно: Перейти обратно: а б с Подумайте, прежде чем копать: последствия интеллектуального анализа и агрегирования данных для конфиденциальности. Архивировано 17 декабря 2008 г. в Wayback Machine , NASCIO Research Brief, сентябрь 2004 г.
- ^ Ом, Пол. «Не создавайте базу данных о разрушениях» . Гарвардское деловое обозрение .
- ^ Данные поиска AOL идентифицировали отдельных лиц. Архивировано 6 января 2010 г. в Wayback Machine , SecurityFocus, август 2006 г.
- ^ Кшетри, Нир (2014). «Влияние больших данных на конфиденциальность, безопасность и благосостояние потребителей» (PDF) . Телекоммуникационная политика . 38 (11): 1134–1145. дои : 10.1016/j.telpol.2014.10.002 . Архивировано (PDF) из оригинала 19 июня 2018 г. Проверено 20 апреля 2018 г.
- ^ Вайс, Мартин А.; Арчик, Кристин (19 мая 2016 г.). «Конфиденциальность данных США и ЕС: от Safe Harbor к щиту конфиденциальности» . Вашингтон, округ Колумбия Исследовательская служба Конгресса. п. 6. Р44257. Архивировано из оригинала (PDF) 9 апреля 2020 года . Проверено 9 апреля 2020 г.
6 октября 2015 г. СЕС ... принял решение, которое признало недействительной «Безопасную гавань» (вступает в силу немедленно) в том виде, в каком она действует в настоящее время.
- ^ Паркер, Джордж (30 сентября 2018 г.). «Британские компании нацелены на использование больших данных для эксплуатации клиентов» . Файнэншл Таймс . Архивировано из оригинала 10 декабря 2022 г. Проверено 4 декабря 2022 г.
- ^ Редакторы Biotech Business Week (30 июня 2008 г.); БИОМЕДИЦИНА; Правило конфиденциальности HIPAA препятствует биомедицинским исследованиям , Biotech Business Week, получено 17 ноября 2009 г. из LexisNexis Academic.
- ^ Британские исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве. Архивировано 9 июня 2014 года на сайте Wayback Machine Out-Law.com. Проверено 14 ноября 2014 г.
- ^ «Федлекс» . Архивировано из оригинала 16 декабря 2021 г. Проверено 16 декабря 2021 г.
- ^ «Лицензии для Европы – Структурированный диалог заинтересованных сторон 2013» . Европейская комиссия . Архивировано из оригинала 23 марта 2013 года . Проверено 14 ноября 2014 г.
- ^ «Интеллектуальный анализ текста и данных: его важность и необходимость перемен в Европе» . Ассоциация европейских исследовательских библиотек . Архивировано из оригинала 29 ноября 2014 года . Проверено 14 ноября 2014 г.
- ^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Книги – победа в области добросовестного использования» . Лексология.com . Antonelli Law Ltd. 19 ноября 2013 г. Архивировано из оригинала 29 ноября 2014 г. . Проверено 14 ноября 2014 г.
Дальнейшее чтение [ править ]
- Кабена, Питер; Хаджниан, Пабло; Стадлер, Рольф; Верхеес, Яап; Занаси, Алессандро (1997); «Открытие интеллектуального анализа данных: от концепции к реализации» , Прентис Холл , ISBN 0-13-743980-6
- М. С. Чен, Дж. Хан, П. С. Ю (1996) « Интеллектуальный анализ данных: обзор с точки зрения базы данных. Архивировано 3 марта 2016 г. на Wayback Machine ». Инженерия знаний и данных, транзакции IEEE на 8 (6), 866–883
- Фельдман, Ронен; Сэнгер, Джеймс (2007); Справочник по анализу текста , Издательство Кембриджского университета , ISBN 978-0-521-83657-9
- Го, Йике; и Гроссман, Роберт (редакторы) (1999); Высокопроизводительный интеллектуальный анализ данных: алгоритмы масштабирования, приложения и системы , Kluwer Academic Publishers
- Хан, Цзявэй , Мишлин Камбер и Цзянь Пей. Интеллектуальный анализ данных: концепции и методы . Морган Кауфманн, 2006.
- Хасти, Тревор , Тибширани, Роберт и Фридман, Джером (2001); Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование , Спрингер, ISBN 0-387-95284-5
- Лю, Бин (2007, 2011); Интеллектуальный анализ веб-данных: изучение гиперссылок, содержимого и данных об использовании , Springer , ISBN 3-540-37881-2
- Мерфи, Крис (16 мая 2011 г.). «Является ли интеллектуальный анализ данных свободой слова?». Информационная неделя : 12.
- Нисбет, Роберт; Старейшина, Джон; Майнер, Гэри (2009); Справочник по приложениям статистического анализа и интеллектуального анализа данных , Academic Press /Elsevier, ISBN 978-0-12-374765-5
- Понселе, Паскаль; Масселья, Флоран; и Тейссейр, Магелон (редакторы) (октябрь 2007 г.); «Шаблоны интеллектуального анализа данных: новые методы и приложения», Справочник по информатике , ISBN 978-1-59904-162-9
- Тан, Пан-Нин; Штайнбах, Майкл; и Кумар, Випин (2005); Введение в интеллектуальный анализ данных , ISBN 0-321-32136-7
- Теодоридис, Сергий; и Кутрумбас, Константинос (2009); Распознавание образов , 4-е издание, Academic Press, ISBN 978-1-59749-272-0
- Вайс, Шолом М.; и Индурхья, Нитин (1998); Прогнозный анализ данных , Морган Кауфманн
- Виттен, Ян Х .; Фрэнк, Эйбе; Холл, Марк А. (30 января 2011 г.). Интеллектуальный анализ данных: практические инструменты и методы машинного обучения (3-е изд.). Эльзевир. ISBN 978-0-12-374856-0 . (См. также Бесплатное программное обеспечение Weka )
- Йе, Нонг (2003); Справочник по интеллектуальному анализу данных , Махва, Нью-Джерси: Лоуренс Эрлбаум