Сбор данных

Из Википедии, бесплатной энциклопедии

Интеллектуальный анализ данных — это процесс извлечения и обнаружения закономерностей в больших наборах данных с использованием методов на стыке машинного обучения , статистики и систем баз данных . [1] Интеллектуальный анализ данных — это междисциплинарная область информатики и статистики , общей целью которой является извлечение информации (с помощью интеллектуальных методов) из набора данных и преобразование этой информации в понятную структуру для дальнейшего использования. [1] [2] [3] [4] Интеллектуальный анализ данных — это этап анализа процесса « обнаружения знаний в базах данных » или KDD. [5] Помимо этапа необработанного анализа, он также включает в себя управления базами данных и данными аспекты , предварительную обработку данных , рассмотрение модели и выводов , метрики интересности, соображения сложности , постобработку обнаруженных структур, визуализацию и онлайн-обновление . [1]

Термин «интеллектуальный анализ данных» является неправильным, поскольку целью является извлечение закономерностей и знаний из больших объемов данных, а не извлечение ( добыча ) самих данных . [6] Это тоже модное слово [7] и часто применяется к любой форме крупномасштабной обработки данных или информации ( сбор , извлечение , хранение , анализ и статистика), а также к любому применению компьютерной системы поддержки принятия решений , включая искусственный интеллект (например, машинное обучение) и бизнес-аналитику. . более общие термины ( крупномасштабный ) анализ данных и аналитика — или, если говорить о реальных методах, искусственный интеллект и машинное обучение Часто более подходящими являются .

Фактическая задача интеллектуального анализа данных — это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных закономерностей, таких как группы записей данных ( кластерный анализ ), необычные записи ( обнаружение аномалий ) и зависимости ( интеллектуальный анализ правил ассоциации , последовательный анализ шаблонов ). Обычно это предполагает использование методов работы с базами данных, таких как пространственные индексы . Эти шаблоны затем можно рассматривать как своего рода сводку входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и прогнозной аналитике . Например, на этапе интеллектуального анализа данных можно идентифицировать несколько групп в данных, которые затем можно использовать для получения более точных результатов прогнозирования с помощью системы поддержки принятия решений . Ни сбор данных, их подготовка, ни интерпретация результатов и составление отчетов не являются частью этапа интеллектуального анализа данных, хотя они и относятся к общему процессу KDD в качестве дополнительных этапов.

Разница между анализом данных и интеллектуальным анализом данных заключается в том, что анализ данных используется для проверки моделей и гипотез на наборе данных, например, для анализа эффективности маркетинговой кампании , независимо от объема данных. Напротив, интеллектуальный анализ данных использует машинное обучение и статистические модели для выявления тайных или скрытых закономерностей в большом объеме данных. [8]

Сопутствующие термины «выемка данных» , «ловля данных» и «отслеживание данных» относятся к использованию методов интеллектуального анализа данных для выборки частей более крупного набора данных о населении, которые (или могут быть) слишком малы для того, чтобы можно было сделать надежные статистические выводы о достоверности каких-либо данных. обнаружены закономерности. Однако эти методы можно использовать при создании новых гипотез для проверки на более крупных совокупностях данных.

Этимология [ править ]

В 1960-х годах статистики и экономисты использовали такие термины, как вылов данных или сбор данных, чтобы обозначить то, что они считали плохой практикой анализа данных без априорной гипотезы. Термин «интеллектуальный анализ данных» столь же критично использовал экономист Майкл Ловелл в статье, опубликованной в «Обзоре экономических исследований» в 1983 году. [9] [10] Ловелл указывает, что эта практика «маскируется под различными псевдонимами, от «экспериментирования» (позитивный) до «рыбалки» или «слежки» (негативный).

Термин интеллектуальный анализ данных появился примерно в 1990 году в сообществе баз данных и имел в целом положительный оттенок. В течение короткого времени в 1980-х годах использовалась фраза «интеллектуальный анализ баз данных»™, но поскольку она была зарегистрирована как торговая марка компании HNC, базирующейся в Сан-Диего , для продвижения своей рабочей станции для интеллектуального анализа данных; [11] в результате исследователи обратились к интеллектуальному анализу данных . Другие используемые термины включают археологию данных , сбор информации , обнаружение информации , извлечение знаний и т. д. Грегори Пятецкий-Шапиро придумал термин «обнаружение знаний в базах данных» для первого семинара по той же теме (KDD-1989), и этот термин стал более популярным. в сообществах искусственного интеллекта и машинного обучения . Однако термин интеллектуальный анализ данных стал более популярным в деловых кругах и прессе. [12] В настоящее время термины интеллектуальный анализ данных и обнаружение знаний используются как взаимозаменяемые.

Предыстория [ править ]

Ручное извлечение закономерностей из данных происходило на протяжении веков. Ранние методы выявления закономерностей в данных включают теорему Байеса (1700-е годы) и регрессионный анализ (1800-е годы). [13] Распространение, повсеместное распространение и растущая мощь компьютерных технологий резко расширили возможности сбора, хранения и манипулирования данными. По мере увеличения размера и сложности наборов данных прямой «практический» анализ данных все чаще дополняется косвенной автоматизированной обработкой данных, чему способствуют другие открытия в области информатики, особенно в области машинного обучения, такие как нейронные сети . кластерный анализ , генетические алгоритмы (1950-е годы), деревья решений и правила принятия решений (1960-е годы) и машины опорных векторов (1990-е годы). Интеллектуальный анализ данных — это процесс применения этих методов с целью выявления скрытых закономерностей. [14] в больших наборах данных. Он устраняет разрыв между прикладной статистикой и искусственным интеллектом (который обычно обеспечивает математическую основу) для управления базами данных , используя способ хранения и индексации данных в базах данных для более эффективного выполнения реальных алгоритмов обучения и обнаружения, позволяя применять такие методы для все большие наборы данных.

Процесс [ править ]

Процесс обнаружения знаний в базах данных (KDD) обычно определяется этапами:

  1. Выбор
  2. Предварительная обработка
  3. Трансформация
  4. Сбор данных
  5. Интерпретация/оценка. [5]

Однако он существует во многих вариациях на эту тему, например, в Межотраслевом стандартном процессе интеллектуального анализа данных (CRISP-DM), который определяет шесть этапов:

  1. Понимание бизнеса
  2. Понимание данных
  3. Подготовка данных
  4. Моделирование
  5. Оценка
  6. Развертывание

или упрощенный процесс, такой как (1) предварительная обработка, (2) интеллектуальный анализ данных и (3) проверка результатов.

Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой майнерами данных. [15] [16] [17] [18]

Единственным другим стандартом интеллектуального анализа данных, упомянутым в этих опросах, был SEMMA . Однако об использовании CRISP-DM сообщили в 3–4 раза больше людей. Несколько групп исследователей опубликовали обзоры моделей процессов интеллектуального анализа данных. [19] а Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году. [20]

Предварительная обработка [ править ]

Прежде чем использовать алгоритмы интеллектуального анализа данных, необходимо собрать целевой набор данных. Поскольку интеллектуальный анализ данных может выявить только закономерности, действительно присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти закономерности, оставаясь при этом достаточно кратким, чтобы его можно было проанализировать в течение приемлемого срока. Распространенным источником данных является витрина данных или хранилище данных . Предварительная обработка необходима для анализа многомерных наборов данных перед интеллектуальным анализом данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум , и наблюдения с отсутствующими данными .

Интеллектуальный анализ данных [ править ]

Интеллектуальный анализ данных включает в себя шесть распространенных классов задач: [5]

  • Обнаружение аномалий (обнаружение выбросов/изменений/отклонений). Идентификация необычных записей данных, которые могут представлять интерес, или ошибок данных, требующих дальнейшего изучения из-за того, что они выходят за пределы стандартного диапазона.
  • Изучение правил ассоциации (моделирование зависимостей). Поиск связей между переменными. Например, супермаркет может собирать данные о покупательских привычках клиентов. Используя изучение ассоциативных правил, супермаркет может определить, какие продукты часто покупаются вместе, и использовать эту информацию в маркетинговых целях. Иногда это называют анализом рыночной корзины.
  • Кластеризация – это задача обнаружения групп и структур в данных, которые так или иначе «похожи», без использования известных структур в данных.
  • Классификация – это задача обобщения известной структуры для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронное письмо как «законное» или как «спам».
  • Регрессия – попытка найти функцию, которая моделирует данные с наименьшей ошибкой, то есть для оценки связей между данными или наборами данных.
  • Суммирование – обеспечение более компактного представления набора данных, включая визуализацию и создание отчетов.

Проверка результатов [ править ]

Пример данных, полученных в результате сбора данных с помощью бота, которым управляет статистик Тайлер Виген, по-видимому, демонстрирующий тесную связь между лучшим словом, выигравшим конкурс по правописанию, и количеством людей в Соединенных Штатах, убитых ядовитыми пауками.

Интеллектуальный анализ данных может быть использован непреднамеренно неправильно, в результате чего будут получены результаты, которые кажутся значительными, но на самом деле не предсказывают будущее поведение и не могут быть воспроизведены на новой выборке данных, поэтому от них мало пользы. Иногда это вызвано исследованием слишком большого количества гипотез и невыполнением надлежащей статистической проверки гипотез . Простая версия этой проблемы в машинном обучении известна как переоснащение , но одна и та же проблема может возникнуть на разных этапах процесса, и, таким образом, разделения обучения и тестирования — если оно вообще применимо — может быть недостаточно, чтобы предотвратить это. [21]

Последним шагом извлечения знаний из данных является проверка того, что закономерности, создаваемые алгоритмами интеллектуального анализа данных, встречаются в более широком наборе данных. Не все закономерности, найденные алгоритмами, обязательно действительны. Алгоритмы интеллектуального анализа данных обычно находят в обучающем наборе шаблоны, которых нет в общем наборе данных. Это называется переоснащением . Чтобы преодолеть эту проблему, при оценке используется тестовый набор данных, на котором алгоритм интеллектуального анализа данных не обучался. Изученные шаблоны применяются к этому набору тестов, а полученный результат сравнивается с желаемым результатом. Например, алгоритм интеллектуального анализа данных, пытающийся отличить «спам» от «законных» электронных писем, будет обучаться на обучающем наборе образцов электронных писем. После обучения изученные шаблоны будут применены к тестовому набору электронных писем, на которых они не были обучены. Затем точность шаблонов можно измерить по тому, сколько электронных писем они правильно классифицируют. Для оценки алгоритма можно использовать несколько статистических методов, например: ROC-кривые .

Если изученные закономерности не соответствуют желаемым стандартам, необходимо переоценить и изменить этапы предварительной обработки и интеллектуального анализа данных. Если изученные закономерности действительно соответствуют желаемым стандартам, то последним шагом является интерпретация изученных закономерностей и превращение их в знания.

Исследования [ править ]

Ведущей профессиональной организацией в этой области является ) Ассоциации вычислительной техники (ACM) Специальная группа по интересам (SIG) по обнаружению знаний и интеллектуальному анализу данных ( SIGKDD . [22] [23] С 1989 года ACM SIG проводит ежегодную международную конференцию и публикует ее материалы. [24] а с 1999 года он издает выходящий два раза в год академический журнал под названием «SIGKDD Explorations». [25]

Конференции по информатике, посвященные интеллектуальному анализу данных, включают:

Темы интеллектуального анализа данных также присутствуют на многих конференциях по управлению данными/базам данных, таких как конференция ICDE, конференция SIGMOD и международная конференция по очень большим базам данных .

Стандарты [ править ]

Были предприняты некоторые попытки определить стандарты для процесса интеллектуального анализа данных, например, Европейский межотраслевой стандарт процесса интеллектуального анализа данных 1999 года (CRISP-DM 1.0) и стандарт интеллектуального анализа данных Java 2004 года (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) велась активно в 2006 году, но с тех пор застопорилась. JDM 2.0 был отозван, так и не дойдя до окончательного проекта.

Для обмена извлеченными моделями, в частности для использования в прогнозной аналитике , ключевым стандартом является язык разметки прогнозных моделей (PMML), который представляет собой язык на основе XML , разработанный Data Mining Group (DMG) и поддерживаемый многими в качестве формата обмена. приложения для интеллектуального анализа данных. Как следует из названия, он охватывает только модели прогнозирования — конкретную задачу интеллектуального анализа данных, имеющую большое значение для бизнес-приложений. Однако расширения для охвата (например) кластеризации подпространств были предложены независимо от DMG. [26]

Известные виды использования [ править ]

Интеллектуальный анализ данных используется везде, где есть цифровые данные. Яркие примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке, финансах, строительстве и надзоре.

Проблемы этика конфиденциальности и

Хотя сам термин «интеллектуальный анализ данных» может не иметь этических последствий, он часто ассоциируется со сбором информации о поведении пользователей (этическом и ином). [27]

Способы использования интеллектуального анализа данных в некоторых случаях и контекстах могут вызывать вопросы относительно конфиденциальности , законности и этики . [28] В частности, сбор данных правительственных или коммерческих наборов данных для целей национальной безопасности или правоохранительных органов , например, в программе Total Information Awareness Program или в ADVISE , вызывает обеспокоенность по поводу конфиденциальности. [29] [30]

Интеллектуальный анализ данных требует подготовки данных, которая раскрывает информацию или закономерности, которые ставят под угрозу обязательства по конфиденциальности и неприкосновенности частной жизни . Распространенным способом достижения этой цели является агрегирование данных . Агрегация данных предполагает объединение данных (возможно, из различных источников) таким образом, чтобы облегчить анализ (но это также может сделать идентификацию частных данных индивидуального уровня выводимой или иным образом очевидной). [31] Это не интеллектуальный анализ данных как таковой , а результат подготовки данных до и для целей анализа. Угроза конфиденциальности человека возникает, когда данные после компиляции позволяют сборщику данных или любому, кто имеет доступ к вновь скомпилированному набору данных, иметь возможность идентифицировать конкретных людей, особенно если данные изначально были анонимными. [32]

Рекомендуется [ по мнению кого? ] необходимо знать следующее : Прежде чем собирать данные, [31]

  • Цель сбора данных и любые (известные) проекты интеллектуального анализа данных.
  • Как данные будут использоваться.
  • Кто сможет добывать данные и использовать их и их производные.
  • Статус безопасности доступа к данным.
  • Как можно обновить собранные данные.

Данные также могут быть изменены таким образом, чтобы стать анонимными, чтобы людей было трудно идентифицировать. [31] Однако даже « анонимизированные » наборы данных потенциально могут содержать достаточно информации, позволяющей идентифицировать отдельных лиц, как это произошло, когда журналистам удалось найти нескольких человек на основе набора историй поиска, которые были случайно опубликованы AOL. [33]

Непреднамеренное раскрытие личной информации , ведущей к поставщику, нарушает правила добросовестной обработки информации. Эта неосмотрительность может привести к финансовым, причинение эмоционального или телесного вреда указанному лицу. В одном случае нарушения конфиденциальности покровители Walgreens в 2011 году подали иск против компании за продажу информацию о рецептах компаниям по сбору данных, которые, в свою очередь, предоставили данные фармацевтическим компаниям. [34]

Ситуация в Европе [ править ]

В Европе действуют довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Однако «Принципы безопасной гавани» США и ЕС , разработанные в период с 1998 по 2000 год, в настоящее время фактически подвергают европейских пользователей эксплуатации конфиденциальности со стороны американских компаний. В результате Эдварда Сноудена усилились раскрытия информации о глобальной слежке дискуссии об отмене этого соглашения, поскольку, в частности, данные будут полностью раскрыты Агентству национальной безопасности , а попытки достичь соглашения с Соединенными Штатами потерпели неудачу. [35]

В Соединенном Королевстве, в частности, были случаи, когда корпорации использовали интеллектуальный анализ данных как способ нацелиться на определенные группы клиентов, вынуждая их платить несправедливо высокие цены. Эти группы, как правило, представляют собой людей с более низким социально-экономическим статусом, которые не понимают, как их можно эксплуатировать на цифровых рынках. [36]

Ситуация в США [ править ]

В Соединенных Штатах проблемы конфиденциальности были решены Конгрессом США посредством принятия нормативного контроля, такого как Закон о переносимости и подотчетности медицинского страхования (HIPAA). HIPAA требует, чтобы люди давали «информированное согласие» в отношении предоставляемой ими информации и ее предполагаемого использования в настоящем и будущем. Согласно статье в журнале Biotech Business Week , «на практике HIPAA не может предложить большей защиты, чем давние правила в области исследований», — говорится в AAHC. Что еще более важно, цель этого правила — защита посредством информированного согласия. приблизиться к уровню непостижимости для обычных людей». [37] Это подчеркивает необходимость анонимности данных в практиках агрегирования и анализа данных.

Законодательство США о конфиденциальности информации, такое как HIPAA и Закон о правах семьи на образование и конфиденциальность (FERPA), применяется только к конкретным областям, которые затрагивает каждый такой закон. Использование интеллектуального анализа данных большинством предприятий в США не контролируется никаким законодательством.

Закон об авторском праве [ править ]

Ситуация в Европе [ править ]

В соответствии с европейскими законами о базах данных об авторских правах , добыча произведений, защищенных авторскими правами (например, веб-майнинг ) без разрешения владельца авторских прав незаконна. Если в Европе база данных представляет собой чистые данные, авторские права могут отсутствовать, но права на базу данных могут существовать, поэтому интеллектуальный анализ данных становится предметом прав владельцев интеллектуальной собственности , которые защищены Директивой о базах данных . По рекомендации обзора Харгривса это привело к тому, что правительство Великобритании в 2014 году внесло поправки в свой закон об авторском праве, разрешив добычу контента в качестве ограничения и исключения . [38] Великобритания стала второй страной в мире, сделавшей это после Японии, которая в 2009 году ввела исключение для интеллектуального анализа данных. Однако из-за ограничений Директивы об информационном обществе (2001 г.) исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон Великобритании об авторском праве также не позволяет отменять это положение договорными условиями. С 2020 года Швейцария также регулирует интеллектуальный анализ данных, разрешая его использование в исследовательской сфере при определенных условиях, предусмотренных ст. 24d Швейцарского закона об авторском праве. Новая статья вступила в силу 1 апреля 2020 года. [39]

Европейская комиссия способствовала обсуждению заинтересованных сторон по интеллектуальному анализу текста и данных в 2013 году под названием «Лицензии для Европы». [40] Сосредоточение внимания на решении этого юридического вопроса, такого как лицензирование, а не ограничения и исключения, привело к тому, что представители университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинули диалог с заинтересованными сторонами в мае 2013 года. [41]

Ситуация в США [ править ]

Закон США об авторском праве и, в частности, его положения о добросовестном использовании , поддерживают законность добычи контента в Америке и других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея. Поскольку интеллектуальный анализ контента является преобразующим, то есть не заменяет оригинальную работу, он считается законным при добросовестном использовании. Например, в рамках мирового соглашения по Google Book председательствующий судья постановил, что проект Google по оцифровке книг, защищенных авторскими правами, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки, — одним из которых является интеллектуальный анализ текста и данных. [42]

Программное обеспечение [ править ]

открытым исходным кодом анализа данных с для Бесплатное программное обеспечение и приложения

Следующие приложения доступны по бесплатным лицензиям или лицензиям с открытым исходным кодом. Также доступен публичный доступ к исходному коду приложения.

для интеллектуального анализа данных Запатентованное программное обеспечение и приложения

Следующие приложения доступны по проприетарным лицензиям.

  • Angoss KnowledgeSTUDIO: инструмент интеллектуального анализа данных
  • LIONsolver : интегрированное программное приложение для интеллектуального анализа данных, бизнес-аналитики и моделирования, реализующее подход обучения и интеллектуальной оптимизации (LION).
  • PolyAnalyst : программное обеспечение для анализа данных и текста от Megaputer Intelligence.
  • Microsoft Analysis Services : программное обеспечение для интеллектуального анализа данных, предоставляемое Microsoft .
  • NetOwl : набор многоязычных продуктов для анализа текста и объектов, которые позволяют осуществлять интеллектуальный анализ данных.
  • Oracle Data Mining : программное обеспечение для интеллектуального анализа данных от корпорации Oracle .
  • PSeven : платформа для автоматизации инженерного моделирования и анализа, междисциплинарной оптимизации и интеллектуального анализа данных, предоставляемая DATADVANCE .
  • Qlucore Omics Explorer: программное обеспечение для интеллектуального анализа данных.
  • RapidMiner : среда для экспериментов по машинному обучению и интеллектуальному анализу данных.
  • SAS Enterprise Miner : программное обеспечение для интеллектуального анализа данных, предоставленное Институтом SAS .
  • SPSS Modeler : программное обеспечение для интеллектуального анализа данных, предоставленное IBM .
  • STATISTICA Data Miner: программное обеспечение для интеллектуального анализа данных, предоставленное StatSoft .
  • Танагра : программное обеспечение для анализа данных, ориентированное на визуализацию, в том числе для обучения.
  • Vertica : программное обеспечение для интеллектуального анализа данных, предоставленное Hewlett-Packard .
  • Google Cloud Platform : автоматизированные пользовательские модели машинного обучения, управляемые Google .
  • Amazon SageMaker : управляемый сервис Amazon для создания и производства пользовательских моделей машинного обучения.

См. также [ править ]

Методы
Домены приложений
Примеры применения
похожие темы

Для получения дополнительной информации об извлечении информации из данных (в отличие от анализа данных) см.:

Другие источники

Ссылки [ править ]

  1. ^ Перейти обратно: а б с «Учебная программа по интеллектуальному анализу данных» . АСМ СИГКДД . 30 апреля 2006 г. Архивировано из оригинала 14 октября 2013 г. Проверено 27 января 2014 г.
  2. ^ Клифтон, Кристофер (2010). «Британская энциклопедия: определение интеллектуального анализа данных» . Архивировано из оригинала 5 февраля 2011 г. Проверено 9 декабря 2010 г.
  3. ^ Хасти, Тревор ; Тибширани, Роберт ; Фридман, Джером (2009). «Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование» . Архивировано из оригинала 10 ноября 2009 г. Проверено 7 августа 2012 г.
  4. ^ Хан, Джайвэй ; Камбер, Мишлин; Пей, Цзянь (2011). Интеллектуальный анализ данных: концепции и методы (3-е изд.). Морган Кауфманн. ISBN  978-0-12-381479-1 .
  5. ^ Перейти обратно: а б с Файяд, Усама ; Пятецкий-Шапиро, Григорий ; Смит, Падрайк (1996). «От интеллектуального анализа данных к обнаружению знаний в базах данных» (PDF) . Архивировано (PDF) из оригинала 9 октября 2022 г. Проверено 17 декабря 2008 г.
  6. ^ Хан, Цзявэй ; Камбер, Мишлин (2001). Интеллектуальный анализ данных: концепции и методы . Морган Кауфманн . п. 5. ISBN  978-1-55860-489-6 . Таким образом, интеллектуальный анализ данных следовало бы назвать «извлечение знаний из данных», что, к сожалению, несколько длинное.
  7. ^ Осенняя конференция OKAIRP 2005 г., Университет штата Аризона. Архивировано 1 февраля 2014 г. в Wayback Machine.
  8. ^ Олсон, DL (2007). Интеллектуальный анализ данных в бизнес-услугах. Сервисное дело , 1 (3), 181–193. два : 10.1007/s11628-006-0014-7
  9. ^ Ловелл, Майкл К. (1983). "Сбор данных". Обзор экономики и статистики . 65 (1): 1–12. дои : 10.2307/1924403 . JSTOR   1924403 .
  10. ^ Чаремза, Войцех В.; Мертвец, Дерек Ф. (1992). "Сбор данных". Новые направления в эконометрической практике . Олдершот: Эдвард Элгар. стр. 14–31. ISBN  1-85278-461-Х .
  11. ^ Мена, Хесус (2011). Криминалистика машинного обучения для правоохранительных органов, безопасности и разведки . Бока-Ратон, Флорида: CRC Press (Taylor & Francisco Group). ISBN  978-1-4398-6069-4 .
  12. ^ Пятецкий-Шапиро, Григорий ; Паркер, Гэри (2011). «Урок: интеллектуальный анализ данных и обнаружение знаний: введение» . Введение в интеллектуальный анализ данных . КД Наггетс. Архивировано из оригинала 30 августа 2012 года . Проверено 30 августа 2012 г.
  13. ^ Коэнен, Франс (7 февраля 2011 г.). «Интеллектуальный анализ данных: прошлое, настоящее и будущее» . Обзор инженерии знаний . 26 (1): 25–29. дои : 10.1017/S0269888910000378 . ISSN   0269-8889 . S2CID   6487637 . Архивировано из оригинала 2 июля 2023 г. Проверено 4 сентября 2021 г.
  14. ^ Кантарджич, Мехмед (2003). Интеллектуальный анализ данных: концепции, модели, методы и алгоритмы . Джон Уайли и сыновья. ISBN  978-0-471-22852-3 . OCLC   50055336 .
  15. ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2002 г.)?» . КДнаггетс . 2002. Архивировано из оригинала 16 января 2017 года . Проверено 29 декабря 2023 г.
  16. ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2004 г.)?» . КДнаггетс . 2004. Архивировано из оригинала 8 февраля 2017 года . Проверено 29 декабря 2023 г.
  17. ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2007 г.)?» . КДнаггетс . 2007. Архивировано из оригинала 17 ноября 2012 года . Проверено 29 декабря 2023 г.
  18. ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2014 г.)?» . КДнаггетс . 2014. Архивировано из оригинала 1 августа 2016 года . Проверено 29 декабря 2023 г.
  19. ^ Лукаш Курган и Петр Мусилек: «Обзор моделей процессов обнаружения знаний и интеллектуального анализа данных». Архивировано 26 мая 2013 г. в Wayback Machine . Обзор инженерии знаний . Том 21, выпуск 1, март 2006 г., стр. 1–24, Cambridge University Press, Нью-Йорк, дои : 10.1017/S0269888906000737
  20. ^ Азеведо, А. и Сантос, MF KDD, SEMMA и CRISP-DM: параллельный обзор. Архивировано 9 января 2013 г. в Wayback Machine . В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.
  21. ^ Хокинс, Дуглас М. (2004). «Проблема переобучения». Журнал химической информации и компьютерных наук . 44 (1): 1–12. дои : 10.1021/ci0342472 . ПМИД   14741005 . S2CID   12440383 .
  22. ^ «Microsoft Academic Search: Лучшие конференции по интеллектуальному анализу данных» . Академический поиск Microsoft . Архивировано из оригинала 19 ноября 2014 г. Проверено 13 июня 2014 г.
  23. ^ «Google Scholar: Лучшие публикации — интеллектуальный анализ и анализ данных» . Google Scholar . Архивировано из оригинала 10 февраля 2023 г. Проверено 11 июня 2022 г.
  24. ^ Материалы , заархивированные 30 апреля 2010 г. на Wayback Machine , Международные конференции по открытию знаний и интеллектуальному анализу данных, ACM, Нью-Йорк.
  25. ^ Исследования SIGKDD. Архивировано 29 июля 2010 г. в Wayback Machine , ACM, Нью-Йорк.
  26. ^ Гюннеманн, Стефан; Кремер, Харди; Зайдль, Томас (2011). «Расширение стандарта PMML на модели подпространственной кластеризации». Материалы семинара 2011 года по прогнозному моделированию языка разметки . п. 48. дои : 10.1145/2023598.2023605 . ISBN  978-1-4503-0837-3 . S2CID   14967969 .
  27. ^ Зельцер, Уильям (2005). «Перспективы и подводные камни интеллектуального анализа данных: этические проблемы» (PDF) . Раздел ASA по государственной статистике . Американская статистическая ассоциация. Архивировано (PDF) из оригинала 9 октября 2022 г.
  28. ^ Питтс, Чип (15 марта 2007 г.). «Конец незаконному внутреннему шпионажу? Не рассчитывайте на это» . Вашингтонский зритель . Архивировано из оригинала 28 ноября 2007 г.
  29. ^ Тайпале, Ким А. (15 декабря 2003 г.). «Интеллектуальный анализ данных и внутренняя безопасность: соединение точек для понимания данных» . Обзор законодательства Колумбийского университета в области науки и технологий . 5 (2). OCLC   45263753 . ССНР   546782 . Архивировано из оригинала 5 ноября 2014 года . Проверено 21 апреля 2004 г.
  30. ^ Резиг, Джон. «Структура для майнинга служб обмена мгновенными сообщениями» (PDF) . Архивировано (PDF) из оригинала 9 октября 2022 г. Проверено 16 марта 2018 г.
  31. ^ Перейти обратно: а б с Подумайте, прежде чем копать: последствия интеллектуального анализа и агрегирования данных для конфиденциальности. Архивировано 17 декабря 2008 г. в Wayback Machine , NASCIO Research Brief, сентябрь 2004 г.
  32. ^ Ом, Пол. «Не создавайте базу данных о разрушениях» . Гарвардское деловое обозрение .
  33. ^ Данные поиска AOL идентифицировали отдельных лиц. Архивировано 6 января 2010 г. в Wayback Machine , SecurityFocus, август 2006 г.
  34. ^ Кшетри, Нир (2014). «Влияние больших данных на конфиденциальность, безопасность и благосостояние потребителей» (PDF) . Телекоммуникационная политика . 38 (11): 1134–1145. дои : 10.1016/j.telpol.2014.10.002 . Архивировано (PDF) из оригинала 19 июня 2018 г. Проверено 20 апреля 2018 г.
  35. ^ Вайс, Мартин А.; Арчик, Кристин (19 мая 2016 г.). «Конфиденциальность данных США и ЕС: от Safe Harbor к щиту конфиденциальности» . Вашингтон, округ Колумбия Исследовательская служба Конгресса. п. 6. Р44257. Архивировано из оригинала (PDF) 9 апреля 2020 года . Проверено 9 апреля 2020 г. 6 октября 2015 г. СЕС ... принял решение, которое признало недействительной «Безопасную гавань» (вступившую в силу немедленно) в том виде, в котором она действует в настоящее время.
  36. ^ Паркер, Джордж (30 сентября 2018 г.). «Британские компании нацелены на использование больших данных для эксплуатации клиентов» . Файнэншл Таймс . Архивировано из оригинала 10 декабря 2022 г. Проверено 4 декабря 2022 г.
  37. ^ Редакторы Biotech Business Week (30 июня 2008 г.); БИОМЕДИЦИНА; Правило конфиденциальности HIPAA препятствует биомедицинским исследованиям , Biotech Business Week, получено 17 ноября 2009 г. из LexisNexis Academic.
  38. ^ Британские исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве. Архивировано 9 июня 2014 года на сайте Wayback Machine Out-Law.com. Проверено 14 ноября 2014 г.
  39. ^ «Федлекс» . Архивировано из оригинала 16 декабря 2021 г. Проверено 16 декабря 2021 г.
  40. ^ «Лицензии для Европы – Структурированный диалог заинтересованных сторон 2013» . Европейская комиссия . Архивировано из оригинала 23 марта 2013 года . Проверено 14 ноября 2014 г.
  41. ^ «Интеллектуальный анализ текста и данных: его важность и необходимость перемен в Европе» . Ассоциация европейских исследовательских библиотек . Архивировано из оригинала 29 ноября 2014 года . Проверено 14 ноября 2014 г.
  42. ^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Книги – победа в области добросовестного использования» . Лексология.com . Antonelli Law Ltd. 19 ноября 2013 г. Архивировано из оригинала 29 ноября 2014 г. . Проверено 14 ноября 2014 г.

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]