Эволюционный анализ данных
Эволюционный интеллектуальный анализ данных или генетический интеллектуальный анализ данных — это общий термин для любого интеллектуального анализа данных с использованием эволюционных алгоритмов . Хотя его можно использовать для извлечения данных из последовательностей ДНК , [1] он не ограничен биологическим контекстом и может использоваться в любом сценарии прогнозирования на основе классификации, который помогает «предсказать значение... заданного пользователем целевого атрибута на основе значений других атрибутов». [2] клиента Например, банковское учреждение может захотеть предсказать, будет ли кредит «хорошим» или «плохим», исходя из его возраста, дохода и текущих сбережений. [2] Эволюционные алгоритмы интеллектуального анализа данных работают путем создания серии случайных правил, которые необходимо сверить с набором обучающих данных . [3] Правила, которые наиболее точно соответствуют данным, выбираются и изменяются . [3] Процесс повторяется много раз, и в конечном итоге возникнет правило, приближающееся к 100% сходству с обучающими данными. [2] Затем это правило проверяется на тестовом наборе данных, который ранее был невидим для генетического алгоритма. [2]
Процесс [ править ]
Подготовка данных [ править ]
Прежде чем из баз данных можно будет извлечь данные с помощью эволюционных алгоритмов, их сначала необходимо очистить. [2] это означает, что неполные, зашумленные или противоречивые данные должны быть исправлены. Крайне важно сделать это до начала майнинга, поскольку это поможет алгоритмам выдавать более точные результаты. [3]
Если данные поступают из более чем одной базы данных, на этом этапе их можно интегрировать или объединить. [3] При работе с большими наборами данных может быть полезно также уменьшить объем обрабатываемых данных. [3] Один из распространенных методов сокращения данных заключается в получении нормализованной выборки данных из базы данных, что приводит к гораздо более быстрым, но статистически эквивалентным результатам. [3]
На этом этапе данные разделяются на два равных, но взаимоисключающих элемента: тестовый и обучающий набор данных. [2] Набор обучающих данных будет использоваться для разработки правил, которые точно соответствуют ему. [2] Затем набор тестовых данных либо подтвердит, либо опровергнет эти правила. [2]
Интеллектуальный анализ данных [ править ]
Эволюционные алгоритмы работают, пытаясь имитировать естественную эволюцию . [3] Сначала в наборе обучающих данных задается случайная серия «правил», которые пытаются обобщить данные в формулы. [3] Правила проверяются, и сохраняются те, которые лучше всего соответствуют данным, правила, не соответствующие данным, отбрасываются. [3] Сохраненные правила затем изменяются и умножаются для создания новых правил. [3]
Этот процесс повторяется по мере необходимости, чтобы создать правило, максимально точно соответствующее набору данных. [3] Когда это правило получено, оно затем сверяется с тестовым набором данных. [2] Если правило по-прежнему соответствует данным, оно считается действительным и сохраняется. [2] Если оно не соответствует данным, то оно отбрасывается и процесс начинается с повторного выбора случайных правил. [2]
См. также [ править ]
Ссылки [ править ]
- ^ Вай-Хо Ау, Кейт Си Чан и Синь Яо. «Новый эволюционный алгоритм интеллектуального анализа данных с приложениями для прогнозирования оттока» , IEEE , получено 4 декабря 2008 г.
- ^ Перейти обратно: а б с д и ж г час я дж к Фрейтас, Алекс А. «Обзор эволюционных алгоритмов для интеллектуального анализа данных и открытия знаний» , Папский католический университет Параны , Проверено 4 декабря 2008 г.
- ^ Перейти обратно: а б с д и ж г час я дж к Цзявэй Хан, Мишлин Камбер «Интеллектуальный анализ данных: концепции и методы» (2006), Морган Кауфманн , ISBN 1-55860-901-6