Интеллектуальный анализ потока данных
Data Stream Mining (также известный как потоковое обучение ) — это процесс извлечения структур знаний из непрерывных и быстрых записей данных. Поток данных — это упорядоченная последовательность экземпляров, которую во многих приложениях анализа потока данных можно прочитать только один раз или небольшое количество раз с использованием ограниченных вычислительных возможностей и возможностей хранения. [1]
Во многих приложениях для анализа потоков данных цель состоит в том, чтобы предсказать класс или значение новых экземпляров в потоке данных, учитывая некоторые знания о членстве в классе или значениях предыдущих экземпляров в потоке данных. [2] Методы машинного обучения можно использовать для автоматического изучения этой задачи прогнозирования на основе помеченных примеров.Часто концепции из области постепенного обучения применяются, чтобы справиться со структурными изменениями, онлайн-обучением и требованиями реального времени. Во многих приложениях, особенно работающих в нестационарных средах, распределение, лежащее в основе экземпляров, или правила, лежащие в основе их маркировки, могут меняться со временем, т. е. могут меняться цель прогнозирования, прогнозируемый класс или прогнозируемое целевое значение. через некоторое время. [3] Эта проблема называется дрейфом понятий . Обнаружение отклонения концепции — центральная проблема интеллектуального анализа потоков данных. [4] [5] Другие проблемы [6] которые возникают при применении машинного обучения к потоковой передаче данных, включают: частично и с задержкой помеченные данные, [7] [8] восстановление после концептуальных отклонений, [1] и временные зависимости. [9]
Примеры потоков данных включают трафик компьютерной сети, телефонные разговоры, транзакции банкоматов, поиск в Интернете и данные датчиков.Интеллектуальный анализ потоков данных можно рассматривать как подобласть интеллектуального анализа данных , машинного обучения и открытия знаний .
Программное обеспечение для интеллектуального анализа потоков данных
[ редактировать ]- MOA (массовый онлайн-анализ) : бесплатное программное обеспечение с открытым исходным кодом, предназначенное для анализа потоков данных с изменением концепции, разработанное на Java. Он имеет несколько алгоритмов машинного обучения ( классификация , регрессия , кластеризация , обнаружение выбросов и рекомендательные системы). Кроме того, он содержит метод предварительной оценки, методы дрейфа концепций EDDM, считыватель реальных наборов данных ARFF и генераторы искусственных потоков, такие как концепции SEA, STAGGER, вращающаяся гиперплоскость , случайное дерево и функции на основе случайного радиуса . MOA поддерживает двунаправленное взаимодействие с Weka (машинное обучение) . [ нужна ссылка ]
- scikit-multiflow : платформа машинного обучения для данных с несколькими выходами, несколькими метками и потоками, реализованная на Python. [10] scikit-multiflow содержит генераторы потоков, методы обучения потоков для одной и нескольких целей, детекторы концептуального дрейфа, методы оценки и визуализации. (Программное обеспечение прекращено) [11]
- StreamDM : StreamDM — это платформа с открытым исходным кодом для анализа больших потоков данных, которая использует Spark Streaming. [12] расширение основного API Spark. Одним из преимуществ StreamDM по сравнению с существующими платформами является то, что он напрямую использует API Spark Streaming, который решает большинство сложных проблем базовых источников данных, таких как неупорядоченные данные и восстановление после сбоев.
- RapidMiner : коммерческое программное обеспечение для обнаружения знаний, интеллектуального анализа данных и машинного обучения, которое также включает анализ потоков данных, изучение концепций, изменяющихся во времени, и отслеживание концепции дрейфа (если используется в сочетании с плагином интеллектуального анализа потока данных (ранее: плагин Concept Drift))
- RiverML: River — это библиотека Python для онлайн-машинного обучения. Это результат слияния компаний Creme и scikit-multiflow. Цель River — стать лучшей библиотекой для машинного обучения потоковой передачи данных. [13]
- GAENARI : инкрементальное дерево решений C++. Он непрерывно выполняет вставки и обновления фрагментированных наборов данных. Восстановить поддержку проблем с отклонением концепций.
События
[ редактировать ]- Международный семинар по повсеместному интеллектуальному анализу данных. Архивировано 23 февраля 2013 г. в Wayback Machine, проходившем совместно с Международной совместной конференцией по искусственному интеллекту (IJCAI) в Пекине, Китай, 3–5 августа 2013 г.
- Международный семинар по обнаружению знаний из повсеместных потоков данных. Архивировано 16 февраля 2012 г. в Wayback Machine, проводимый совместно с 18-й Европейской конференцией по машинному обучению (ECML) и 11-й Европейской конференцией по принципам и практике обнаружения знаний в базах данных (PKDD). в Варшаве, Польша, в сентябре 2007 года.
- Симпозиум ACM по потокам данных прикладных вычислений проводился совместно с Симпозиумом ACM 2007 по прикладным вычислениям (SAC-2007) в Сеуле , Корея , в марте 2007 года.
- Международный семинар IEEE по интеллектуальному анализу развивающихся и потоковых данных (IWMESD 2006), который будет проводиться одновременно с Международной конференцией IEEE 2006 года по интеллектуальному анализу данных (ICDM-2006) в Гонконге в декабре 2006 года.
- Четвертый международный семинар по обнаружению знаний из потоков данных (IWKDDS) будет проводиться одновременно с 17-й Европейской конференцией по машинному обучению (ECML) и 10-й Европейской конференцией по принципам и практике обнаружения знаний в базах данных (PKDD) (ECML/PKDD- 2006) в Берлине , Германия , в сентябре 2006 года.
См. также
[ редактировать ]- Концептуальный дрейф
- Интеллектуальный анализ данных
- Последовательный майнинг
- Алгоритм потоковой передачи
- Потоковая обработка
- Беспроводная сенсорная сеть
- Лямбда-архитектура
Книги
[ редактировать ]- Бифет, Альберт; Гавальда, Рикар; Холмс, Джефф; Пфарингер, Бернхард (2018). Машинное обучение для потоков данных с практическими примерами в MOA . Адаптивные вычисления и машинное обучение. МТИ Пресс. п. 288. ИСБН 9780262037792 .
- Гама, Жуан; Габер, Мохамед Медхат, ред. (2007). Обучение на потоках данных: методы обработки в сенсорных сетях . Спрингер. п. 244. дои : 10.1007/3-540-73679-4 . ISBN 9783540736783 .
- Гангули, Ауроп Р.; Гама, Жуан; Омитаому, Олуфеми А.; Габер, Мохамед М.; Ватсаваи, Ранга Р., ред. (2008). Обнаружение знаний на основе данных датчиков . Промышленные инновации. ЦРК Пресс. п. 215. ИСБН 9781420082326 .
- Гама, Жуан (2010). Обнаружение знаний из потоков данных . Интеллектуальный анализ данных и обнаружение знаний. Чепмен и Холл. п. 255. ИСБН 9781439826119 .
- Лугхофер, Эдвин (2011). Развивающиеся нечеткие системы: методологии, передовые концепции и приложения . Исследования нечеткости и мягких вычислений. Том. 266. Гейдельберг: Шпрингер. п. 456. дои : 10.1007/978-3-642-18087-3 . ISBN 9783642180866 .
- Сайед-Мухава, Моамар; Лугхофер, Эдвин, ред. (2012). Обучение в нестационарной среде: методы и приложения . Нью-Йорк: Спрингер. п. 440. CiteSeerX 10.1.1.709.437 . дои : 10.1007/978-1-4419-8020-5 . ISBN 9781441980199 .
Ссылки
[ редактировать ]- ^ Jump up to: а б Гомес, Эйтор М.; Бифет, Альберт; Читай, Джесси; Бардал, Жан Поль; Энембрек, Фабрисио; Пфарингер, Бернхард; Холмс, Джефф; Абдессалем, Талель (1 октября 2017 г.). «Адаптивные случайные леса для развития классификации потоков данных» . Машинное обучение . 106 (9): 1469–1495. дои : 10.1007/s10994-017-5642-8 . hdl : 10289/11231 . ISSN 1573-0565 .
- ^ Медхат, Мохамед; Заславский; Кришнасвами (1 июня 2005 г.). «Майнинг потоков данных». Запись ACM SIGMOD . 34 (2): 18–26. дои : 10.1145/1083784.1083789 . S2CID 705946 .
- ^ Лемэр, Винсент; Салпервик, Кристоф; Бонду, Алексис (2015), Зиманьи, Эстебан; Кутше, Ральф-Детлеф (ред.), «Опрос по контролируемой классификации потоков данных», Бизнес-аналитика: 4-я Европейская летняя школа, eBISS 2014, Берлин, Германия, 6–11 июля 2014 г., Учебные лекции , Конспекты лекций по бизнесу Обработка информации, Springer International Publishing, стр. 88–125, doi : 10.1007/978-3-319-17551-5_4 , ISBN. 978-3-319-17551-5
- ^ Уэбб, Джеффри И.; Ли, Лунг Куан; Петижан, Франсуа; Геталс, Барт (2 апреля 2017 г.). «Понимание концептуального дрейфа». arXiv : 1704.00362 [ cs.LG ].
- ^ Гама, Жуан; Жлиобайте; Бифет; Печеницкий; Бушачия (01 марта 2014 г.). «Опрос по адаптации концепции дрейфа» (PDF) . Обзоры вычислительной техники ACM . 46 (4): 1–37. дои : 10.1145/2523813 . S2CID 207208264 .
- ^ Гомеш, Эйтор Мурило; Читать; Бифет; Барддал; Гама (26 ноября 2019 г.). «Машинное обучение для потоковой передачи данных». Информационный бюллетень об исследованиях ACM SIGKDD . 21 (2): 6–22. дои : 10.1145/3373464.3373470 . S2CID 208607941 .
- ^ Гомеш, Эйтор Мурило; Грзенда, Мацей; Мелло, Родриго; Читай, Джесси; Ле Нгуен, Мин Хыонг; Бифет, Альберт (28 февраля 2022 г.). «Опрос по полуконтролируемому обучению для задержанных частично размеченных потоков данных» . Обзоры вычислительной техники ACM . 55 (4): 1–42. arXiv : 2106.09170 . дои : 10.1145/3523055 . ISSN 0360-0300 .
- ^ Грзенда, Мацей; Гомеш, Эйтор Мурило; Бифет, Альберт (16 ноября 2019 г.). «Отложенная оценка маркировки потоков данных» . Интеллектуальный анализ данных и обнаружение знаний . 34 (5): 1237–1266. дои : 10.1007/s10618-019-00654-y . ISSN 1573-756X .
- ^ Жлиобайте, Индре; Бифет, Альберт; Читай, Джесси; Пфарингер, Бернхард; Холмс, Джефф (01 марта 2015 г.). «Методы оценки и теория принятия решений для классификации потоковых данных с временной зависимостью» . Машинное обучение . 98 (3): 455–482. дои : 10.1007/s10994-014-5441-4 . hdl : 10289/8954 . ISSN 1573-0565 .
- ^ Монтьель, Джейкоб; Читай, Джесси; Бифет, Альберт; Абдессалем, Талель (2018). «Scikit-Multiflow: платформа потоковой передачи с несколькими выходами» . Журнал исследований машинного обучения . 19 (72): 1–5. arXiv : 1807.04662 . Бибкод : 2018arXiv180704662M . ISSN 1533-7928 .
- ^ Возможности , scikit-multiflow, 9 октября 2021 г. , получено 11 октября 2021 г.
- ^ Захария, Матей; Дас, Татхагата; Ли, Хаоюань; Хантер, Тимоти; Шенкер, Скотт; Стойка, Ион (2013). «Дискретизированные потоки». Материалы двадцать четвертого симпозиума ACM по принципам операционных систем . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 423–438. дои : 10.1145/2517349.2522737 . ISBN 978-1-4503-2388-8 .
- ^ online-ml/river , OnlineML, 11 октября 2021 г. , получено 11 октября 2021 г.