Jump to content

Интеллектуальный анализ потока данных

Data Stream Mining (также известный как потоковое обучение ) — это процесс извлечения структур знаний из непрерывных и быстрых записей данных. Поток данных — это упорядоченная последовательность экземпляров, которую во многих приложениях анализа потока данных можно прочитать только один раз или небольшое количество раз с использованием ограниченных вычислительных возможностей и возможностей хранения. [1]

Во многих приложениях для анализа потоков данных цель состоит в том, чтобы предсказать класс или значение новых экземпляров в потоке данных, учитывая некоторые знания о членстве в классе или значениях предыдущих экземпляров в потоке данных. [2] Методы машинного обучения можно использовать для автоматического изучения этой задачи прогнозирования на основе помеченных примеров.Часто концепции из области постепенного обучения применяются, чтобы справиться со структурными изменениями, онлайн-обучением и требованиями реального времени. Во многих приложениях, особенно работающих в нестационарных средах, распределение, лежащее в основе экземпляров, или правила, лежащие в основе их маркировки, могут меняться со временем, т. е. могут меняться цель прогнозирования, прогнозируемый класс или прогнозируемое целевое значение. через некоторое время. [3] Эта проблема называется дрейфом понятий . Обнаружение отклонения концепции — центральная проблема интеллектуального анализа потоков данных. [4] [5] Другие проблемы [6] которые возникают при применении машинного обучения к потоковой передаче данных, включают: частично и с задержкой помеченные данные, [7] [8] восстановление после концептуальных отклонений, [1] и временные зависимости. [9]

Примеры потоков данных включают трафик компьютерной сети, телефонные разговоры, транзакции банкоматов, поиск в Интернете и данные датчиков.Интеллектуальный анализ потоков данных можно рассматривать как подобласть интеллектуального анализа данных , машинного обучения и открытия знаний .

Программное обеспечение для интеллектуального анализа потоков данных

[ редактировать ]
  • MOA (массовый онлайн-анализ) : бесплатное программное обеспечение с открытым исходным кодом, предназначенное для анализа потоков данных с изменением концепции, разработанное на Java. Он имеет несколько алгоритмов машинного обучения ( классификация , регрессия , кластеризация , обнаружение выбросов и рекомендательные системы). Кроме того, он содержит метод предварительной оценки, методы дрейфа концепций EDDM, считыватель реальных наборов данных ARFF и генераторы искусственных потоков, такие как концепции SEA, STAGGER, вращающаяся гиперплоскость , случайное дерево и функции на основе случайного радиуса . MOA поддерживает двунаправленное взаимодействие с Weka (машинное обучение) . [ нужна ссылка ]
  • scikit-multiflow : платформа машинного обучения для данных с несколькими выходами, несколькими метками и потоками, реализованная на Python. [10] scikit-multiflow содержит генераторы потоков, методы обучения потоков для одной и нескольких целей, детекторы концептуального дрейфа, методы оценки и визуализации. (Программное обеспечение прекращено) [11]
  • StreamDM : StreamDM — это платформа с открытым исходным кодом для анализа больших потоков данных, которая использует Spark Streaming. [12] расширение основного API Spark. Одним из преимуществ StreamDM по сравнению с существующими платформами является то, что он напрямую использует API Spark Streaming, который решает большинство сложных проблем базовых источников данных, таких как неупорядоченные данные и восстановление после сбоев.
  • RapidMiner : коммерческое программное обеспечение для обнаружения знаний, интеллектуального анализа данных и машинного обучения, которое также включает анализ потоков данных, изучение концепций, изменяющихся во времени, и отслеживание концепции дрейфа (если используется в сочетании с плагином интеллектуального анализа потока данных (ранее: плагин Concept Drift))
  • RiverML: River — это библиотека Python для онлайн-машинного обучения. Это результат слияния компаний Creme и scikit-multiflow. Цель River — стать лучшей библиотекой для машинного обучения потоковой передачи данных. [13]
  • GAENARI : инкрементальное дерево решений C++. Он непрерывно выполняет вставки и обновления фрагментированных наборов данных. Восстановить поддержку проблем с отклонением концепций.

См. также

[ редактировать ]
  1. ^ Jump up to: а б Гомес, Эйтор М.; Бифет, Альберт; Читай, Джесси; Бардал, Жан Поль; Энембрек, Фабрисио; Пфарингер, Бернхард; Холмс, Джефф; Абдессалем, Талель (1 октября 2017 г.). «Адаптивные случайные леса для развития классификации потоков данных» . Машинное обучение . 106 (9): 1469–1495. дои : 10.1007/s10994-017-5642-8 . hdl : 10289/11231 . ISSN   1573-0565 .
  2. ^ Медхат, Мохамед; Заславский; Кришнасвами (1 июня 2005 г.). «Майнинг потоков данных». Запись ACM SIGMOD . 34 (2): 18–26. дои : 10.1145/1083784.1083789 . S2CID   705946 .
  3. ^ Лемэр, Винсент; Салпервик, Кристоф; Бонду, Алексис (2015), Зиманьи, Эстебан; Кутше, Ральф-Детлеф (ред.), «Опрос по контролируемой классификации потоков данных», Бизнес-аналитика: 4-я Европейская летняя школа, eBISS 2014, Берлин, Германия, 6–11 июля 2014 г., Учебные лекции , Конспекты лекций по бизнесу Обработка информации, Springer International Publishing, стр. 88–125, doi : 10.1007/978-3-319-17551-5_4 , ISBN.  978-3-319-17551-5
  4. ^ Уэбб, Джеффри И.; Ли, Лунг Куан; Петижан, Франсуа; Геталс, Барт (2 апреля 2017 г.). «Понимание концептуального дрейфа». arXiv : 1704.00362 [ cs.LG ].
  5. ^ Гама, Жуан; Жлиобайте; Бифет; Печеницкий; Бушачия (01 марта 2014 г.). «Опрос по адаптации концепции дрейфа» (PDF) . Обзоры вычислительной техники ACM . 46 (4): 1–37. дои : 10.1145/2523813 . S2CID   207208264 .
  6. ^ Гомеш, Эйтор Мурило; Читать; Бифет; Барддал; Гама (26 ноября 2019 г.). «Машинное обучение для потоковой передачи данных». Информационный бюллетень об исследованиях ACM SIGKDD . 21 (2): 6–22. дои : 10.1145/3373464.3373470 . S2CID   208607941 .
  7. ^ Гомеш, Эйтор Мурило; Грзенда, Мацей; Мелло, Родриго; Читай, Джесси; Ле Нгуен, Мин Хыонг; Бифет, Альберт (28 февраля 2022 г.). «Опрос по полуконтролируемому обучению для задержанных частично размеченных потоков данных» . Обзоры вычислительной техники ACM . 55 (4): 1–42. arXiv : 2106.09170 . дои : 10.1145/3523055 . ISSN   0360-0300 .
  8. ^ Грзенда, Мацей; Гомеш, Эйтор Мурило; Бифет, Альберт (16 ноября 2019 г.). «Отложенная оценка маркировки потоков данных» . Интеллектуальный анализ данных и обнаружение знаний . 34 (5): 1237–1266. дои : 10.1007/s10618-019-00654-y . ISSN   1573-756X .
  9. ^ Жлиобайте, Индре; Бифет, Альберт; Читай, Джесси; Пфарингер, Бернхард; Холмс, Джефф (01 марта 2015 г.). «Методы оценки и теория принятия решений для классификации потоковых данных с временной зависимостью» . Машинное обучение . 98 (3): 455–482. дои : 10.1007/s10994-014-5441-4 . hdl : 10289/8954 . ISSN   1573-0565 .
  10. ^ Монтьель, Джейкоб; Читай, Джесси; Бифет, Альберт; Абдессалем, Талель (2018). «Scikit-Multiflow: платформа потоковой передачи с несколькими выходами» . Журнал исследований машинного обучения . 19 (72): 1–5. arXiv : 1807.04662 . Бибкод : 2018arXiv180704662M . ISSN   1533-7928 .
  11. ^ Возможности , scikit-multiflow, 9 октября 2021 г. , получено 11 октября 2021 г.
  12. ^ Захария, Матей; Дас, Татхагата; Ли, Хаоюань; Хантер, Тимоти; Шенкер, Скотт; Стойка, Ион (2013). «Дискретизированные потоки». Материалы двадцать четвертого симпозиума ACM по принципам операционных систем . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 423–438. дои : 10.1145/2517349.2522737 . ISBN  978-1-4503-2388-8 .
  13. ^ online-ml/river , OnlineML, 11 октября 2021 г. , получено 11 октября 2021 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7a8f87ac354e0f7dbc519ff430246339__1704203400
URL1:https://arc.ask3.ru/arc/aa/7a/39/7a8f87ac354e0f7dbc519ff430246339.html
Заголовок, (Title) документа по адресу, URL1:
Data stream mining - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)