Jump to content

Концептуальный дрейф

В прогнозной аналитике , науке о данных , машинном обучении и смежных областях концепции дрейф или дрейф — это эволюция данных, которая делает модель данных недействительной . Это происходит, когда статистические свойства целевой переменной, которую пытается предсказать модель, со временем меняются непредвиденным образом. Это вызывает проблемы, поскольку с течением времени прогнозы становятся менее точными. Обнаружение дрейфа и адаптация дрейфа имеют первостепенное значение в областях, связанных с динамически изменяющимися данными и моделями данных.

Прогнозируемый распад модели

[ редактировать ]

В машинном обучении и прогнозной аналитике это явление дрейфа называется дрейфом понятий. В машинном обучении общим элементом модели данных являются статистические свойства, такие как распределение вероятностей фактических данных. Если они отклоняются от статистических свойств набора обучающих данных , то полученные прогнозы могут стать недействительными, если не устранить дрейф. [1] [2] [3] [4]

Распад конфигурации данных

[ редактировать ]

Другой важной областью является разработка программного обеспечения три типа отклонения данных, влияющего на точность данных , где можно выделить . Изменения в программной среде («дрейф инфраструктуры») могут сделать конфигурацию программной инфраструктуры недействительной. данных «Структурный сдвиг» происходит при изменении схемы , что может сделать базы данных недействительными. «Семантический дрейф» — это изменение смысла данных при неизменении структуры. Во многих случаях это может произойти в сложных приложениях, когда многие независимые разработчики вносят изменения, не осознавая должным образом последствий своих изменений в других областях программной системы. [5] [6]

Для многих прикладных систем характер данных, с которыми они работают, может меняться по разным причинам, например, из-за изменений в бизнес-модели, обновлений системы или переключения платформы, на которой работает система. [6]

В случае облачных вычислений смещение инфраструктуры, которое может повлиять на приложения, работающие в облаке, может быть вызвано обновлениями облачного программного обеспечения. [5]

Существует несколько типов вредного воздействия дрейфа данных на точность данных. Коррозия данных — это передача смещенных данных в систему незамеченными. Потеря данных происходит, когда действительные данные игнорируются из-за несоответствия применяемой схеме. Расточительство — это явление, когда новые поля данных вводятся в начале конвейера обработки данных, но где-то ниже по течению поля данных отсутствуют. [6]

Несогласованные данные

[ редактировать ]

«Дрейф данных» может относиться к явлению, когда записи базы данных не соответствуют реальным данным из-за изменений последних с течением времени. Это распространенная проблема с базами данных, в которых участвуют люди, такие как клиенты, сотрудники, граждане, жители и т. д. Дрейф данных о людях может быть вызван незарегистрированными изменениями в личных данных, таких как место жительства или имя, а также из-за ошибок во время ввод данных. [7]

«Дрейф данных» также может относиться к несогласованности элементов данных между несколькими репликами базы данных. Причины может быть трудно определить. Простое обнаружение дрейфа — регулярное выполнение контрольной суммы . Однако исправить ситуацию может оказаться не так просто. [8]

Поведение покупателей в интернет-магазине может со временем меняться. Например, если необходимо спрогнозировать еженедельные продажи товаров и прогнозирующая модель была разработана , которая работает удовлетворительно. Модель может использовать такие входные данные, как сумма денег, потраченная на рекламу , рекламные акции проводимые и другие показатели, которые могут повлиять на продажи. Вероятно, со временем модель будет становиться все менее и менее точной – это дрейф концепции. В приложении для продажи товаров одной из причин отклонения концепции может быть сезонность, то есть поведение покупателей меняется в зависимости от сезона. Возможно, в зимний курортный сезон продажи будут выше, чем, например, летом. Смещение концепции обычно происходит, когда ковариаты, составляющие набор данных, начинают менее точно объяснять вариации вашего целевого набора — могут появиться некоторые мешающие переменные, которые просто невозможно учесть, что приводит к постепенному снижению точности модели. со временем. Как правило, рекомендуется выполнять проверки работоспособности в рамках постпроизводственного анализа и повторно обучать модель с использованием новых предположений при появлении признаков отклонения концепции.

Возможные средства правовой защиты

[ редактировать ]

Чтобы предотвратить ухудшение точности прогнозирования из-за отклонения концепции, реактивные и отслеживающие можно принять решения. Реактивные решения переобучают модель в ответ на запускающий механизм, такой как тест обнаружения изменений. [9] [10] явно обнаружить отклонение концепции как изменение статистики процесса генерации данных. При обнаружении отклонения концепции текущая модель перестает быть актуальной и должна быть заменена новой для восстановления точности прогнозирования. [11] [12] Недостатком реактивных подходов является то, что производительность может снижаться до тех пор, пока изменение не будет обнаружено. Решения для отслеживания направлены на отслеживание изменений в концепции путем постоянного обновления модели. Методы достижения этой цели включают машинное обучение в режиме онлайн , частое переобучение на последних наблюдаемых образцах, [13] и поддержание ансамбля классификаторов, в котором один новый классификатор обучается на самой последней серии примеров и заменяет самый старый классификатор в ансамбле. [14]

Контекстную информацию, если она доступна, можно использовать для лучшего объяснения причин отклонения концепции: например, в приложении для прогнозирования продаж смещение концепции можно компенсировать путем добавления в модель информации о сезоне. Предоставляя информацию о времени года, скорость износа вашей модели, скорее всего, снизится, но отклонение концепции вряд ли удастся полностью устранить. Это связано с тем, что фактическое покупательское поведение не подчиняется какой-либо статической, конечной модели . В любой момент могут возникнуть новые факторы, влияющие на покупательское поведение, влияние известных факторов или их взаимодействие могут измениться.

Дрейфа понятий невозможно избежать для сложных явлений, которые не управляются фиксированными законами природы . Все процессы, возникающие в результате человеческой деятельности, такие как социально-экономические процессы и биологические процессы , вероятно, подвержены дрейфу концепций. Поэтому необходима периодическая переподготовка, также известная как обновление, любой модели.

См. также

[ редактировать ]

Дальнейшее чтение

[ редактировать ]

Было опубликовано множество статей, описывающих алгоритмы обнаружения отклонения понятий. Здесь только обзоры, обзоры и обзоры:

[ редактировать ]

Программное обеспечение

[ редактировать ]
  • Frouros с открытым исходным кодом : библиотека Python для обнаружения дрейфа в системах машинного обучения . [15]
  • NannyML с открытым исходным кодом : библиотека Python для обнаружения отклонения одномерного и многомерного распределения и оценки производительности модели машинного обучения без меток истинности.
  • RapidMiner : ранее называвшаяся «Еще одна обучающая среда» (YALE): бесплатное программное обеспечение с открытым исходным кодом для обнаружения знаний, интеллектуального анализа данных и машинного обучения, которое также включает интеллектуальный анализ потоков данных, изучение концепций, изменяющихся во времени, и отслеживание концепции дрейфа. Он используется в сочетании с плагином интеллектуального анализа потоков данных (ранее плагин концептуального дрейфа).
  • EDDM ( Early Drift Detection Method ): бесплатная реализация методов обнаружения дрейфа с открытым исходным кодом в Weka .
  • MOA (массовый онлайн-анализ) : бесплатное программное обеспечение с открытым исходным кодом, специально предназначенное для анализа потоков данных с изменением концепции. Он содержит метод предварительной оценки, методы дрейфа концепций EDDM, средство чтения реальных наборов данных ARFF и генераторы искусственных потоков, такие как концепции SEA, STAGGER, вращающаяся гиперплоскость, случайное дерево и функции на основе случайного радиуса. MOA поддерживает двунаправленное взаимодействие с Weka .

Наборы данных

[ редактировать ]

Настоящий

[ редактировать ]
  • Репозиторий потоков данных USP , 27 наборов данных о реальных потоках с отклонением концепций, собранных Соузой и др. (2020). Доступ
  • Авиакомпания , около 116 миллионов записей о прилете и вылете рейсов (очищенные и отсортированные), составленные Э. Икономовской. Ссылка: Конкурс Data Expo 2009 [1] . Доступ
  • Наборы данных Chess.com (онлайн-игры) и Luxembourg (социальный опрос), составленные И. Злиобайте. Доступ
  • ECUE спам 2 набора данных, каждый из которых состоит из более чем 10 000 электронных писем, собранных отдельным лицом в течение примерно 2 лет. Доступ с веб-страницы SJDelany
  • Elec2 , спрос на электроэнергию, 2 класса, 45 312 экземпляров. Ссылка: М. Харрис, Сравнительная оценка Splice-2: Цены на электроэнергию, Технический отчет, Университет Южного Уэльса, 1999. Доступ с веб-страницы Дж. Гамы. Прокомментируйте применимость .
  • Данные конкурса PAKDD'09 представляют собой задачу оценки кредитоспособности. Он собирается в течение пяти лет. К сожалению, настоящие метки публикуются только для первой части данных. Доступ
  • Наборы данных потоков датчиков и источников питания доступны в репозитории Stream Data Mining X. Zhu. Доступ
  • SMEAR — это поток эталонных данных с большим количеством пропущенных значений. Данные наблюдений за окружающей средой за 7 лет. Прогнозируйте облачность. Доступ
  • Анализ текста — коллекция наборов данных интеллектуального анализа текста с отклонением концепций, поддерживаемая И. Катакисом. Доступ
  • Набор данных о дрейфе массива газовых датчиков — набор из 13 910 измерений от 16 химических датчиков, используемых для компенсации дрейфа в задаче распознавания шести газов с различными уровнями концентраций. Доступ
  • Данные о соревнованиях KDD'99 содержат моделируемые вторжения в военную сетевую среду. Его часто используют в качестве эталона для оценки отклонения концепции управления. Доступ

Синтетический

[ редактировать ]

Платформы генерации данных

[ редактировать ]
  • INFER : Платформа вычислительного интеллекта для развивающихся и надежных систем прогнозирования (2010–2014), Университет Борнмута (Великобритания), Evonik Industries (Германия), Исследовательский и инженерный центр (Польша)
  • HaCDAIS : Управление дрейфом концепций в адаптивных информационных системах (2008–2012), Технологический университет Эйндховена (Нидерланды)
  • KDUS : Обнаружение знаний из повсеместных потоков, INESC Порту и Лаборатория искусственного интеллекта и поддержки принятия решений (Португалия)
  • ADEPT : Методы адаптивного динамического ансамблевого прогнозирования, Манчестерский университет (Великобритания), Бристольский университет (Великобритания)
  • АЛАДДИН : автономные обучающие агенты для децентрализованных сетей данных и информации (2005–2010 гг.)
  • GAENARI : алгоритм инкрементального дерева решений C++. это минимизирует ущерб от заноса концепции. (2022)
  • Примеры анализа отклонения концепции
  • NAB : The Numenta Anomaly Benchmark, тест для оценки алгоритмов обнаружения аномалий в потоковых приложениях реального времени. (2014–2018)
  • 2014
    • [] Специальная сессия «Дрейф концепций, адаптация предметной области и обучение в динамических средах» @IEEE IJCNN 2014
  • 2013
    • RealStream Реальные проблемы интеллектуального анализа потоков данных. Семинар-обсуждение на ECML PKDD 2013, Прага, Чехия.
    • LEAPS 2013 1-й международный семинар по стратегиям обучения и обработке данных в нестационарных средах
  • 2011
  • 2010
  1. ^ Коггалахева, Даршика; Сюй, Юэ; Фу, Эрнест (2021). «Подход на основе иерархического тестирования с учетом дрейфа для борьбы с социальными спамерами в социальных сетях». Интеллектуальный анализ данных . Коммуникации в компьютерной и информатике. Том. 1504. стр. 47–61. дои : 10.1007/978-981-16-8531-6_4 . ISBN  978-981-16-8530-9 . S2CID   245009299 .
  2. ^ Видмер, Герхард; Кубат, Мирослав (1996). «Обучение в присутствии дрейфа понятий и скрытых контекстов» . Машинное обучение . 23 : 69–101. дои : 10.1007/BF00116900 . S2CID   206767784 .
  3. ^ Ся, Юань; Чжао, Юньлун (2020). «Метод обнаружения дрейфа, основанный на мере разнообразия и неравенстве МакДиармида в потоках данных». Зеленые, всеобъемлющие и облачные вычисления . Конспекты лекций по информатике. Том. 12398. стр. 115–122. дои : 10.1007/978-3-030-64243-3_9 . ISBN  978-3-030-64242-6 . S2CID   227275380 .
  4. ^ Лу, Цзе; Лю, Анджин; Донг, Фан; Гу, Фэн; Гама, Жуан; Чжан, Гуанцюань (2018). «Обучение в рамках концептуального дрейфа: обзор». Транзакции IEEE по знаниям и инженерии данных : 1. arXiv : 2004.05785 . дои : 10.1109/TKDE.2018.2876857 . S2CID   69449458 .
  5. ^ Перейти обратно: а б «Driftctl и Terraform — два одинаковых вида!»
  6. ^ Перейти обратно: а б с Гириш Панча, Скрытое бедствие больших данных: дрейф данных , CMSWire , 8 апреля 2016 г.
  7. ^ Мэтью Магне, «Происходит дрейф данных: 7 неприятных проблем с данными о людях» , InformationWeek , 19 июля 2017 г.
  8. ^ Дэниел Нихтер, Эффективная производительность MySQL , 2021 г., ISBN   1098105060 , с. 299
  9. ^ Басвиль, Мишель (1993). Обнаружение резких изменений: теория и применение . Прентис Холл. ISBN  0-13-126780-9 . ОСЛК   876004326 .
  10. ^ Алиппи, К.; Ровери, М. (2007). «Адаптивные классификаторы в стационарных условиях». 2007 Международная совместная конференция по нейронным сетям . IEEE. стр. 1008–13. дои : 10.1109/ijcnn.2007.4371096 . ISBN  978-1-4244-1380-5 . S2CID   16255206 .
  11. ^ Гама, Дж.; Медас, П.; Кастильо, Г.; Родригес, П. (2004). «Обучение с обнаружением дрейфа». Достижения в области искусственного интеллекта – SBIA 2004 . Спрингер. стр. 286–295. дои : 10.1007/978-3-540-28645-5_29 . ISBN  978-3-540-28645-5 . S2CID   2606652 .
  12. ^ Алиппи, К.; Боракки, Г.; Ровери, М. (2011). «Адаптивная система классификации «точно в срок», основанная на правиле пересечения доверительных интервалов». Нейронные сети . 24 (8): 791–800. дои : 10.1016/j.neunet.2011.05.012 . ПМИД   21723706 .
  13. ^ Видмер, Г.; Кубат, М. (1996). «Обучение в присутствии дрейфа понятий и скрытых контекстов» . Машинное обучение . 23 (1): 69–101. дои : 10.1007/bf00116900 . S2CID   206767784 .
  14. ^ Элвелл, Р.; Поликар, Р. (2011). «Поэтапное изучение дрейфа концепций в нестационарной среде». Транзакции IEEE в нейронных сетях . 22 (10): 1517–31. дои : 10.1109/tnn.2011.2160459 . ПМИД   21824845 . S2CID   9136731 .
  15. ^ Сеспедес Сисниега, Хайме; Лопес Гарсиа, Альваро (2024). «Frouros: библиотека Python с открытым исходным кодом для обнаружения дрейфа в системах машинного обучения» (PDF) . Программное обеспечениеX . 26 . Elsevier: 101733. doi : 10.1016/j.softx.2024.101733 . hdl : 10261/358367 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b25ba1dbc85914be7ccf66b2a7bafe94__1721055480
URL1:https://arc.ask3.ru/arc/aa/b2/94/b25ba1dbc85914be7ccf66b2a7bafe94.html
Заголовок, (Title) документа по адресу, URL1:
Concept drift - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)