Концептуальный дрейф
В прогнозной аналитике , науке о данных , машинном обучении и смежных областях концепции дрейф или дрейф — это эволюция данных, которая делает модель данных недействительной . Это происходит, когда статистические свойства целевой переменной, которую пытается предсказать модель, со временем меняются непредвиденным образом. Это вызывает проблемы, поскольку с течением времени прогнозы становятся менее точными. Обнаружение дрейфа и адаптация дрейфа имеют первостепенное значение в областях, связанных с динамически изменяющимися данными и моделями данных.
Прогнозируемый распад модели
[ редактировать ]В машинном обучении и прогнозной аналитике это явление дрейфа называется дрейфом понятий. В машинном обучении общим элементом модели данных являются статистические свойства, такие как распределение вероятностей фактических данных. Если они отклоняются от статистических свойств набора обучающих данных , то полученные прогнозы могут стать недействительными, если не устранить дрейф. [1] [2] [3] [4]
Распад конфигурации данных
[ редактировать ]Другой важной областью является разработка программного обеспечения три типа отклонения данных, влияющего на точность данных , где можно выделить . Изменения в программной среде («дрейф инфраструктуры») могут сделать конфигурацию программной инфраструктуры недействительной. данных «Структурный сдвиг» происходит при изменении схемы , что может сделать базы данных недействительными. «Семантический дрейф» — это изменение смысла данных при неизменении структуры. Во многих случаях это может произойти в сложных приложениях, когда многие независимые разработчики вносят изменения, не осознавая должным образом последствий своих изменений в других областях программной системы. [5] [6]
Для многих прикладных систем характер данных, с которыми они работают, может меняться по разным причинам, например, из-за изменений в бизнес-модели, обновлений системы или переключения платформы, на которой работает система. [6]
В случае облачных вычислений смещение инфраструктуры, которое может повлиять на приложения, работающие в облаке, может быть вызвано обновлениями облачного программного обеспечения. [5]
Существует несколько типов вредного воздействия дрейфа данных на точность данных. Коррозия данных — это передача смещенных данных в систему незамеченными. Потеря данных происходит, когда действительные данные игнорируются из-за несоответствия применяемой схеме. Расточительство — это явление, когда новые поля данных вводятся в начале конвейера обработки данных, но где-то ниже по течению поля данных отсутствуют. [6]
Несогласованные данные
[ редактировать ]«Дрейф данных» может относиться к явлению, когда записи базы данных не соответствуют реальным данным из-за изменений последних с течением времени. Это распространенная проблема с базами данных, в которых участвуют люди, такие как клиенты, сотрудники, граждане, жители и т. д. Дрейф данных о людях может быть вызван незарегистрированными изменениями в личных данных, таких как место жительства или имя, а также из-за ошибок во время ввод данных. [7]
«Дрейф данных» также может относиться к несогласованности элементов данных между несколькими репликами базы данных. Причины может быть трудно определить. Простое обнаружение дрейфа — регулярное выполнение контрольной суммы . Однако исправить ситуацию может оказаться не так просто. [8]
Примеры
[ редактировать ]Поведение покупателей в интернет-магазине может со временем меняться. Например, если необходимо спрогнозировать еженедельные продажи товаров и прогнозирующая модель была разработана , которая работает удовлетворительно. Модель может использовать такие входные данные, как сумма денег, потраченная на рекламу , рекламные акции проводимые и другие показатели, которые могут повлиять на продажи. Вероятно, со временем модель будет становиться все менее и менее точной – это дрейф концепции. В приложении для продажи товаров одной из причин отклонения концепции может быть сезонность, то есть поведение покупателей меняется в зависимости от сезона. Возможно, в зимний курортный сезон продажи будут выше, чем, например, летом. Смещение концепции обычно происходит, когда ковариаты, составляющие набор данных, начинают менее точно объяснять вариации вашего целевого набора — могут появиться некоторые мешающие переменные, которые просто невозможно учесть, что приводит к постепенному снижению точности модели. со временем. Как правило, рекомендуется выполнять проверки работоспособности в рамках постпроизводственного анализа и повторно обучать модель с использованием новых предположений при появлении признаков отклонения концепции.
Возможные средства правовой защиты
[ редактировать ]Чтобы предотвратить ухудшение точности прогнозирования из-за отклонения концепции, реактивные и отслеживающие можно принять решения. Реактивные решения переобучают модель в ответ на запускающий механизм, такой как тест обнаружения изменений. [9] [10] явно обнаружить отклонение концепции как изменение статистики процесса генерации данных. При обнаружении отклонения концепции текущая модель перестает быть актуальной и должна быть заменена новой для восстановления точности прогнозирования. [11] [12] Недостатком реактивных подходов является то, что производительность может снижаться до тех пор, пока изменение не будет обнаружено. Решения для отслеживания направлены на отслеживание изменений в концепции путем постоянного обновления модели. Методы достижения этой цели включают машинное обучение в режиме онлайн , частое переобучение на последних наблюдаемых образцах, [13] и поддержание ансамбля классификаторов, в котором один новый классификатор обучается на самой последней серии примеров и заменяет самый старый классификатор в ансамбле. [14]
Контекстную информацию, если она доступна, можно использовать для лучшего объяснения причин отклонения концепции: например, в приложении для прогнозирования продаж смещение концепции можно компенсировать путем добавления в модель информации о сезоне. Предоставляя информацию о времени года, скорость износа вашей модели, скорее всего, снизится, но отклонение концепции вряд ли удастся полностью устранить. Это связано с тем, что фактическое покупательское поведение не подчиняется какой-либо статической, конечной модели . В любой момент могут возникнуть новые факторы, влияющие на покупательское поведение, влияние известных факторов или их взаимодействие могут измениться.
Дрейфа понятий невозможно избежать для сложных явлений, которые не управляются фиксированными законами природы . Все процессы, возникающие в результате человеческой деятельности, такие как социально-экономические процессы и биологические процессы , вероятно, подвержены дрейфу концепций. Поэтому необходима периодическая переподготовка, также известная как обновление, любой модели.
См. также
[ редактировать ]- Интеллектуальный анализ потока данных
- Интеллектуальный анализ данных
- Snyk , компания, чье портфолио включает обнаружение дрейфа в программных приложениях.
Дальнейшее чтение
[ редактировать ]Было опубликовано множество статей, описывающих алгоритмы обнаружения отклонения понятий. Здесь только обзоры, обзоры и обзоры:
Отзывы
[ редактировать ]- Соуза, ВМА; Рейс, DM; Малецке, АГ; Батиста, GEAPA (2020). «Проблемы сравнительного анализа алгоритмов потокового обучения с реальными данными» . Интеллектуальный анализ данных и обнаружение знаний . 34 (6): 1805–58. arXiv : 2005.00113 . дои : 10.1007/s10618-020-00698-5 . S2CID 218470010 .
- Кравчик, Б.; Минку, LL; Гама, Дж.; Стефановский, Дж.; Возняк, М. (2017). «Ансамблевое обучение для анализа потоков данных: опрос» . Информационный синтез . 37 : 132–156. дои : 10.1016/j.inffus.2017.02.004 . hdl : 2381/39321 . S2CID 1372281 .
- Даль Поццоло, А.; Боракки, Г.; Кэлен, О.; Алиппи, К.; Бонтемпи, Г. (2015). «Обнаружение мошенничества с кредитными картами и адаптация концепции с задержкой контролируемой информации» (PDF) . Международная совместная конференция по нейронным сетям, 2015 г. (IJCNN) . IEEE. стр. 1–8. дои : 10.1109/IJCNN.2015.7280527 . ISBN 978-1-4799-1960-4 . S2CID 3947699 .
- Алиппи, К. (2014). «Обучение в нестационарной и развивающейся среде» . Интеллект для встраиваемых систем . Спрингер. стр. 211–247. дои : 10.1007/978-3-319-05278-6_9 . ISBN 978-3-319-05278-6 .
- Гама, Дж.; Жлиобайте И.; Бифет, А.; Печеницкий, М.; Бушачия, А. (1 марта 2014 г.), «Опрос по адаптации концептуального дрейфа» (PDF) , ACM Computing Surveys , 46 (4): 1–37, doi : 10.1145/2523813 , ISSN 0360-0300 , Zbl 1305.68141 , Wikidata Q58204632
- Алиппи, К.; Поликар Р. (январь 2014 г.). «Обучение гостевой редакции в нестационарной и развивающейся среде» . Транзакции IEEE в нейронных сетях и системах обучения . 25 (1): 9–11. дои : 10.1109/TNNLS.2013.2283547 . ПМИД 24806640 . S2CID 16547472 .
- Даль Поццоло, А.; Кэлен, О.; Ле Борнь, Ю.А.; Уотершут, С.; Бонтемпи, Г. (2014). «Извлеченные уроки по выявлению мошенничества с кредитными картами с точки зрения практика» (PDF) . Экспертные системы с приложениями . 41 (10): 4915–28. дои : 10.1016/j.eswa.2014.02.026 . S2CID 12656644 .
- Злиобайте И. Обучение в условиях дрейфа концепций: обзор. Технический отчет. 2009, Факультет математики и информатики, Вильнюсский университет: Вильнюс, Литва. PDF [ постоянная мертвая ссылка ]
- Цзян, Дж. (2008). «Обзор литературы по адаптации статистических классификаторов» (PDF) . Школа вычислительных и информационных систем Сингапурского университета менеджмента.
- Кунчева, Л.И. (2008). «Ансамбли классификаторов для обнаружения изменений концепции в потоковых данных: обзор и перспективы» (PDF) . Материалы 2-го семинара SUEMA 2008 (ECAI 2008) .
- Габер, ММ; Заславский А.; Кришнасвами, С. (июнь 2005 г.). «Потоки данных майнинга: обзор» (PDF) . Запись ACM SIGMOD . 34 (2): 18–26. дои : 10.1145/1083784.1083789 . S2CID 705946 .
- Кунчева, Л.И. (2004). «Ансамбли классификаторов для изменяющейся среды» (PDF) . Множественные системы классификаторов. МКС 2004 . Конспекты лекций по информатике. Том. 3077. Спрингер. стр. 1–15. дои : 10.1007/978-3-540-25966-4_1 . ISBN 978-3-540-25966-4 .
- Цымбал, А. (2004). Проблема дрейфа понятий: определения и связанная с ними работа (PDF) (Технический отчет). Дублин, Ирландия: Департамент компьютерных наук Тринити-колледжа. TCD-CS-2004-15.
Внешние ссылки
[ редактировать ] в этой статье Использование внешних ссылок может не соответствовать политике и рекомендациям Википедии . ( Август 2023 г. ) |
Программное обеспечение
[ редактировать ]- Frouros с открытым исходным кодом : библиотека Python для обнаружения дрейфа в системах машинного обучения . [15]
- NannyML с открытым исходным кодом : библиотека Python для обнаружения отклонения одномерного и многомерного распределения и оценки производительности модели машинного обучения без меток истинности.
- RapidMiner : ранее называвшаяся «Еще одна обучающая среда» (YALE): бесплатное программное обеспечение с открытым исходным кодом для обнаружения знаний, интеллектуального анализа данных и машинного обучения, которое также включает интеллектуальный анализ потоков данных, изучение концепций, изменяющихся во времени, и отслеживание концепции дрейфа. Он используется в сочетании с плагином интеллектуального анализа потоков данных (ранее плагин концептуального дрейфа).
- EDDM ( Early Drift Detection Method ): бесплатная реализация методов обнаружения дрейфа с открытым исходным кодом в Weka .
- MOA (массовый онлайн-анализ) : бесплатное программное обеспечение с открытым исходным кодом, специально предназначенное для анализа потоков данных с изменением концепции. Он содержит метод предварительной оценки, методы дрейфа концепций EDDM, средство чтения реальных наборов данных ARFF и генераторы искусственных потоков, такие как концепции SEA, STAGGER, вращающаяся гиперплоскость, случайное дерево и функции на основе случайного радиуса. MOA поддерживает двунаправленное взаимодействие с Weka .
Наборы данных
[ редактировать ]Настоящий
[ редактировать ]- Репозиторий потоков данных USP , 27 наборов данных о реальных потоках с отклонением концепций, собранных Соузой и др. (2020). Доступ
- Авиакомпания , около 116 миллионов записей о прилете и вылете рейсов (очищенные и отсортированные), составленные Э. Икономовской. Ссылка: Конкурс Data Expo 2009 [1] . Доступ
- Наборы данных Chess.com (онлайн-игры) и Luxembourg (социальный опрос), составленные И. Злиобайте. Доступ
- ECUE спам 2 набора данных, каждый из которых состоит из более чем 10 000 электронных писем, собранных отдельным лицом в течение примерно 2 лет. Доступ с веб-страницы SJDelany
- Elec2 , спрос на электроэнергию, 2 класса, 45 312 экземпляров. Ссылка: М. Харрис, Сравнительная оценка Splice-2: Цены на электроэнергию, Технический отчет, Университет Южного Уэльса, 1999. Доступ с веб-страницы Дж. Гамы. Прокомментируйте применимость .
- Данные конкурса PAKDD'09 представляют собой задачу оценки кредитоспособности. Он собирается в течение пяти лет. К сожалению, настоящие метки публикуются только для первой части данных. Доступ
- Наборы данных потоков датчиков и источников питания доступны в репозитории Stream Data Mining X. Zhu. Доступ
- SMEAR — это поток эталонных данных с большим количеством пропущенных значений. Данные наблюдений за окружающей средой за 7 лет. Прогнозируйте облачность. Доступ
- Анализ текста — коллекция наборов данных интеллектуального анализа текста с отклонением концепций, поддерживаемая И. Катакисом. Доступ
- Набор данных о дрейфе массива газовых датчиков — набор из 13 910 измерений от 16 химических датчиков, используемых для компенсации дрейфа в задаче распознавания шести газов с различными уровнями концентраций. Доступ
Другой
[ редактировать ]- Данные о соревнованиях KDD'99 содержат моделируемые вторжения в военную сетевую среду. Его часто используют в качестве эталона для оценки отклонения концепции управления. Доступ
Синтетический
[ редактировать ]- Экстремальная задержка проверки Соуза, ВМА; Сильва, ДФ; Гама, Дж.; Батиста, GEAPA (2015). «Классификация потоков данных на основе кластеризации в нестационарных средах и экстремальной задержки проверки» . Материалы Международной конференции SIAM по интеллектуальному анализу данных (SDM) 2015 г. СИАМ. стр. 873–881. дои : 10.1137/1.9781611974010.98 . ISBN 9781611974010 . S2CID 19198944 . Доступ из нестационарных сред – Архив.
- Синус, линия, плоскость, окружность и логические наборы данных Минку, LL; Уайт, АП; Яо, X. (2010). «Влияние разнообразия на ансамблевое онлайн-обучение при наличии смещения концепций» (PDF) . Транзакции IEEE по знаниям и инженерии данных . 22 (5): 730–742. дои : 10.1109/TKDE.2009.156 . S2CID 16592739 . Доступ с веб-страницы Л.Минку.
- Концепции СЭО Улица, северо-запад; Ким, Ю. (2001). «Алгоритм потокового ансамбля (SEA) для крупномасштабной классификации» (PDF) . KDD'01: Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . стр. 377–382. дои : 10.1145/502512.502568 . ISBN 978-1-58113-391-2 . S2CID 11868540 . Доступ с веб-страницы Дж.Гамы.
- ШТАГГЕР Шлиммер, Дж. К.; Грейнджер, Р.Х. (1986). «Поэтапное обучение на основе зашумленных данных» . Мах. Учиться . 1 (3): 317–354. дои : 10.1007/BF00116895 . S2CID 33776987 .
- Смешанный Гама, Дж.; Медас, П.; Кастильо, Г.; Родригес, П. (2004). «Обучение с обнаружением дрейфа» . Бразильский симпозиум по искусственному интеллекту . Спрингер. стр. 286–295. дои : 10.1007/978-3-540-28645-5_29 . ISBN 978-3-540-28645-5 . S2CID 2606652 .
Платформы генерации данных
[ редактировать ]- Минку, Уайт и Яо, 2010 г. Скачать с веб-страницы Л.Минку.
- Линдстрем, П.; Делани, С.Дж.; МакНэми, Б. (2008). «Автопилот: моделирование изменения концепций в реальных данных» (PDF) . Материалы 19-й Ирландской конференции по искусственному интеллекту и когнитивной науке . стр. 272–263.
- Нарасимхамурти, А.; Кунчева, Л.И. (2007). «Среда для генерации данных для моделирования изменяющейся среды» . AIAP'07: Материалы 25-й Международной мультиконференции IASTED: искусственный интеллект и приложения . стр. 384–389. Код
Проекты
[ редактировать ]- INFER : Платформа вычислительного интеллекта для развивающихся и надежных систем прогнозирования (2010–2014), Университет Борнмута (Великобритания), Evonik Industries (Германия), Исследовательский и инженерный центр (Польша)
- HaCDAIS : Управление дрейфом концепций в адаптивных информационных системах (2008–2012), Технологический университет Эйндховена (Нидерланды)
- KDUS : Обнаружение знаний из повсеместных потоков, INESC Порту и Лаборатория искусственного интеллекта и поддержки принятия решений (Португалия)
- ADEPT : Методы адаптивного динамического ансамблевого прогнозирования, Манчестерский университет (Великобритания), Бристольский университет (Великобритания)
- АЛАДДИН : автономные обучающие агенты для децентрализованных сетей данных и информации (2005–2010 гг.)
- GAENARI : алгоритм инкрементального дерева решений C++. это минимизирует ущерб от заноса концепции. (2022)
- Примеры анализа отклонения концепции
Тесты
[ редактировать ]- NAB : The Numenta Anomaly Benchmark, тест для оценки алгоритмов обнаружения аномалий в потоковых приложениях реального времени. (2014–2018)
Встречи
[ редактировать ]- 2014
- [] Специальная сессия «Дрейф концепций, адаптация предметной области и обучение в динамических средах» @IEEE IJCNN 2014
- 2013
- RealStream Реальные проблемы интеллектуального анализа потоков данных. Семинар-обсуждение на ECML PKDD 2013, Прага, Чехия.
- LEAPS 2013 1-й международный семинар по стратегиям обучения и обработке данных в нестационарных средах
- 2011
- Специальная сессия LEE 2011 по обучению в развивающейся среде и его применению для решения реальных проблем на ICMLA'11
- HaCDAIS 2011 2-й международный семинар по борьбе с изменением концепций в адаптивных информационных системах
- Курс ICAIS 2011 по поэтапному обучению
- Специальная сессия IJCNN 2011 г., посвященная дрейфу концепций и динамической среде обучения
- Симпозиум CIDUE 2011 по вычислительному интеллекту в динамических и неопределенных средах
- 2010
- Международный семинар HaCDAIS 2010 по борьбе с изменением концепций в адаптивных информационных системах: важность, проблемы и решения
- Специальная сессия ICMLA10 по динамическому обучению в нестационарных средах
- Потоки данных SAC 2010 отслеживаются на симпозиуме ACM по прикладным вычислениям
- SensorKDD 2010 Международный семинар по обнаружению знаний на основе данных датчиков
- StreamKDD 2010 Новые методы анализа шаблонов потоков данных
- Дрейф концепций и обучение в нестационарных средах на Всемирном конгрессе IEEE по вычислительному интеллекту
- Специальная сессия MLMDS'2010 по методам машинного обучения для потоков данных на 10-й Международной конференции по интеллектуальному проектированию и приложениям ISDA'10
Ссылки
[ редактировать ]- ^ Коггалахева, Даршика; Сюй, Юэ; Фу, Эрнест (2021). «Подход на основе иерархического тестирования с учетом дрейфа для борьбы с социальными спамерами в социальных сетях». Интеллектуальный анализ данных . Коммуникации в компьютерной и информатике. Том. 1504. стр. 47–61. дои : 10.1007/978-981-16-8531-6_4 . ISBN 978-981-16-8530-9 . S2CID 245009299 .
- ^ Видмер, Герхард; Кубат, Мирослав (1996). «Обучение в присутствии дрейфа понятий и скрытых контекстов» . Машинное обучение . 23 : 69–101. дои : 10.1007/BF00116900 . S2CID 206767784 .
- ^ Ся, Юань; Чжао, Юньлун (2020). «Метод обнаружения дрейфа, основанный на мере разнообразия и неравенстве МакДиармида в потоках данных». Зеленые, всеобъемлющие и облачные вычисления . Конспекты лекций по информатике. Том. 12398. стр. 115–122. дои : 10.1007/978-3-030-64243-3_9 . ISBN 978-3-030-64242-6 . S2CID 227275380 .
- ^ Лу, Цзе; Лю, Анджин; Донг, Фан; Гу, Фэн; Гама, Жуан; Чжан, Гуанцюань (2018). «Обучение в рамках концептуального дрейфа: обзор». Транзакции IEEE по знаниям и инженерии данных : 1. arXiv : 2004.05785 . дои : 10.1109/TKDE.2018.2876857 . S2CID 69449458 .
- ^ Перейти обратно: а б «Driftctl и Terraform — два одинаковых вида!»
- ^ Перейти обратно: а б с Гириш Панча, Скрытое бедствие больших данных: дрейф данных , CMSWire , 8 апреля 2016 г.
- ^ Мэтью Магне, «Происходит дрейф данных: 7 неприятных проблем с данными о людях» , InformationWeek , 19 июля 2017 г.
- ^ Дэниел Нихтер, Эффективная производительность MySQL , 2021 г., ISBN 1098105060 , с. 299
- ^ Басвиль, Мишель (1993). Обнаружение резких изменений: теория и применение . Прентис Холл. ISBN 0-13-126780-9 . ОСЛК 876004326 .
- ^ Алиппи, К.; Ровери, М. (2007). «Адаптивные классификаторы в стационарных условиях». 2007 Международная совместная конференция по нейронным сетям . IEEE. стр. 1008–13. дои : 10.1109/ijcnn.2007.4371096 . ISBN 978-1-4244-1380-5 . S2CID 16255206 .
- ^ Гама, Дж.; Медас, П.; Кастильо, Г.; Родригес, П. (2004). «Обучение с обнаружением дрейфа». Достижения в области искусственного интеллекта – SBIA 2004 . Спрингер. стр. 286–295. дои : 10.1007/978-3-540-28645-5_29 . ISBN 978-3-540-28645-5 . S2CID 2606652 .
- ^ Алиппи, К.; Боракки, Г.; Ровери, М. (2011). «Адаптивная система классификации «точно в срок», основанная на правиле пересечения доверительных интервалов». Нейронные сети . 24 (8): 791–800. дои : 10.1016/j.neunet.2011.05.012 . ПМИД 21723706 .
- ^ Видмер, Г.; Кубат, М. (1996). «Обучение в присутствии дрейфа понятий и скрытых контекстов» . Машинное обучение . 23 (1): 69–101. дои : 10.1007/bf00116900 . S2CID 206767784 .
- ^ Элвелл, Р.; Поликар, Р. (2011). «Поэтапное изучение дрейфа концепций в нестационарной среде». Транзакции IEEE в нейронных сетях . 22 (10): 1517–31. дои : 10.1109/tnn.2011.2160459 . ПМИД 21824845 . S2CID 9136731 .
- ^ Сеспедес Сисниега, Хайме; Лопес Гарсиа, Альваро (2024). «Frouros: библиотека Python с открытым исходным кодом для обнаружения дрейфа в системах машинного обучения» (PDF) . Программное обеспечениеX . 26 . Elsevier: 101733. doi : 10.1016/j.softx.2024.101733 . hdl : 10261/358367 .