Утечка (машинное обучение)
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
В статистике и машинном обучении утечка ( также известная как утечка данных или целевая утечка ) — это использование в процессе обучения модели информации , которая, как ожидается, не будет доступна во время прогнозирования прогнозных оценок (метрик) , что приводит к переоценке модели. утилита при запуске в производственной среде. [1]
Утечка часто бывает незаметной и косвенной, что затрудняет ее обнаружение и устранение. Утечка может привести к тому, что статистик или разработчик моделей выберет неоптимальную модель, которую может превзойти модель без утечек. [1]
Режимы утечки
[ редактировать ]Утечка может происходить на многих этапах процесса машинного обучения. Причины утечек можно разделить на два возможных источника утечек для модели: функции и обучающие примеры. [1]
Утечка функций
[ редактировать ]Утечка по функциям или столбцам вызвана включением столбцов, которые являются одним из следующих: повторяющаяся метка, прокси для метки или сама метка. Эти функции, известные как анахронизмы , будут недоступны, когда модель используется для прогнозов, и приводят к утечке данных, если они включены при обучении модели. [2]
Например, включение столбца «MonthlySalary» при прогнозировании «YearlySalary»; или «MinutesLate» при прогнозировании «IsLate».
Утечка обучающего примера
[ редактировать ]Утечка по строкам вызвана неправильным разделением информации между строками данных. Типы построчной утечки включают в себя:
- Преждевременная фичеризация ; утечка из-за преждевременной характеристики перед разделением перекрестной проверки /поезда/теста (должен соответствовать MinMax/ngrams/etc только для разделения поезда, а затем преобразовать набор тестов)
- Дублирование строк между обучением/проверкой/тестом (например, передискретизация набора данных для увеличения его размера перед разделением; например, различные вращения/увеличения одного изображения; начальная выборка перед разделением; или дублирование строк для увеличения выборки класса меньшинства)
- Не-iid данные
- Утечка времени (например, случайное разделение набора данных временных рядов вместо новых данных в тестовом наборе с использованием разделения TrainTest или перекрестной проверки скользящего происхождения)
- Утечка группы — не включая столбец разделения группировки (например, группа Эндрю Нга имела 100 тысяч рентгеновских снимков 30 тысяч пациентов, что означает ~3 изображения на пациента. В статье использовалось случайное разделение вместо того, чтобы гарантировать, что все изображения пациента находились в одном и том же месте). Следовательно, модель частично запоминала пациентов вместо того, чтобы учиться распознавать пневмонию на рентгенограммах грудной клетки. [3] [4] )
Обзор 2023 года показал, что утечка данных является «распространенным видом сбоя в науке, основанной на машинном обучении (МО), затронув как минимум 294 академических публикации по 17 дисциплинам и вызвав потенциальный кризис воспроизводимости . [5]
Обнаружение
[ редактировать ]Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( январь 2020 г. ) |
См. также
[ редактировать ]- АвтоМЛ
- Дрейф концепции (когда структура изучаемой системы меняется со временем, что делает модель недействительной)
- Переобучение
- Повторная выборка (статистика)
- Обучение под присмотром
- Наборы для обучения, проверки и тестирования
Как бороться с утечкой
[ редактировать ]Решение проблемы утечки, непреднамеренного перемещения выбросов в результате мероприятий по смягчению последствий, имеет решающее значение для эффективности инициатив REDD (сокращение выбросов в результате обезлесения и деградации лесов). Утечка может подорвать усилия по сокращению выбросов углерода, перемещая выбросы из охраняемых территорий в незащищенные. Для эффективного управления утечками можно использовать несколько стратегий:
- Мониторинг : необходимы комплексные системы мониторинга. Это включает в себя отслеживание исторических данных о вырубке лесов, использование контрольных зон и проведение социально-экономических исследований для измерения воздействия за пределами границ проекта. Такие инструменты, как Добровольный углеродный стандарт, рекомендуют обширные зоны мониторинга для точного выявления утечек.
- Увеличение масштаба : Расширение масштаба проектов REDD с субнационального на национальный уровень может помочь смягчить утечку. Более масштабные инициативы снижают риск перемещения внутри страны, а более широкое международное участие может ограничить трансграничную утечку за счет снижения глобального давления на предложение сырьевых товаров.
- Дисконтирование : Чтобы учесть потенциальную утечку, льготы REDD должны быть дисконтированы. Это предполагает корректировку кредитного учета для отражения предполагаемого масштаба утечки, гарантируя, что вознаграждается только чистое сокращение выбросов. Дисконтирование может дополняться такими механизмами, как банковские резервные кредиты и страхование.
- Перепроектирование проектов : При разработке проекта следует учитывать риски утечек путем балансирования различных мероприятий по смягчению последствий. Например, сочетание сохранения REDD с проектами устойчивого лесопользования (УУЛ) и облесения/лесовосстановления (A/R) может поглотить вытесненную рабочую силу и капитал, тем самым уменьшая утечку.
- Нейтрализация утечки : Внедрение альтернативных компонентов средств к существованию может решить проблему первичной утечки. Несмотря на то, что сложные пакеты целевого обучения и стимулирования могут привести к переходу к более устойчивым практикам, необходимо проявлять осторожность, чтобы избежать создания дополнительного давления из-за слишком успешных мер. [6]
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Шахар Кауфман; Сахарон Россет; Клаудия Перлих (январь 2011 г.). «Утечка при интеллектуальном анализе данных: формулировка, обнаружение и предотвращение» . Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 6. С. 556–563. дои : 10.1145/2020408.2020496 . ISBN 9781450308137 . S2CID 9168804 . Проверено 13 января 2020 г. .
- ^ Сумен Чакрабарти (2008). «9». Интеллектуальный анализ данных: знай все . Издательство Морган Кауфманн. п. 383. ИСБН 978-0-12-374629-0 .
Анахроничные переменные представляют собой пагубную проблему майнинга. Однако во время развертывания они не представляют собой никакой проблемы — если только кто-то не ожидает, что модель будет работать! Анахронические переменные неуместны во времени. В частности, во время моделирования данных они переносят информацию из будущего в прошлое.
- ^ Гуц, Юрий (30 октября 2018 г.). Юрий Гуц. ЦЕЛЕВАЯ УТЕЧКА В МАШИННОМ ОБУЧЕНИИ (Обсуждение) . Конференция AI Украина. Украина – через YouTube.
- Юрий Гуц. «Целевая утечка в ML» (PDF) . Онлайн-конференция AI Ukraine .
- ^ Ник, Робертс (16 ноября 2017 г.). «Отвечаю @AndrewYNg @pranavrajpurkar и еще 2» . Бруклин, Нью-Йорк, США: Твиттер. Архивировано из оригинала 10 июня 2018 года . Проверено 13 января 2020 г. .
Отвечаю @AndrewYNg @pranavrajpurkar и еще 2 ... Были ли вы обеспокоены тем, что сеть может запомнить анатомию пациента, поскольку пациенты проходят перекрестное обучение и проверку? «Набор данных ChestX-ray14 содержит 112 120 рентгеновских изображений в прямой проекции 30 805 уникальных пациентов. Мы случайным образом разделили весь набор данных на 80% обучения и 20% проверки».
- ^ Капур, Саяш; Нарайанан, Арвинд (август 2023 г.). «Утечка и кризис воспроизводимости в науке, основанной на машинном обучении» . Узоры . 4 (9): 100804. doi : 10.1016/j.patter.2023.100804 . ISSN 2666-3899 . ПМЦ 10499856 . ПМИД 37720327 .
- ^ Вундер, С. (2008). Как мы боремся с утечкой? В книге А. Ангелсена (ред.), Продвижение REDD: проблемы, варианты и последствия (стр. 65-75). Центр международных исследований лесного хозяйства. https://www.jstor.org/stable/resrep02104.13