Утечка (машинное обучение)
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
В статистике и машинном обучении утечка ( также известная как утечка данных или целевая утечка ) — это использование в процессе обучения модели информации , которая, как ожидается, не будет доступна во время прогнозирования прогнозных оценок (метрик) , что приводит к переоценке модели. утилита при запуске в производственной среде. [1]
Утечка часто бывает незаметной и косвенной, что затрудняет ее обнаружение и устранение. Утечка может привести к тому, что статистик или разработчик моделей выберет неоптимальную модель, которую может превзойти модель без утечек. [1]
Режимы утечки [ править ]
Утечка может происходить на многих этапах процесса машинного обучения. Причины утечек можно разделить на два возможных источника утечек для модели: функции и обучающие примеры. [1]
Утечка функций [ править ]
Утечка по функциям или столбцам вызвана включением столбцов, которые являются одним из следующих: повторяющаяся метка, прокси для метки или сама метка. Эти функции, известные как анахронизмы , будут недоступны, когда модель используется для прогнозов, и приводят к утечке данных, если они включены при обучении модели. [2]
Например, включение столбца «MonthlySalary» при прогнозировании «YearlySalary»; или «MinutesLate» при прогнозировании «IsLate».
Утечка обучающего примера [ править ]
Утечка по строкам вызвана неправильным разделением информации между строками данных. Типы построчной утечки включают в себя:
- Преждевременная фичеризация ; утечка из-за преждевременной характеристики перед разделением перекрестной проверки /поезда/теста (должен соответствовать MinMax/ngrams/etc только для разделения поезда, а затем преобразовать набор тестов)
- Дублирование строк между обучением/проверкой/тестом (например, передискретизация набора данных для увеличения его размера перед разделением; например, различные вращения/увеличения одного изображения; начальная выборка перед разделением; или дублирование строк для увеличения выборки класса меньшинства)
- Не-iid данные
- Утечка времени (например, случайное разделение набора данных временных рядов вместо новых данных в тестовом наборе с использованием разделения TrainTest или перекрестной проверки скользящего происхождения)
- Утечка группы — не включая столбец разделения группировки (например, группа Эндрю Нга имела 100 тысяч рентгеновских снимков 30 тысяч пациентов, что означает ~3 изображения на пациента. В статье использовалось случайное разделение вместо того, чтобы гарантировать, что все изображения пациента находились в одном и том же месте). Следовательно, модель частично запоминала пациентов вместо того, чтобы учиться распознавать пневмонию на рентгенограммах грудной клетки. [3] [4] )
Обзор 2023 года показал, что утечка данных является «распространенным видом сбоя в науке, основанной на машинном обучении (МО), затронув как минимум 294 академических публикации по 17 дисциплинам и вызвав потенциальный кризис воспроизводимости . [5]
Обнаружение [ править ]
Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( январь 2020 г. ) |
См. также [ править ]
- АвтоМЛ
- Дрейф концепции (когда структура изучаемой системы меняется со временем, что делает модель недействительной)
- Переобучение
- Повторная выборка (статистика)
- Обучение под присмотром
- Наборы для обучения, проверки и тестирования
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б с Шахар Кауфман; Сахарон Россет; Клаудия Перлих (январь 2011 г.). «Утечка при интеллектуальном анализе данных: формулировка, обнаружение и предотвращение» . Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 6. С. 556–563. дои : 10.1145/2020408.2020496 . ISBN 9781450308137 . S2CID 9168804 . Проверено 13 января 2020 г. .
- ^ Сумен Чакрабарти (2008). «9». Интеллектуальный анализ данных: знай все . Издательство Морган Кауфманн. п. 383. ИСБН 978-0-12-374629-0 .
Анахроничные переменные представляют собой пагубную проблему майнинга. Однако во время развертывания они не представляют собой никакой проблемы — если только кто-то не ожидает, что модель будет работать! Анахронические переменные неуместны во времени. В частности, во время моделирования данных они переносят информацию из будущего в прошлое.
- ^ Гуц, Юрий (30 октября 2018 г.). Юрий Гуц. ЦЕЛЕВАЯ УТЕЧКА В МАШИННОМ ОБУЧЕНИИ (Обсуждение) . Конференция AI Украина. Украина – через YouTube.
- Юрий Гуц. «Целевая утечка в ML» (PDF) . Онлайн-конференция AI Ukraine .
- ^ Ник, Робертс (16 ноября 2017 г.). «Отвечаю @AndrewYNg @pranavrajpurkar и еще 2» . Бруклин, Нью-Йорк, США: Твиттер. Архивировано из оригинала 10 июня 2018 года . Проверено 13 января 2020 г. .
Отвечаю @AndrewYNg @pranavrajpurkar и еще 2 ... Были ли вы обеспокоены тем, что сеть может запомнить анатомию пациента, поскольку пациенты проходят перекрестное обучение и проверку? «Набор данных ChestX-ray14 содержит 112 120 рентгеновских изображений в прямой проекции 30 805 уникальных пациентов. Мы случайным образом разделили весь набор данных на 80% обучения и 20% проверки».
- ^ Капур, Саяш; Нарайанан, Арвинд (август 2023 г.). «Утечка и кризис воспроизводимости в науке, основанной на машинном обучении» . Узоры . 4 (9): 100804. doi : 10.1016/j.patter.2023.100804 . ISSN 2666-3899 . ПМЦ 10499856 . ПМИД 37720327 .