Утечка (машинное обучение)

В статистике и машинном обучении утечка ( также известная как утечка данных или целевая утечка ) — это использование в процессе обучения модели информации , которая, как ожидается, не будет доступна во время прогнозирования прогнозных оценок (метрик) , что приводит к переоценке модели. утилита при запуске в производственной среде. ^[1]

Утечка часто бывает незаметной и косвенной, что затрудняет ее обнаружение и устранение. Утечка может привести к тому, что статистик или разработчик моделей выберет неоптимальную модель, которую может превзойти модель без утечек. ^[1]

Режимы утечки [ править ]

Утечка может происходить на многих этапах процесса машинного обучения. Причины утечек можно разделить на два возможных источника утечек для модели: функции и обучающие примеры. ^[1]

Утечка функций [ править ]

Утечка по функциям или столбцам вызвана включением столбцов, которые являются одним из следующих: повторяющаяся метка, прокси для метки или сама метка. Эти функции, известные как анахронизмы , будут недоступны, когда модель используется для прогнозов, и приводят к утечке данных, если они включены при обучении модели. ^[2]

Например, включение столбца «MonthlySalary» при прогнозировании «YearlySalary»; или «MinutesLate» при прогнозировании «IsLate».

Утечка обучающего примера [ править ]

Утечка по строкам вызвана неправильным разделением информации между строками данных. Типы построчной утечки включают в себя:

Преждевременная фичеризация ; утечка из-за преждевременной характеристики перед разделением перекрестной проверки /поезда/теста (должен соответствовать MinMax/ngrams/etc только для разделения поезда, а затем преобразовать набор тестов)
Дублирование строк между обучением/проверкой/тестом (например, передискретизация набора данных для увеличения его размера перед разделением; например, различные вращения/увеличения одного изображения; начальная выборка перед разделением; или дублирование строк для увеличения выборки класса меньшинства)
Не-iid данные
- Утечка времени (например, случайное разделение набора данных временных рядов вместо новых данных в тестовом наборе с использованием разделения TrainTest или перекрестной проверки скользящего происхождения)
- Утечка группы — не включая столбец разделения группировки (например, группа Эндрю Нга имела 100 тысяч рентгеновских снимков 30 тысяч пациентов, что означает ~3 изображения на пациента. В статье использовалось случайное разделение вместо того, чтобы гарантировать, что все изображения пациента находились в одном и том же месте). Следовательно, модель частично запоминала пациентов вместо того, чтобы учиться распознавать пневмонию на рентгенограммах грудной клетки. ^[3]^[4])

Обзор 2023 года показал, что утечка данных является «распространенным видом сбоя в науке, основанной на машинном обучении (МО), затронув как минимум 294 академических публикации по 17 дисциплинам и вызвав потенциальный кризис воспроизводимости . ^[5]

Обнаружение [ править ]

См. также [ править ]

АвтоМЛ
Дрейф концепции (когда структура изучаемой системы меняется со временем, что делает модель недействительной)
Переобучение
Повторная выборка (статистика)
Обучение под присмотром
Наборы для обучения, проверки и тестирования

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б ^с Шахар Кауфман; Сахарон Россет; Клаудия Перлих (январь 2011 г.). «Утечка при интеллектуальном анализе данных: формулировка, обнаружение и предотвращение» . Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 6. С. 556–563. дои : 10.1145/2020408.2020496 . ISBN 9781450308137 . S2CID 9168804 . Проверено 13 января 2020 г. .
^ Сумен Чакрабарти (2008). «9». Интеллектуальный анализ данных: знай все . Издательство Морган Кауфманн. п. 383. ИСБН 978-0-12-374629-0 . Анахроничные переменные представляют собой пагубную проблему майнинга. Однако во время развертывания они не представляют собой никакой проблемы — если только кто-то не ожидает, что модель будет работать! Анахронические переменные неуместны во времени. В частности, во время моделирования данных они переносят информацию из будущего в прошлое.
^
Гуц, Юрий (30 октября 2018 г.). Юрий Гуц. ЦЕЛЕВАЯ УТЕЧКА В МАШИННОМ ОБУЧЕНИИ (Обсуждение) . Конференция AI Украина. Украина – через YouTube.
- Юрий Гуц. «Целевая утечка в ML» (PDF) . Онлайн-конференция AI Ukraine .
^ Ник, Робертс (16 ноября 2017 г.). «Отвечаю @AndrewYNg @pranavrajpurkar и еще 2» . Бруклин, Нью-Йорк, США: Твиттер. Архивировано из оригинала 10 июня 2018 года . Проверено 13 января 2020 г. . Отвечаю @AndrewYNg @pranavrajpurkar и еще 2 ... Были ли вы обеспокоены тем, что сеть может запомнить анатомию пациента, поскольку пациенты проходят перекрестное обучение и проверку? «Набор данных ChestX-ray14 содержит 112 120 рентгеновских изображений в прямой проекции 30 805 уникальных пациентов. Мы случайным образом разделили весь набор данных на 80% обучения и 20% проверки».
^ Капур, Саяш; Нарайанан, Арвинд (август 2023 г.). «Утечка и кризис воспроизводимости в науке, основанной на машинном обучении» . Узоры . 4 (9): 100804. doi : 10.1016/j.patter.2023.100804 . ISSN 2666-3899 . ПМЦ 10499856 . ПМИД 37720327 .

Эта искусственному интеллекту статья, посвященная , незавершена . Вы можете помочь Википедии, расширив ее .

[KaufmanKDD11-1] Jump up to: Перейти обратно: ^а ^б ^с Шахар Кауфман; Сахарон Россет; Клаудия Перлих (январь 2011 г.). «Утечка при интеллектуальном анализе данных: формулировка, обнаружение и предотвращение» . Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 6. С. 556–563. дои : 10.1145/2020408.2020496 . ISBN 9781450308137 . S2CID 9168804 . Проверено 13 января 2020 г. .

[2] Сумен Чакрабарти (2008). «9». Интеллектуальный анализ данных: знай все . Издательство Морган Кауфманн. п. 383. ИСБН 978-0-12-374629-0 . Анахроничные переменные представляют собой пагубную проблему майнинга. Однако во время развертывания они не представляют собой никакой проблемы — если только кто-то не ожидает, что модель будет работать! Анахронические переменные неуместны во времени. В частности, во время моделирования данных они переносят информацию из будущего в прошлое.

[GutsAIUkraineConfTalk18-3] Гуц, Юрий (30 октября 2018 г.). Юрий Гуц. ЦЕЛЕВАЯ УТЕЧКА В МАШИННОМ ОБУЧЕНИИ (Обсуждение) . Конференция AI Украина. Украина – через YouTube.
Юрий Гуц. «Целевая утечка в ML» (PDF) . Онлайн-конференция AI Ukraine .

[4] Юрий Гуц. «Целевая утечка в ML» (PDF) . Онлайн-конференция AI Ukraine .

[4] Ник, Робертс (16 ноября 2017 г.). «Отвечаю @AndrewYNg @pranavrajpurkar и еще 2» . Бруклин, Нью-Йорк, США: Твиттер. Архивировано из оригинала 10 июня 2018 года . Проверено 13 января 2020 г. . Отвечаю @AndrewYNg @pranavrajpurkar и еще 2 ... Были ли вы обеспокоены тем, что сеть может запомнить анатомию пациента, поскольку пациенты проходят перекрестное обучение и проверку? «Набор данных ChestX-ray14 содержит 112 120 рентгеновских изображений в прямой проекции 30 805 уникальных пациентов. Мы случайным образом разделили весь набор данных на 80% обучения и 20% проверки».

[5] Капур, Саяш; Нарайанан, Арвинд (август 2023 г.). «Утечка и кризис воспроизводимости в науке, основанной на машинном обучении» . Узоры . 4 (9): 100804. doi : 10.1016/j.patter.2023.100804 . ISSN 2666-3899 . ПМЦ 10499856 . ПМИД 37720327 .

[1]

[2]

[3]

[4]

[5]