Jump to content

Утечка (машинное обучение)

В статистике и машинном обучении утечка ( также известная как утечка данных или целевая утечка ) — это использование в процессе обучения модели информации , которая, как ожидается, не будет доступна во время прогнозирования прогнозных оценок (метрик) , что приводит к переоценке модели. утилита при запуске в производственной среде. [1]

Утечка часто бывает незаметной и косвенной, что затрудняет ее обнаружение и устранение. Утечка может привести к тому, что статистик или разработчик моделей выберет неоптимальную модель, которую может превзойти модель без утечек. [1]

Режимы утечки [ править ]

Утечка может происходить на многих этапах процесса машинного обучения. Причины утечек можно разделить на два возможных источника утечек для модели: функции и обучающие примеры. [1]

Утечка функций [ править ]

Утечка по функциям или столбцам вызвана включением столбцов, которые являются одним из следующих: повторяющаяся метка, прокси для метки или сама метка. Эти функции, известные как анахронизмы , будут недоступны, когда модель используется для прогнозов, и приводят к утечке данных, если они включены при обучении модели. [2]

Например, включение столбца «MonthlySalary» при прогнозировании «YearlySalary»; или «MinutesLate» при прогнозировании «IsLate».

Утечка обучающего примера [ править ]

Утечка по строкам вызвана неправильным разделением информации между строками данных. Типы построчной утечки включают в себя:

  • Преждевременная фичеризация ; утечка из-за преждевременной характеристики перед разделением перекрестной проверки /поезда/теста (должен соответствовать MinMax/ngrams/etc только для разделения поезда, а затем преобразовать набор тестов)
  • Дублирование строк между обучением/проверкой/тестом (например, передискретизация набора данных для увеличения его размера перед разделением; например, различные вращения/увеличения одного изображения; начальная выборка перед разделением; или дублирование строк для увеличения выборки класса меньшинства)
  • Не-iid данные
    • Утечка времени (например, случайное разделение набора данных временных рядов вместо новых данных в тестовом наборе с использованием разделения TrainTest или перекрестной проверки скользящего происхождения)
    • Утечка группы — не включая столбец разделения группировки (например, группа Эндрю Нга имела 100 тысяч рентгеновских снимков 30 тысяч пациентов, что означает ~3 изображения на пациента. В статье использовалось случайное разделение вместо того, чтобы гарантировать, что все изображения пациента находились в одном и том же месте). Следовательно, модель частично запоминала пациентов вместо того, чтобы учиться распознавать пневмонию на рентгенограммах грудной клетки. [3] [4] )

Обзор 2023 года показал, что утечка данных является «распространенным видом сбоя в науке, основанной на машинном обучении (МО), затронув как минимум 294 академических публикации по 17 дисциплинам и вызвав потенциальный кризис воспроизводимости . [5]

Обнаружение [ править ]

См. также [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б с Шахар Кауфман; Сахарон Россет; Клаудия Перлих (январь 2011 г.). «Утечка при интеллектуальном анализе данных: формулировка, обнаружение и предотвращение» . Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Том. 6. С. 556–563. дои : 10.1145/2020408.2020496 . ISBN  9781450308137 . S2CID   9168804 . Проверено 13 января 2020 г. .
  2. ^ Сумен Чакрабарти (2008). «9». Интеллектуальный анализ данных: знай все . Издательство Морган Кауфманн. п. 383. ИСБН  978-0-12-374629-0 . Анахроничные переменные представляют собой пагубную проблему майнинга. Однако во время развертывания они не представляют собой никакой проблемы — если только кто-то не ожидает, что модель будет работать! Анахронические переменные неуместны во времени. В частности, во время моделирования данных они переносят информацию из будущего в прошлое.
  3. ^ Гуц, Юрий (30 октября 2018 г.). Юрий Гуц. ЦЕЛЕВАЯ УТЕЧКА В МАШИННОМ ОБУЧЕНИИ (Обсуждение) . Конференция AI Украина. Украина – через YouTube.
  4. ^ Ник, Робертс (16 ноября 2017 г.). «Отвечаю @AndrewYNg @pranavrajpurkar и еще 2» . Бруклин, Нью-Йорк, США: Твиттер. Архивировано из оригинала 10 июня 2018 года . Проверено 13 января 2020 г. . Отвечаю @AndrewYNg @pranavrajpurkar и еще 2 ... Были ли вы обеспокоены тем, что сеть может запомнить анатомию пациента, поскольку пациенты проходят перекрестное обучение и проверку? «Набор данных ChestX-ray14 содержит 112 120 рентгеновских изображений в прямой проекции 30 805 уникальных пациентов. Мы случайным образом разделили весь набор данных на 80% обучения и 20% проверки».
  5. ^ Капур, Саяш; Нарайанан, Арвинд (август 2023 г.). «Утечка и кризис воспроизводимости в науке, основанной на машинном обучении» . Узоры . 4 (9): 100804. doi : 10.1016/j.patter.2023.100804 . ISSN   2666-3899 . ПМЦ   10499856 . ПМИД   37720327 .


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 3360e92d0fbf70f42f9913b3e04a26b1__1715616120
URL1:https://arc.ask3.ru/arc/aa/33/b1/3360e92d0fbf70f42f9913b3e04a26b1.html
Заголовок, (Title) документа по адресу, URL1:
Leakage (machine learning) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)