Jump to content

Ошибка «нет в сумке»

вне пакета ( OOB ) Ошибка , также называемая оценкой вне пакета , представляет собой метод измерения ошибки прогнозирования случайных лесов , усиленных деревьев решений и других моделей машинного обучения , использующих бутстрап-агрегирование (пакетирование). Бэггинг использует подвыборку с заменой для создания обучающих выборок, на которых модель может учиться. Ошибка OOB — это средняя ошибка прогнозирования для каждой обучающей выборки x i с использованием только тех деревьев, у которых не было x i в их начальной выборке. [1]

Бутстрап-агрегирование позволяет определить внеплановую оценку улучшения производительности прогнозирования путем оценки прогнозов на основе тех наблюдений, которые не использовались при построении следующего базового обучаемого.

Набор данных из сумки [ править ]

При выполнении агрегирования начальной загрузки создаются два независимых набора. Один набор, бутстрап-выборка, представляет собой данные, выбранные для хранения «в сумке» путем выборки с заменой. В комплект «вне пакета» входят все данные, не выбранные в процессе выборки.

Когда этот процесс повторяется, например, при построении случайного леса , создается множество образцов начальной загрузки и наборов OOB. Наборы OOB могут быть агрегированы в один набор данных, но каждая выборка считается исходной только для тех деревьев, которые не включают ее в свою начальную выборку. На рисунке ниже показано, что для каждого взятого мешка данные разделены на две группы.

Визуализация процесса упаковки. Отбор 4 пациентов из исходного набора с заменой и показ готовых наборов. Для обучения модели для этой сумки будут использоваться только пациенты из бутстрап-выборки.

Этот пример показывает, как мешки можно использовать в контексте диагностики заболеваний. Набор пациентов представляет собой исходный набор данных, но каждая модель обучается только пациентами в своей сумке. Пациентов в каждом готовом наборе можно использовать для тестирования соответствующих моделей. Тест будет учитывать, может ли модель точно определить, есть ли у пациента заболевание.

Вычисление ошибки «нет в сумке» [ править ]

Поскольку каждый готовый набор не используется для обучения модели, он является хорошей проверкой работоспособности модели. Конкретный расчет ошибки OOB зависит от реализации модели, но общий расчет выглядит следующим образом.

  1. Найдите все модели (или деревья, в случае случайного леса ), которые не обучены экземпляром OOB.
  2. Возьмите большинство голосов результата этих моделей для экземпляра OOB по сравнению с истинным значением экземпляра OOB.
  3. Скомпилируйте ошибку OOB для всех экземпляров в наборе данных OOB.
Иллюстрация ошибки OOB

Процесс упаковки можно настроить в соответствии с потребностями модели. Чтобы обеспечить точную модель, размер бутстрап-обучающей выборки должен быть близок к размеру исходного набора. [2] Кроме того, чтобы найти истинную ошибку OOB, следует учитывать количество итераций (деревьев) модели (леса). Ошибка OOB стабилизируется на протяжении многих итераций, поэтому рекомендуется начинать с большого количества итераций. [3]

Как показано в примере справа, ошибку OOB можно найти с помощью описанного выше метода после настройки леса.

Сравнение с перекрестной проверкой [ править ]

Ошибка вне пакета и перекрестная проверка (CV) — это разные методы измерения оценки ошибки модели машинного обучения . За многие итерации эти два метода должны дать очень похожую оценку ошибки. То есть, как только ошибка OOB стабилизируется, она будет сходиться к ошибке перекрестной проверки (в частности, перекрестной проверки с исключением одного). [3] Преимущество метода OOB в том, что он требует меньше вычислений и позволяет тестировать модель во время ее обучения.

и последовательность Точность

Ошибка «вне пакета» часто используется для оценки ошибок в случайных лесах , но, согласно выводам исследования, проведенного Силке Янице и Романом Хорнунгом, ошибка «вне пакета» оказалась завышенной в условиях, которые включают равное количество наблюдений из все классы ответов (сбалансированные выборки), небольшие размеры выборки, большое количество переменных-предикторов, малая корреляция между предикторами и слабые эффекты. [4]

См. также [ править ]

Ссылки [ править ]

  1. ^ Джеймс, Гарет; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роберт (2013). Введение в статистическое обучение . Спрингер. стр. 316–321.
  2. ^ Онг, Десмонд (2014). Учебник по начальной загрузке; и обзор doBootstrap (PDF) . стр. 2–4.
  3. ^ Jump up to: Перейти обратно: а б Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2008). Элементы статистического обучения (PDF) . Спрингер . стр. 592–593.
  4. ^ Яница, Силке; Хорнунг, Роман (06 августа 2018 г.). «О завышении ошибки случайного леса вне мешка» . ПЛОС ОДИН . 13 (8): e0201904. дои : 10.1371/journal.pone.0201904 . ISSN   1932-6203 . ПМК   6078316 . ПМИД   30080866 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 421b1993d7482136b31b16105368ea8b__1703780640
URL1:https://arc.ask3.ru/arc/aa/42/8b/421b1993d7482136b31b16105368ea8b.html
Заголовок, (Title) документа по адресу, URL1:
Out-of-bag error - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)