Ошибка «нет в сумке»
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
вне пакета ( OOB ) Ошибка , также называемая оценкой вне пакета , представляет собой метод измерения ошибки прогнозирования случайных лесов , усиленных деревьев решений и других моделей машинного обучения , использующих бутстрап-агрегирование (пакетирование). Бэггинг использует подвыборку с заменой для создания обучающих выборок, на которых модель может учиться. Ошибка OOB — это средняя ошибка прогнозирования для каждой обучающей выборки x i с использованием только тех деревьев, у которых не было x i в их начальной выборке. [1]
Бутстрап-агрегирование позволяет определить внеплановую оценку улучшения производительности прогнозирования путем оценки прогнозов на основе тех наблюдений, которые не использовались при построении следующего базового обучаемого.
Набор данных из сумки [ править ]
При выполнении агрегирования начальной загрузки создаются два независимых набора. Один набор, бутстрап-выборка, представляет собой данные, выбранные для хранения «в сумке» путем выборки с заменой. В комплект «вне пакета» входят все данные, не выбранные в процессе выборки.
Когда этот процесс повторяется, например, при построении случайного леса , создается множество образцов начальной загрузки и наборов OOB. Наборы OOB могут быть агрегированы в один набор данных, но каждая выборка считается исходной только для тех деревьев, которые не включают ее в свою начальную выборку. На рисунке ниже показано, что для каждого взятого мешка данные разделены на две группы.

Этот пример показывает, как мешки можно использовать в контексте диагностики заболеваний. Набор пациентов представляет собой исходный набор данных, но каждая модель обучается только пациентами в своей сумке. Пациентов в каждом готовом наборе можно использовать для тестирования соответствующих моделей. Тест будет учитывать, может ли модель точно определить, есть ли у пациента заболевание.
Вычисление ошибки «нет в сумке» [ править ]
Поскольку каждый готовый набор не используется для обучения модели, он является хорошей проверкой работоспособности модели. Конкретный расчет ошибки OOB зависит от реализации модели, но общий расчет выглядит следующим образом.
- Найдите все модели (или деревья, в случае случайного леса ), которые не обучены экземпляром OOB.
- Возьмите большинство голосов результата этих моделей для экземпляра OOB по сравнению с истинным значением экземпляра OOB.
- Скомпилируйте ошибку OOB для всех экземпляров в наборе данных OOB.

Процесс упаковки можно настроить в соответствии с потребностями модели. Чтобы обеспечить точную модель, размер бутстрап-обучающей выборки должен быть близок к размеру исходного набора. [2] Кроме того, чтобы найти истинную ошибку OOB, следует учитывать количество итераций (деревьев) модели (леса). Ошибка OOB стабилизируется на протяжении многих итераций, поэтому рекомендуется начинать с большого количества итераций. [3]
Как показано в примере справа, ошибку OOB можно найти с помощью описанного выше метода после настройки леса.
Сравнение с перекрестной проверкой [ править ]
Ошибка вне пакета и перекрестная проверка (CV) — это разные методы измерения оценки ошибки модели машинного обучения . За многие итерации эти два метода должны дать очень похожую оценку ошибки. То есть, как только ошибка OOB стабилизируется, она будет сходиться к ошибке перекрестной проверки (в частности, перекрестной проверки с исключением одного). [3] Преимущество метода OOB в том, что он требует меньше вычислений и позволяет тестировать модель во время ее обучения.
и последовательность Точность
Ошибка «вне пакета» часто используется для оценки ошибок в случайных лесах , но, согласно выводам исследования, проведенного Силке Янице и Романом Хорнунгом, ошибка «вне пакета» оказалась завышенной в условиях, которые включают равное количество наблюдений из все классы ответов (сбалансированные выборки), небольшие размеры выборки, большое количество переменных-предикторов, малая корреляция между предикторами и слабые эффекты. [4]
См. также [ править ]
- Бустинг (метаалгоритм)
- Бутстрап-агрегирование
- Начальная загрузка (статистика)
- Перекрестная проверка (статистика)
- Случайный лес
- Метод случайного подпространства (пакетирование атрибутов)
Ссылки [ править ]
- ^ Джеймс, Гарет; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роберт (2013). Введение в статистическое обучение . Спрингер. стр. 316–321.
- ^ Онг, Десмонд (2014). Учебник по начальной загрузке; и обзор doBootstrap (PDF) . стр. 2–4.
- ^ Jump up to: Перейти обратно: а б Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2008). Элементы статистического обучения (PDF) . Спрингер . стр. 592–593.
- ^ Яница, Силке; Хорнунг, Роман (06 августа 2018 г.). «О завышении ошибки случайного леса вне мешка» . ПЛОС ОДИН . 13 (8): e0201904. дои : 10.1371/journal.pone.0201904 . ISSN 1932-6203 . ПМК 6078316 . ПМИД 30080866 .