Ошибка «нет в сумке»

вне пакета ( OOB ) Ошибка , также называемая оценкой вне пакета , представляет собой метод измерения ошибки прогнозирования случайных лесов , усиленных деревьев решений и других моделей машинного обучения , использующих бутстрап-агрегирование (пакетирование). Бэггинг использует подвыборку с заменой для создания обучающих выборок, на которых модель может учиться. Ошибка OOB — это средняя ошибка прогнозирования для каждой обучающей выборки $x i$ с использованием только тех деревьев, у которых не было $x i$ в их начальной выборке. ^[1]

Бутстрап-агрегирование позволяет определить внеплановую оценку улучшения производительности прогнозирования путем оценки прогнозов на основе тех наблюдений, которые не использовались при построении следующего базового обучаемого.

Набор данных из сумки [ править ]

При выполнении агрегирования начальной загрузки создаются два независимых набора. Один набор, бутстрап-выборка, представляет собой данные, выбранные для хранения «в сумке» путем выборки с заменой. В комплект «вне пакета» входят все данные, не выбранные в процессе выборки.

Когда этот процесс повторяется, например, при построении случайного леса , создается множество образцов начальной загрузки и наборов OOB. Наборы OOB могут быть агрегированы в один набор данных, но каждая выборка считается исходной только для тех деревьев, которые не включают ее в свою начальную выборку. На рисунке ниже показано, что для каждого взятого мешка данные разделены на две группы.

Этот пример показывает, как мешки можно использовать в контексте диагностики заболеваний. Набор пациентов представляет собой исходный набор данных, но каждая модель обучается только пациентами в своей сумке. Пациентов в каждом готовом наборе можно использовать для тестирования соответствующих моделей. Тест будет учитывать, может ли модель точно определить, есть ли у пациента заболевание.

Вычисление ошибки «нет в сумке» [ править ]

Поскольку каждый готовый набор не используется для обучения модели, он является хорошей проверкой работоспособности модели. Конкретный расчет ошибки OOB зависит от реализации модели, но общий расчет выглядит следующим образом.

Найдите все модели (или деревья, в случае случайного леса ), которые не обучены экземпляром OOB.
Возьмите большинство голосов результата этих моделей для экземпляра OOB по сравнению с истинным значением экземпляра OOB.
Скомпилируйте ошибку OOB для всех экземпляров в наборе данных OOB.

Процесс упаковки можно настроить в соответствии с потребностями модели. Чтобы обеспечить точную модель, размер бутстрап-обучающей выборки должен быть близок к размеру исходного набора. ^[2] Кроме того, чтобы найти истинную ошибку OOB, следует учитывать количество итераций (деревьев) модели (леса). Ошибка OOB стабилизируется на протяжении многих итераций, поэтому рекомендуется начинать с большого количества итераций. ^[3]

Как показано в примере справа, ошибку OOB можно найти с помощью описанного выше метода после настройки леса.

Сравнение с перекрестной проверкой [ править ]

Ошибка вне пакета и перекрестная проверка (CV) — это разные методы измерения оценки ошибки модели машинного обучения . За многие итерации эти два метода должны дать очень похожую оценку ошибки. То есть, как только ошибка OOB стабилизируется, она будет сходиться к ошибке перекрестной проверки (в частности, перекрестной проверки с исключением одного). ^[3] Преимущество метода OOB в том, что он требует меньше вычислений и позволяет тестировать модель во время ее обучения.

и последовательность Точность

Ошибка «вне пакета» часто используется для оценки ошибок в случайных лесах , но, согласно выводам исследования, проведенного Силке Янице и Романом Хорнунгом, ошибка «вне пакета» оказалась завышенной в условиях, которые включают равное количество наблюдений из все классы ответов (сбалансированные выборки), небольшие размеры выборки, большое количество переменных-предикторов, малая корреляция между предикторами и слабые эффекты. ^[4]

См. также [ править ]

Бустинг (метаалгоритм)
Бутстрап-агрегирование
Начальная загрузка (статистика)
Перекрестная проверка (статистика)
Случайный лес
Метод случайного подпространства (пакетирование атрибутов)

Ссылки [ править ]

^ Джеймс, Гарет; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роберт (2013). Введение в статистическое обучение . Спрингер. стр. 316–321.
^ Онг, Десмонд (2014). Учебник по начальной загрузке; и обзор doBootstrap (PDF) . стр. 2–4.
^ Jump up to: Перейти обратно: ^а ^б Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2008). Элементы статистического обучения (PDF) . Спрингер . стр. 592–593.
^ Яница, Силке; Хорнунг, Роман (06 августа 2018 г.). «О завышении ошибки случайного леса вне мешка» . ПЛОС ОДИН . 13 (8): e0201904. дои : 10.1371/journal.pone.0201904 . ISSN 1932-6203 . ПМК 6078316 . ПМИД 30080866 .

[islr-1] Джеймс, Гарет; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роберт (2013). Введение в статистическое обучение . Спрингер. стр. 316–321.

[2] Онг, Десмонд (2014). Учебник по начальной загрузке; и обзор doBootstrap (PDF) . стр. 2–4.

[:0-3] Jump up to: Перейти обратно: ^а ^б Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2008). Элементы статистического обучения (PDF) . Спрингер . стр. 592–593.

[4] Яница, Силке; Хорнунг, Роман (06 августа 2018 г.). «О завышении ошибки случайного леса вне мешка» . ПЛОС ОДИН . 13 (8): e0201904. дои : 10.1371/journal.pone.0201904 . ISSN 1932-6203 . ПМК 6078316 . ПМИД 30080866 .

[1]

[2]

[3]

[4]