Оценки дисперсии складного ножа для случайного леса
Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом . ( декабрь 2015 г. ) |
В статистике оценки дисперсии складного ножа для случайного леса - это способ оценить дисперсию в моделях случайного леса , чтобы устранить эффекты начальной загрузки .
Оценки дисперсии складного ножа
[ редактировать ]Выборочная дисперсия учащихся, собранных в пакеты, составляет:
Оценки складного ножа можно рассматривать для устранения эффектов начальной загрузки. Оценщик дисперсии складного ножа определяется как: [1]
В некоторых задачах классификации, когда для подбора моделей используется случайный лес, дисперсия оценки складного ножа определяется как:
Здесь, обозначает дерево решений после обучения, обозначает результат, основанный на образцах без наблюдение.
Примеры
[ редактировать ]Проблема спама в электронной почте является распространенной проблемой классификации . В этой задаче для классификации спама и электронной почты, не являющейся спамом, используются 57 функций. Применение формулы дисперсии IJ-U для оценки точности моделей с m = 15,19 и 57. Результаты показывают в статье (Доверительные интервалы для случайных лесов: складной нож и бесконечно малый складной нож), что случайный лес m = 57 кажется вполне нестабильный, в то время как прогнозы, сделанные с помощью случайного леса m = 5, кажутся вполне стабильными, этот результат соответствует оценке, сделанной по проценту ошибок, в которой точность модели с m = 5 высока, а m = 57 низка.
Здесь точность измеряется коэффициентом ошибок, который определяется как:
Здесь N — также количество образцов, M — количество классов, – индикаторная функция, равная 1, когда наблюдение находится в классе j, равно 0 в других классах. Вероятность здесь не рассматривается. Существует еще один метод, аналогичный коэффициенту ошибок для измерения точности:
Здесь N — количество образцов, M — количество классов, – индикаторная функция, равная 1, когда наблюдение находится в классе j, равно 0 в других классах. прогнозируемая вероятность наблюдение в классе .Этот метод используется в Kaggle [2] Эти два метода очень похожи.
Модификация для смещения
[ редактировать ]При использовании MSE Монте-Карло для оценки и , следует рассмотреть проблему смещения Монте-Карло, особенно когда n велико, смещение становится большим:
Чтобы устранить это влияние, предлагаются модификации с коррекцией смещения:
Ссылки
[ редактировать ]- ^ Вейгер, Стефан; Хасти, Тревор; Эфрон, Брэдли (14 мая 2014 г.). «Доверительные интервалы для случайных лесов: складной нож и бесконечно малый складной нож» . Журнал исследований машинного обучения . 15 (1): 1625–1651. arXiv : 1311.4555 . Бибкод : 2013arXiv1311.4555W . ПМЦ 4286302 . ПМИД 25580094 .
- ^ «Проблема классификации продукции Otto Group» . Каггл .