Jump to content

Оценки дисперсии складного ножа для случайного леса

В статистике оценки дисперсии складного ножа для случайного леса - это способ оценить дисперсию в моделях случайного леса , чтобы устранить эффекты начальной загрузки .

Оценки дисперсии складного ножа

[ редактировать ]

Выборочная дисперсия учащихся, собранных в пакеты, составляет:

Оценки складного ножа можно рассматривать для устранения эффектов начальной загрузки. Оценщик дисперсии складного ножа определяется как: [1]

В некоторых задачах классификации, когда для подбора моделей используется случайный лес, дисперсия оценки складного ножа определяется как:

Здесь, обозначает дерево решений после обучения, обозначает результат, основанный на образцах без наблюдение.

Проблема спама в электронной почте является распространенной проблемой классификации . В этой задаче для классификации спама и электронной почты, не являющейся спамом, используются 57 функций. Применение формулы дисперсии IJ-U для оценки точности моделей с m = 15,19 и 57. Результаты показывают в статье (Доверительные интервалы для случайных лесов: складной нож и бесконечно малый складной нож), что случайный лес m = 57 кажется вполне нестабильный, в то время как прогнозы, сделанные с помощью случайного леса m = 5, кажутся вполне стабильными, этот результат соответствует оценке, сделанной по проценту ошибок, в которой точность модели с m = 5 высока, а m = 57 низка.

Здесь точность измеряется коэффициентом ошибок, который определяется как:

Здесь N — также количество образцов, M — количество классов, – индикаторная функция, равная 1, когда наблюдение находится в классе j, равно 0 в других классах. Вероятность здесь не рассматривается. Существует еще один метод, аналогичный коэффициенту ошибок для измерения точности:

Здесь N — количество образцов, M — количество классов, – индикаторная функция, равная 1, когда наблюдение находится в классе j, равно 0 в других классах. прогнозируемая вероятность наблюдение в классе .Этот метод используется в Kaggle [2] Эти два метода очень похожи.

Модификация для смещения

[ редактировать ]

При использовании MSE Монте-Карло для оценки и , следует рассмотреть проблему смещения Монте-Карло, особенно когда n велико, смещение становится большим:

Чтобы устранить это влияние, предлагаются модификации с коррекцией смещения:

  1. ^ Вейгер, Стефан; Хасти, Тревор; Эфрон, Брэдли (14 мая 2014 г.). «Доверительные интервалы для случайных лесов: складной нож и бесконечно малый складной нож» . Журнал исследований машинного обучения . 15 (1): 1625–1651. arXiv : 1311.4555 . Бибкод : 2013arXiv1311.4555W . ПМЦ   4286302 . ПМИД   25580094 .
  2. ^ «Проблема классификации продукции Otto Group» . Каггл .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a8d87bc26453379ddfe8fda1ad4bda0e__1658393340
URL1:https://arc.ask3.ru/arc/aa/a8/0e/a8d87bc26453379ddfe8fda1ad4bda0e.html
Заголовок, (Title) документа по адресу, URL1:
Jackknife variance estimates for random forest - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)