Jump to content

Обрезка дерева решений

До и после обрезки

Обрезка — это метод сжатия данных в алгоритмах машинного обучения и поиска , который уменьшает размер деревьев решений за счет удаления некритичных и избыточных частей дерева для классификации экземпляров. Сокращение уменьшает сложность окончательного классификатора и, следовательно, повышает точность прогнозирования за счет уменьшения переобучения .

Одним из вопросов, возникающих при разработке алгоритма дерева решений, является оптимальный размер конечного дерева. Слишком большое дерево может привести к переобучению обучающих данных и плохому обобщению на новые выборки. Небольшое дерево может не отражать важную структурную информацию о пространстве выборки. Однако трудно сказать, когда алгоритм дерева должен остановиться, потому что невозможно сказать, приведет ли добавление одного дополнительного узла к значительному уменьшению ошибки. Эта проблема известна как эффект горизонта . Общая стратегия состоит в том, чтобы увеличивать дерево до тех пор, пока каждый узел не будет содержать небольшое количество экземпляров, а затем использовать обрезку для удаления узлов, которые не предоставляют дополнительной информации. [1]

Сокращение должно уменьшить размер дерева обучения без снижения точности прогнозирования, измеренной с помощью набора перекрестной проверки . Существует множество методов обрезки деревьев, которые различаются по измерениям, которые используются для оптимизации производительности.

Процессы обрезки можно разделить на два типа (до обрезки и после обрезки).

Процедуры предварительной обрезки предотвращают полную индукцию обучающего набора путем замены критерия stop() в алгоритме индукции (например, максимальная глубина дерева или прирост информации (Attr)> minGain). Методы предварительной обрезки считаются более эффективными, поскольку они не создают весь набор, а деревья с самого начала остаются небольшими. Методы предварительной обрезки имеют общую проблему — эффект горизонта. Под этим следует понимать нежелательное преждевременное прекращение индукции по критерию остановки ().

Постобрезировка (или просто обрезка) — наиболее распространенный способ упрощения деревьев. Здесь узлы и поддеревья заменяются листьями для уменьшения сложности. Обрезка позволяет не только значительно уменьшить размер, но и повысить точность классификации невидимых объектов. Может случиться так, что точность назначения на наборе поездов ухудшится, но точность классификационных свойств дерева в целом увеличится.

Процедуры различаются в зависимости от их расположения в дереве (сверху вниз или снизу вверх).

Обрезка снизу вверх

[ редактировать ]

Эти процедуры начинаются с последнего узла дерева (самой нижней точки). Следуя рекурсивно вверх, они определяют релевантность каждого отдельного узла. Если релевантность для классификации не указана, узел удаляется или заменяется листом. Преимущество состоит в том, что при использовании этого метода нельзя потерять важные поддеревья.Эти методы включают сокращение ошибок (REP), сокращение сложности с минимальной стоимостью (MCCP) или сокращение минимальной ошибки (MEP).

Обрезка сверху вниз

[ редактировать ]

В отличие от метода «снизу вверх», этот метод начинается с корня дерева. Следуя приведенной ниже структуре, выполняется проверка релевантности, которая решает, является ли узел релевантным для классификации всех n элементов или нет. При обрезке дерева во внутреннем узле может случиться так, что будет удалено все поддерево (независимо от его значимости). Одним из таких представителей является пессимистическое сокращение ошибок (PEP), которое дает весьма хорошие результаты с невидимыми элементами.

Алгоритмы обрезки

[ редактировать ]

Уменьшение количества ошибок

[ редактировать ]

Одной из самых простых форм сокращения является сокращение ошибок. Начиная с листьев, каждый узел заменяется самым популярным классом. Если на точность прогноза это не влияет, изменение сохраняется. Хотя сокращение количества ошибок несколько наивно, оно имеет преимущество простоты и скорости .

Снижение сложности затрат

[ редактировать ]

Сокращение сложности затрат создает серию деревьев где — исходное дерево и ⁠ — это только корень. На шаге дерево создается путем удаления поддерева из дерева и заменяем его листовым узлом со значением, выбранным как в алгоритме построения дерева. Поддерево, которое удаляется, выбирается следующим образом:

  1. Определите частоту ошибок дерева над набором данных как .
  2. Поддерево что сводит к минимуму выбран для удаления.

Функция определяет дерево, полученное обрезкой поддеревьев с дерева . После создания серии деревьев лучшее дерево выбирается на основе обобщенной точности, измеренной с помощью обучающего набора или перекрестной проверки.

Обрезку можно применить в схеме сжатия алгоритма обучения, чтобы удалить избыточные детали без ущерба для производительности модели. В нейронных сетях обрезка удаляет целые нейроны или слои нейронов.

См. также

[ редактировать ]
  • Перл, Иудея (1984). Эвристика: стратегии интеллектуального поиска для решения компьютерных задач . Аддисон-Уэсли. ISBN  978-0-201-05594-8 .
  • Мансур, Ю. (1997). «Обрезка дерева пессимистических решений в зависимости от размера дерева» . Учеб. 14-я Международная конференция по машинному обучению . стр. 195–201.
  • Бреслоу, Луизиана; Ага, Д.В. (1997). «Упрощение деревьев решений: опрос». Обзор инженерии знаний . 12 (1): 1–47. дои : 10.1017/S0269888997000015 . S2CID   18782652 .
  • Куинлан, младший (1986). «Индукция деревьев решений» . Машинное обучение . 1 . Клювер: 81–106. дои : 10.1007/BF00116251 .
  1. ^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2001). Элементы статистического обучения . Спрингер. стр. 269–272. ISBN  0-387-95284-5 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9faaa92362b9bda47c0a14048ba6dfc1__1715612880
URL1:https://arc.ask3.ru/arc/aa/9f/c1/9faaa92362b9bda47c0a14048ba6dfc1.html
Заголовок, (Title) документа по адресу, URL1:
Decision tree pruning - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)