Метод случайного подпространства
В машинном обучении используется метод случайных подпространств . [1] также называется сбором атрибутов [2] или объединение признаков — это метод обучения ансамбля , который пытается уменьшить корреляцию между оценщиками в ансамбле, обучая их на случайных выборках признаков, а не на всем наборе признаков.
Мотивация
[ редактировать ]При ансамблевом обучении пытаются объединить модели, созданные несколькими учащимися , в ансамбль , который работает лучше, чем первоначальные учащиеся. Одним из способов объединения учащихся является бутстреп-агрегирование или пакетирование , которое показывает каждому учащемуся случайно выбранное подмножество точек обучения, чтобы учащиеся могли создавать разные модели , которые можно разумно усреднить. [а] При бэггинге производится выборка тренировочных точек с заменой из полного тренировочного набора.
Метод случайного подпространства аналогичен пакетированию, за исключением того, что признаки («атрибуты», «предикторы», «независимые переменные») выбираются случайным образом с заменой для каждого учащегося. Неформально это заставляет отдельных учащихся не уделять слишком много внимания функциям, которые кажутся высокопрогнозирующими/описательными в обучающем наборе, но не могут быть такими же прогнозирующими для точек за пределами этого набора. По этой причине случайные подпространства являются привлекательным выбором для задач большой размерности, где количество функций намного больше, чем количество точек обучения, например, обучение на основе данных фМРТ. [3] или данные экспрессии генов. [4]
использовался метод случайных подпространств Для деревьев решений ; в сочетании с «обычной» сборкой деревьев решений полученные модели называются случайными лесами . [5] Это также было применено к линейным классификаторам , [6] машины опорных векторов , [7] ближайшие соседи [8] [9] и другие типы классификаторов. Этот метод применим и к одноклассовым классификаторам . [10] [11] Метод случайного подпространства также применялся для выбора портфеля. [12] [13] [14] [15] Проблема, показывающая его превосходство над обычным портфолио с повторной выборкой, по существу основанным на бэггинге.
Для решения многомерных разреженных проблем используется структура под названием Random Subspace Ensemble (RaSE). [16] был разработан. RaSE сочетает в себе слабых учащихся, обученных в случайных подпространствах, с двухуровневой структурой и итеративным процессом. [17] Было показано, что RaSE обладает привлекательными теоретическими свойствами и практическими характеристиками. [16]
Алгоритм
[ редактировать ]Ансамбль моделей, использующих метод случайных подпространств, можно построить с помощью следующего алгоритма :
- Пусть количество обучающих точек равно N а количество признаков в обучающих данных равно D. ,
- Пусть L — количество отдельных моделей в ансамбле.
- Для каждой отдельной модели l выберите n l (n l < N) как количество входных точек для l. Обычно используется только одно значение n l . для всех отдельных моделей
- Для каждой отдельной модели l создайте обучающий набор, выбрав d l признаков из D с заменой, и обучите модель.
Теперь, чтобы применить модель ансамбля к невидимой точке, объедините результаты L отдельных моделей путем голосования большинства или путем объединения апостериорных вероятностей .
Сноски
[ редактировать ]- ^ Если каждый учащийся следует одному и тому же детерминированному алгоритму, полученные модели обязательно будут одинаковыми.
Ссылки
[ редактировать ]- ^ Хо, Тин Кам (1998). «Метод случайного подпространства для построения лесов решений» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 20 (8): 832–844. дои : 10.1109/34.709601 . S2CID 206420153 . Архивировано из оригинала (PDF) 14 мая 2019 г.
- ^ Брилл, Р. (2003). «Упаковка атрибутов: повышение точности ансамблей классификаторов за счет использования случайных подмножеств признаков». Распознавание образов . 36 (6): 1291–1302. дои : 10.1016/s0031-3203(02)00121-8 .
- ^ Кунчева Людмила ; и др. (2010). «Случайные ансамбли подпространств для классификации фМРТ» (PDF) . Транзакции IEEE по медицинской визуализации . 29 (2): 531–542. CiteSeerX 10.1.1.157.1178 . дои : 10.1109/TMI.2009.2037756 . ПМИД 20129853 .
- ^ Бертони, Альберто; Фольджери, Рафаэлла; Валентини, Джорджио (2005). «Прогнозирование биомолекулярного рака с помощью случайных подпространственных ансамблей машин опорных векторов» (PDF) . Нейрокомпьютинг . 63 : 535–539. doi : 10.1016/j.neucom.2004.07.007 . HDL : 2434/9370 .
- ^ Хо, Тин Кам (1995). Лес случайных решений (PDF) . Материалы 3-й Международной конференции по анализу и распознаванию документов, Монреаль, Квебек, 14–16 августа 1995 г., стр. 278–282.
- ^ Скуричина, Марина (2002). «Бэггинг, повышение и метод случайных подпространств для линейных классификаторов». Анализ шаблонов и приложения . 5 (2): 121–135. дои : 10.1007/s100440200011 .
- ^ Тао, Д. (2006). «Асимметричная упаковка и случайное подпространство для обратной связи по релевантности на основе опорных векторных машин при поиске изображений» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 28 (7): 1088–99. дои : 10.1109/tpami.2006.134 . ПМИД 16792098 .
- ^ Хо, Тин Кам (1998). «Ближайшие соседи в случайных подпространствах». Достижения в распознавании образов . Конспекты лекций по информатике. Том. 1451. стр. 640–648. дои : 10.1007/BFb0033288 . ISBN 978-3-540-64858-1 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Трамбле, Г. (2004). Оптимизация ближайшего соседа в случайных подпространствах с использованием многоцелевого генетического алгоритма (PDF) . 17-я Международная конференция по распознаванию образов. стр. 208–211. дои : 10.1109/ICPR.2004.1334060 . ISBN 978-0-7695-2128-2 .
- ^ Нанни, Л. (2006). «Экспериментальное сравнение одноклассников для онлайн-проверки подписей». Нейрокомпьютинг . 69 (7): 869–873. doi : 10.1016/j.neucom.2005.06.007 .
- ^ Чеплыгина Вероника; Налог, Дэвид М.Дж. (15 июня 2011 г.). «Метод сокращенного случайного подпространства для одноклассовых классификаторов». В Сансоне, Карло; Киттлер, Йозеф; Роли, Фабио (ред.). Множественные системы классификаторов . Конспекты лекций по информатике. Том. 6713. Шпрингер Берлин Гейдельберг. стр. 96–105. дои : 10.1007/978-3-642-21557-5_12 . ISBN 9783642215568 .
- ^ Варади, Дэвид (2013). «Случайная оптимизация подпространства (RSO)» . CSS-аналитика .
- ^ Гиллен, Бен (2016). «Оптимизация подмножества для распределения активов» . КалтехАВТОРЫ .
- ^ Шен, Вэйвэй; Ван, Джун (2017), «Выбор портфеля посредством повторной выборки подмножества» , Материалы конференции AAAI по искусственному интеллекту (AAAI2017)
- ^ Шен, Вэйвэй; Ван, Бин; Пу, Цзянь; Ван, Джун (2019), «Оптимальный портфель Келли для роста с ансамблевым обучением» , Труды конференции AAAI по искусственному интеллекту (AAAI2019) , 33 : 1134–1141, doi : 10.1609/aaai.v33i01.33011134
- ^ Перейти обратно: а б Тянь, Е; Фэн, Ян (2021). «RaSE: Классификация ансамблей случайных подпространств» . Журнал исследований машинного обучения . 22 (45): 1–93. ISSN 1533-7928 .
- ^ Тянь, Е; Фэн, Ян (2021). «Пакет R «RaSEn»: классификация ансамблей случайных подпространств и отбор переменных» . КРАН .