Усреднение по ансамблю (машинное обучение)
В машинном обучении , особенно при создании искусственных нейронных сетей , усреднение по ансамблю — это процесс создания нескольких моделей и их объединения для получения желаемого результата, а не создания только одной модели. Зачастую совокупность моделей работает лучше, чем любая отдельная модель, поскольку различные ошибки моделей «усредняются».
Обзор
[ редактировать ]Усреднение по ансамблю — один из простейших типов комитетных машин . Наряду с повышением , это один из двух основных типов статических комитетов. [1] В отличие от стандартного проектирования сети, при котором создается множество сетей, но сохраняется только одна, усреднение по ансамблю сохраняет менее удовлетворительные сети, но с меньшим весом. [2] Теория усреднения по ансамблю опирается на два свойства искусственных нейронных сетей: [3]
- В любой сети смещение можно уменьшить за счет увеличения дисперсии.
- В группе сетей дисперсию можно уменьшить без ущерба для предвзятости.
Усреднение по ансамблю создает группу сетей, каждая с низким смещением и высокой дисперсией, а затем объединяет их в новую сеть с (надеюсь) низким смещением и низкой дисперсией. Таким образом, это решение дилеммы смещения-дисперсии . [4] Идея объединения экспертов восходит к Пьеру-Симону Лапласу . [5]
Метод
[ редактировать ]Упомянутая выше теория предлагает очевидную стратегию: создать набор экспертов с низкой предвзятостью и высокой дисперсией, а затем усреднить их. Как правило, это означает создание набора экспертов с различными параметрами; часто это начальные синаптические веса, хотя другие факторы (такие как скорость обучения, импульс и т. д.) также могут варьироваться. Некоторые авторы рекомендуют не менять вес тела и не досрочно прекращать его. [3] Таким образом, шаги следующие:
- Сгенерируйте N экспертов, каждый со своими начальными значениями. (Начальные значения обычно выбираются случайным образом из распределения.)
- Обучайте каждого специалиста отдельно.
- Объедините экспертов и усредните их значения.
Альтернативно, знания предметной области могут использоваться для создания нескольких классов экспертов. Специалист от каждого класса обучается, а затем объединяется.
Более сложная версия ансамблевого среднего рассматривает окончательный результат не как просто среднее всех экспертов, а скорее как взвешенную сумму. Если каждый эксперт , то общий результат можно определить как:
где представляет собой набор гирь. Проблема оптимизации поиска альфы легко решается с помощью нейронных сетей, следовательно, можно обучить «метасеть», в которой каждый «нейрон» фактически представляет собой целую нейронную сеть, а синаптические веса конечной сети — это веса, приложенные к каждому эксперт. Это известно как линейная комбинация экспертов . [2]
Видно, что большинство форм нейронных сетей представляют собой некое подмножество линейной комбинации: стандартная нейронная сеть (где используется только один эксперт) представляет собой просто линейную комбинацию со всеми и один . Необработанное среднее значение – это то, где все равны некоторой постоянной величине, а именно единице от общего числа экспертов. [2]
Более поздний метод усреднения по ансамблю — это обучение с отрицательной корреляцией. [6] предложенный Ю. Лю и С. Яо. Сейчас этот метод широко используется в эволюционных вычислениях .
Преимущества
[ редактировать ]- Получаемый в результате комитет почти всегда менее сложен, чем отдельная сеть, которая достигла бы того же уровня производительности. [7]
- Полученный комитет можно будет легче обучить на меньших наборах входных данных. [1]
- Полученный комитет часто улучшает производительность в любой отдельной сети. [2]
- Риск переобучения снижается, поскольку необходимо установить меньше параметров (весов). [1]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Хайкин, Саймон. Нейронные сети: комплексная основа. 2-е изд. Аппер-Сэддл-Ривер, штат Нью-Джерси: Прентис-Холл, 1999.
- ^ Перейти обратно: а б с д Хашем, С. «Оптимальные линейные комбинации нейронных сетей». Нейронные сети 10, вып. 4 (1997): 599–614.
- ^ Перейти обратно: а б Нафталий У., Н. Интратор и Д. Хорн. «Оптимальное ансамблевое усреднение нейронных сетей». Сеть: вычисления в нейронных системах 8, вып. 3 (1997): 283–296.
- ^ Геман, С., Э. Биненшток и Р. Дурса. «Нейронные сети и дилемма предвзятости/дисперсии». Нейронные вычисления 4, вып. 1 (1992): 1–58.
- ^ Клемен, RT «Объединение прогнозов: обзор и аннотированная библиография». Международный журнал прогнозирования 5, вып. 4 (1989): 559–583.
- ^ Ю. Лю и X. Яо, Ансамблевое обучение с помощью нейронных сетей с отрицательной корреляцией, том 12, выпуск 10, декабрь 1999 г., стр. 1399-1404. два : 10.1016/S0893-6080(99)00073-8
- ^ Перлмуттер, бакалавр наук, и Р. Розенфельд. «Сложность и обобщение Чайтина – Колмогорова в нейронных сетях». В материалах конференции 1990 года по достижениям в области нейронных систем обработки информации 3, 931. Morgan Kaufmann Publishers Inc., 1990.
Дальнейшее чтение
[ редактировать ] этот « Дальнейшая литература раздел Возможно, » нуждается в очистке . ( Октябрь 2014 г. ) |
- Перроне, член парламента (1993), Улучшение оценки регрессии: методы усреднения для уменьшения дисперсии с расширением общей оптимизации выпуклых мер.
- Вулперт, Д.Х. (1992), «Сложенное обобщение», Neural Networks , 5 (2): 241–259, CiteSeerX 10.1.1.133.8090 , doi : 10.1016/S0893-6080(05)80023-1
- Хашем, С. (1997), «Оптимальные линейные комбинации нейронных сетей», Neural Networks , 10 (4): 599–614, doi : 10.1016/S0893-6080(96)00098-6 , PMID 12662858
- Хашем, С. и Б. Шмайсеры (1993), «Аппроксимация функции и ее производных с использованием MSE-оптимальных линейных комбинаций обученных нейронных сетей прямого распространения», Proceedings of the Joint Conference on Neural Networks , 87 : 617–620