Разбавление (нейронные сети)
![]() | этой статьи Фактическая точность оспаривается . ( Апрель 2020 г. ) |

Разбавление и отключение (также называемое DropConnect [1] ) — это методы регуляризации , позволяющие уменьшить переобучение в искусственных нейронных сетях за счет предотвращения сложной совместной адаптации обучающих данных . Они представляют собой эффективный способ усреднения модели с помощью нейронных сетей. [2] Разбавление относится к уменьшению веса, [3] в то время как выпадение относится к случайному «выпадению» или пропуску единиц (как скрытых, так и видимых) во время процесса обучения нейронной сети. [4] [5] [2] Оба запускают один и тот же тип регуляризации.
Виды и использование
[ редактировать ]Разбавление обычно делится на слабое разбавление и сильное разбавление . Слабое разбавление описывает процесс, в котором конечная доля удаленных соединений мала, а сильное разбавление относится к случаям, когда эта доля велика. Не существует четкого различия в том, где находится предел между сильным и слабым разбавлением, и часто это различие зависит от прецедента конкретного варианта использования и влияет на то, как найти точные решения.
Иногда разбавление используется для добавления затухающих шумов на входы. В этом случае слабое разбавление означает добавление небольшого количества затухания шума, тогда как сильное разбавление означает добавление большего количества затухания шума. И то, и другое можно переписать как варианты разбавления веса.
Эти методы также иногда называют случайным сокращением весов, но обычно это неповторяющаяся односторонняя операция. Сеть обрезается, а затем сохраняется, если она является улучшением по сравнению с предыдущей моделью. Разбавление и исключение относятся к итеративному процессу. Сокращение весов обычно не означает, что сеть продолжает обучение, тогда как при разбавлении/отсеве сеть продолжает обучение после применения метода.
Обобщенная линейная сеть
[ редактировать ]Выходные данные слоя линейных узлов в искусственной нейронной сети можно описать как
( 1 ) |
- – выход из узла
- – реальный вес до разбавления, также называемый силой соединения Хебба
- – вход от узла
Это можно записать в векторной записи как
( 2 ) |
- – выходной вектор
- – весовая матрица
- – входной вектор
Уравнения (1) и (2) используются в последующих разделах.
Слабое разведение
[ редактировать ]При слабом разбавлении конечная доля удаленных связей (веса) мала, что приводит к незначительной неопределенности. Этот крайний случай можно точно решить с помощью теории среднего поля . При слабом разбавлении влияние на вес можно описать как
( 3 ) |
- - разбавленный вес
- – реальный вес до разбавления
- – вероятность , вероятность удержать вес
Интерпретация вероятности Также можно перейти от поддержания веса к его сокращению.
В векторной записи это можно записать как
( 4 ) |
где функция накладывает предыдущее разбавление.
При слабом разбавлении разбавляется только небольшая и фиксированная часть массы. Когда количество членов в сумме достигает бесконечности (веса для каждого узла), оно по-прежнему бесконечно (доля фиксирована), поэтому среднюю теорию поля можно применять . В обозначениях Hertz et al. [3] это будет написано как
( 5 ) |
- средняя полевая температура
- – коэффициент масштабирования температуры от вероятности сохранения веса
- – реальный вес до разбавления, также называемый силой соединения Хебба
- – средние устойчивые состояния равновесия
Для этого существуют некоторые предположения, которые здесь не перечислены. [6] [7]
Сильное разбавление
[ редактировать ]Когда разбавление сильное, конечная доля удаленных связей (веса) велика, что приводит к огромной неопределенности.
Выбывать
[ редактировать ]Выпадение — это частный случай предыдущего уравнения веса ( 3 ), где вышеупомянутое уравнение корректируется для удаления целой строки в векторной матрице, а не только случайных весов.
( 6 ) |
- – вероятность сохранить строку в весовой матрице
- – реальная строка в весовой матрице перед выпадением
- – разбавленная строка в весовой матрице
Поскольку исключение удаляет целую строку из векторной матрицы, предыдущие (не указанные в списке) предположения о слабом разбавлении и использовании теории среднего поля неприменимы.
Процесс, посредством которого узел обнуляется, будь то установка весов в ноль, «удаление узла» или каким-либо другим способом, не влияет на конечный результат и не создает нового и уникального случая. Если нейронная сеть обрабатывается высокопроизводительным цифровым умножителем массивов, то, вероятно, более эффективно довести значение до нуля на поздней стадии графа процесса. Если сеть обрабатывается процессором с ограничениями, возможно, даже аналоговым процессором нейроморфа, то, вероятно, более энергоэффективным решением будет обнуление значения на ранней стадии графа процесса.
патент Google
[ редактировать ]Хотя были примеры случайного удаления связей между нейронами в нейронной сети для улучшения моделей, [3] имени с исключением вместе этот метод был впервые представлен Джеффри Хинтоном и др. . в 2012 году. [2] В настоящее время Google владеет патентом на метод исключения. [8] [примечание 1]
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Патент, скорее всего, недействителен из-за предыдущей техники. В предыдущих публикациях «отсев» описывался как «разбавление». Он описан Герцем, Крогом и Палмером во «Введении в теорию нейронных вычислений» (1991). ISBN 0-201-51560-1 , стр. 45, Слабое разбавление . В тексте есть ссылки на книгу Сомполинского « Теория нейронных сетей: правила Хебба и не только» из Гейдельбергского коллоквиума по глянцевой динамике (1987) и частично связанные модели нейронных сетей Каннинга и Гарднера в журнале «Физика» (1988). Далее описывается сильное разбавление. Это предшествует статье Хинтона.
Ссылки
[ редактировать ]- ^ Ван, Ли; Зейлер, Мэтью; Чжан, Сиксин; Ле Кун, Янн; Фергус, Роб (2013). «Регуляризация нейронных сетей с помощью DropConnect» . Материалы 30-й Международной конференции по машинному обучению, PMLR . 28 (3): 1058–1066 – через ПМЛР.
- ^ Перейти обратно: а б с Хинтон, Джеффри Э.; Шривастава, Нитиш; Крижевский, Алекс; Суцкевер, Илья; Салахутдинов, Руслан Р. (2012). «Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков». arXiv : 1207.0580 [ cs.NE ].
- ^ Перейти обратно: а б с Герц, Джон; Крог, Андерс; Палмер, Ричард (1991). Введение в теорию нейронных вычислений . Редвуд-Сити, Калифорния: Паб Addison-Wesley. Ко, стр. 45–46. ISBN 0-201-51560-1 .
- ^ «Отсев: простой способ предотвратить переобучение нейронных сетей» . Jmlr.org . Проверено 26 июля 2015 г.
- ^ Вард-Фарли, Дэвид; Гудфеллоу, Ян Дж.; Курвиль, Аарон; Бенджио, Йошуа (20 декабря 2013 г.). «Эмпирический анализ выпадения в кусочно-линейных сетях». arXiv : 1312.6197 [ stat.ML ].
- ^ Сомполинский, Х. (1987), «Теория нейронных сетей: правило Хебба и не только», Гейдельбергский коллоквиум по стекловидной динамике , Конспекты лекций по физике, том. 275, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 485–527, Bibcode : 1987LNP...275..485S , doi : 10.1007/bfb0057531 , ISBN 978-3-540-17777-7
- ^ Каннинг, А; Гарднер, Э. (7 августа 1988 г.). «Частично связанные модели нейронных сетей». Журнал физики A: Математический и общий . 21 (15): 3275–3284. Бибкод : 1988JPhA...21.3275C . дои : 10.1088/0305-4470/21/15/016 . ISSN 0305-4470 .
- ^ US 9406017B2 , Хинтон, Джеффри Э., «Система и метод решения проблемы переобучения в нейронной сети», опубликовано 2 августа 2016 г., выдано 2 августа 2016 г.