Jump to content

Разбавление (нейронные сети)

(Перенаправлено из Dropout (нейронные сети) )
Слева — полносвязная нейронная сеть с двумя скрытыми слоями. Справа — та же сеть после применения дропаута.

Разбавление и отключение (также называемое DropConnect [1] ) — это методы регуляризации , позволяющие уменьшить переобучение в искусственных нейронных сетях за счет предотвращения сложной совместной адаптации обучающих данных . Они представляют собой эффективный способ усреднения модели с помощью нейронных сетей. [2] Разбавление означает уменьшение веса, [3] в то время как выпадение относится к случайному «выпадению» или пропуску единиц (как скрытых, так и видимых) во время процесса обучения нейронной сети. [4] [5] [2] Оба запускают один и тот же тип регуляризации.

Виды и использование

[ редактировать ]

Разбавление обычно делится на слабое разбавление и сильное разбавление . Слабое разбавление описывает процесс, в котором конечная доля удаленных соединений мала, а сильное разбавление относится к случаям, когда эта доля велика. Не существует четкого различия в том, где находится предел между сильным и слабым разбавлением, и часто это различие зависит от прецедента конкретного варианта использования и влияет на то, как найти точные решения.

Иногда разбавление используется для добавления затухающих шумов на входы. В этом случае слабое разбавление означает добавление небольшого количества затухания шума, тогда как сильное разбавление означает добавление большего количества затухания шума. И то, и другое можно переписать как варианты разбавления веса.

Эти методы также иногда называют случайным сокращением весов, но обычно это неповторяющаяся односторонняя операция. Сеть обрезается, а затем сохраняется, если она является улучшением по сравнению с предыдущей моделью. Разбавление и исключение относятся к итеративному процессу. Сокращение весов обычно не означает, что сеть продолжает обучение, тогда как при разбавлении/отсеве сеть продолжает обучение после применения метода.

Обобщенная линейная сеть

[ редактировать ]

Выходные данные слоя линейных узлов в искусственной нейронной сети можно описать как

( 1 )
  • – выход из узла
  • – реальный вес до разбавления, также называемый силой соединения Хебба
  • – вход от узла

Это можно записать в векторной записи как

( 2 )
  • – выходной вектор
  • – весовая матрица
  • – входной вектор

Уравнения (1) и (2) используются в последующих разделах.

Слабое разведение

[ редактировать ]

При слабом разбавлении конечная доля удаленных связей (веса) мала, что приводит к незначительной неопределенности. Этот крайний случай можно точно решить с помощью теории среднего поля . При слабом разбавлении влияние на вес можно описать как

( 3 )
  • - разбавленный вес
  • – реальный вес до разбавления
  • – вероятность , вероятность удержать вес

Интерпретация вероятности Также можно перейти от поддержания веса к его сокращению.

В векторной записи это можно записать как

( 4 )

где функция накладывает предыдущее разбавление.

При слабом разбавлении разбавляется только небольшая и фиксированная часть массы. Когда количество членов в сумме достигает бесконечности (веса для каждого узла), оно по-прежнему бесконечно (доля фиксирована), поэтому среднюю теорию поля можно применять . В обозначениях Hertz et al. [3] это будет написано как

( 5 )
  • средняя полевая температура
  • – коэффициент масштабирования температуры от вероятности сохранения веса
  • – реальный вес до разбавления, также называемый силой соединения Хебба
  • – средние устойчивые состояния равновесия

Для этого существуют некоторые предположения, которые здесь не перечислены. [6] [7]

Сильное разбавление

[ редактировать ]

Когда разбавление сильное, конечная доля удаленных связей (веса) велика, что приводит к огромной неопределенности.

Выбывать

[ редактировать ]

Выпадение — это частный случай предыдущего уравнения веса ( 3 ), где вышеупомянутое уравнение корректируется для удаления целой строки в векторной матрице, а не только случайных весов.

( 6 )
  • – вероятность сохранить строку в весовой матрице
  • – реальная строка в весовой матрице перед выпадением
  • – разбавленная строка в весовой матрице

Поскольку исключение удаляет целую строку из векторной матрицы, предыдущие (не указанные в списке) предположения о слабом разбавлении и использовании теории среднего поля неприменимы.

Процесс, посредством которого узел обнуляется, будь то установка весов в ноль, «удаление узла» или каким-либо другим способом, не влияет на конечный результат и не создает нового и уникального случая. Если нейронная сеть обрабатывается высокопроизводительным цифровым умножителем массивов, то, вероятно, более эффективно довести значение до нуля на поздней стадии графа процесса. Если сеть обрабатывается процессором с ограничениями, возможно, даже аналоговым процессором нейроморфа, то, вероятно, более энергоэффективным решением будет обнуление значения на ранней стадии графа процесса.

патент Google

[ редактировать ]

Хотя были примеры случайного удаления связей между нейронами в нейронной сети для улучшения моделей, [3] имени исключением с этот метод был впервые представлен Джеффри Хинтоном и др. . в 2012 году. [2] В настоящее время Google владеет патентом на метод исключения. [8] [примечание 1]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Патент, скорее всего, недействителен из-за предыдущей техники. В предыдущих публикациях «отсев» описывался как «разбавление». Он описан Герцем, Крогом и Палмером во «Введении в теорию нейронных вычислений» (1991). ISBN   0-201-51560-1 , стр. 45, Слабое разбавление . В тексте есть ссылки на книгу Сомполинского « Теория нейронных сетей: правила Хебба и не только» из Гейдельбергского коллоквиума по глянцевой динамике (1987) и частично связанные модели нейронных сетей Каннинга и Гарднера в журнале физики (1988). Далее описывается сильное разбавление. Это предшествует статье Хинтона.
  1. ^ Ван, Ли; Зейлер, Мэтью; Чжан, Сиксин; Ле Кун, Янн; Фергус, Роб (2013). «Регуляризация нейронных сетей с помощью DropConnect» . Материалы 30-й Международной конференции по машинному обучению, PMLR . 28 (3): 1058–1066 – через ПМЛР.
  2. ^ Jump up to: а б с Хинтон, Джеффри Э.; Шривастава, Нитиш; Крижевский, Алекс; Суцкевер, Илья; Салахутдинов, Руслан Р. (2012). «Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков». arXiv : 1207.0580 [ cs.NE ].
  3. ^ Jump up to: а б с Герц, Джон; Крог, Андерс; Палмер, Ричард (1991). Введение в теорию нейронных вычислений . Редвуд-Сити, Калифорния: Паб Addison-Wesley. Ко, стр. 45–46. ISBN  0-201-51560-1 .
  4. ^ «Отсев: простой способ предотвратить переобучение нейронных сетей» . Jmlr.org . Проверено 26 июля 2015 г.
  5. ^ Вард-Фарли, Дэвид; Гудфеллоу, Ян Дж.; Курвиль, Аарон; Бенджио, Йошуа (20 декабря 2013 г.). «Эмпирический анализ выпадения в кусочно-линейных сетях». arXiv : 1312.6197 [ stat.ML ].
  6. ^ Сомполинский, Х. (1987), «Теория нейронных сетей: правило Хебба и не только», Гейдельбергский коллоквиум по стекловидной динамике , Конспекты лекций по физике, том. 275, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 485–527, Bibcode : 1987LNP...275..485S , doi : 10.1007/bfb0057531 , ISBN  978-3-540-17777-7
  7. ^ Каннинг, А; Гарднер, Э. (7 августа 1988 г.). «Частично связанные модели нейронных сетей». Журнал физики A: Математический и общий . 21 (15): 3275–3284. Бибкод : 1988JPhA...21.3275C . дои : 10.1088/0305-4470/21/15/016 . ISSN   0305-4470 .
  8. ^ US 9406017B2 , Хинтон, Джеффри Э., «Система и метод решения проблемы переобучения в нейронной сети», опубликовано 2 августа 2016 г., выдано 2 августа 2016 г.  
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1ea247789a4525f0530eac848986fe26__1721960400
URL1:https://arc.ask3.ru/arc/aa/1e/26/1ea247789a4525f0530eac848986fe26.html
Заголовок, (Title) документа по адресу, URL1:
Dilution (neural networks) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)