Сеть автомобильных дорог
В машинном обучении Highway Network была первой работающей нейронной сетью очень глубокой прямой связи с сотнями слоев, намного глубже, чем предыдущие искусственные нейронные сети . [1] [2] [3] Он использует пропускаемые соединения, модулированные изученными механизмами шлюзования для регулирования потока информации, вдохновленные с длинной краткосрочной памятью (LSTM) рекуррентными нейронными сетями . [4] [5] Преимущество сети автомагистралей перед обычными глубокими нейронными сетями заключается в том, что она решает или частично предотвращает проблему исчезновения градиента . [6] что упрощает оптимизацию нейронных сетей.Механизмы шлюзования облегчают поток информации по многим уровням («информационные магистрали»). [1] [2]
Highway Networks использовались как часть задач маркировки текстовых последовательностей и распознавания речи . [7] [8] Вариант сети шоссе с открытыми воротами или без ворот, называемый остаточной нейронной сетью. [9] был использован для победы в конкурсе ImageNet 2015. Это самая цитируемая нейронная сеть 21 века. [3]
Модель
[ редактировать ]Модель имеет два вентиля в дополнение к вентилю H(WH , x) : вентиль преобразования T(W T , x ) и вентиль переноса C(W C , x) . Эти два последних элемента являются нелинейными передаточными функциями (по соглашению сигмовидная функция ). Функция H(WH , x) может быть любой желаемой передаточной функцией.
Вентиль переноса определяется как C(W C , x) = 1 - T(W T , x) . В то время как вентиль преобразования — это просто вентиль с сигмовидной передаточной функцией.
Структура
[ редактировать ]Структура скрытого слоя подчиняется уравнению:
Связанные работы
[ редактировать ]Зепп Хохрайтер проанализировал проблему исчезающего градиента в 1991 году и объяснил, почему глубокое обучение не работает должным образом. [6] Чтобы решить эту проблему, с длинной краткосрочной памятью (LSTM). используются рекуррентные нейронные сети [4] иметь остаточные соединения с весом 1,0 в каждой ячейке LSTM (называемой каруселью постоянных ошибок) для вычисления . При обратном распространении ошибки во времени это становится формулой остатка для нейронных сетей прямого распространения. Это позволяет обучать очень глубокие рекуррентные нейронные сети в течение очень длительного периода времени. Более поздняя версия LSTM, опубликованная в 2000 году. [5] модулирует идентификационные соединения LSTM с помощью так называемых «ворот забывания», так что их веса не имеют фиксированного значения 1,0, но могут быть изучены. В экспериментах ворота забывания инициализировались с положительными весами смещения, [5] таким образом открывается, решая проблему исчезновения градиента.Пока ворота забывания LSTM 2000 года открыты, он ведет себя как LSTM 1997 года.
Дорожная сеть мая 2015 г. [1] применяет эти принципы к нейронным сетям прямого распространения .Сообщалось, что это «первая очень глубокая сеть прямой связи с сотнями слоев». [10] Это похоже на LSTM 2000 года с воротами забвения, раскрытыми во времени . [5] в то время как более поздние Residual Nets не имеют эквивалента шлюзов забывания и похожи на развернутый оригинальный LSTM 1997 года. [4] Если пропущенные соединения в Сети шоссе «без ворот» или их ворота остаются открытыми (активация 1.0), они становятся Остаточными сетями.
Оригинальный документ о сети автомобильных дорог [1] не только представил основной принцип очень глубоких сетей прямой связи, но также включил экспериментальные результаты с сетями с 20, 50 и 100 слоями, а также упомянул текущие эксперименты с числом слоев до 900.
Ссылки
[ редактировать ]- ^ Jump up to: а б с д Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [ cs.LG ].
- ^ Jump up to: а б Шривастава, Рупеш К; Грефф, Клаус; Шмидхубер, Юрген (2015). «Обучение очень глубоких сетей» . Достижения в области нейронных систем обработки информации . 28 . Curran Associates, Inc.: 2377–2385.
- ^ Jump up to: а б Шмидхубер, Юрген (2021). «Все наиболее цитируемые нейронные сети основаны на работе, проделанной в моих лабораториях» . Блог ИИ . ИДСИА, Швейцария . Проверено 30 апреля 2022 г.
- ^ Jump up to: а б с Зепп Хохрайтер ; Юрген Шмидхубер (1997). «Долгая кратковременная память» . Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ПМИД 9377276 . S2CID 1915014 .
- ^ Jump up to: а б с д Феликс А. Герс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: постоянное прогнозирование с помощью LSTM». Нейронные вычисления . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . дои : 10.1162/089976600300015015 . ПМИД 11032042 . S2CID 11598600 .
- ^ Jump up to: а б Хохрейтер, Зепп (1991). Исследования по динамическим нейронным сетям (PDF) (дипломная работа). Технический университет Мюнхена, Институт компьютерных наук, руководитель: Й. Шмидхубер.
- ^ Пэн, Цзянь, Цзявэй (12 сентября 2017 г.). Лю, Лиюань; Сюй, Фрэнк Ф.; Рен , Сян ; 1709.04109 [ cs.CL ].
- ^ Курата, Гакуто; Рамабхадран, Бхувана ; Саон, Джордж; Сети, Абхинав (19 сентября 2017 г.). «Языковое моделирование с помощью Highway LSTM». arXiv : 1709.06436 [ cs.CL ].
- ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). Глубокое остаточное обучение для распознавания изображений . Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1 .
- ^ Шмидхубер, Юрген (2015). «Сети шоссе (май 2015 г.): первые работающие нейронные сети с действительно глубокой прямой связью с более чем 100 слоями» .