Jump to content

Сеть автомобильных дорог

В машинном обучении Highway Network была первой работающей нейронной сетью очень глубокой прямой связи с сотнями слоев, намного глубже, чем предыдущие искусственные нейронные сети . [1] [2] [3] Он использует пропускаемые соединения, модулированные изученными механизмами шлюзования для регулирования потока информации, вдохновленные с длинной краткосрочной памятью (LSTM) рекуррентными нейронными сетями . [4] [5] Преимущество сети автомагистралей перед обычными глубокими нейронными сетями заключается в том, что она решает или частично предотвращает проблему исчезновения градиента . [6] что упрощает оптимизацию нейронных сетей.Механизмы шлюзования облегчают поток информации по многим уровням («информационные магистрали»). [1] [2]

Highway Networks использовались как часть задач маркировки текстовых последовательностей и распознавания речи . [7] [8] Вариант сети шоссе с открытыми воротами или без ворот, называемый остаточной нейронной сетью. [9] был использован для победы в конкурсе ImageNet 2015. Это самая цитируемая нейронная сеть 21 века. [3]

Модель имеет два вентиля в дополнение к вентилю H(WH , x) : вентиль преобразования T(W T , x ) и вентиль переноса C(W C , x) . Эти два последних элемента являются нелинейными передаточными функциями (по соглашению сигмовидная функция ). Функция H(WH , x) может быть любой желаемой передаточной функцией.

Вентиль переноса определяется как C(W C , x) = 1 - T(W T , x) . В то время как вентиль преобразования — это просто вентиль с сигмовидной передаточной функцией.

Структура

[ редактировать ]

Структура скрытого слоя подчиняется уравнению:

[ редактировать ]

Зепп Хохрайтер проанализировал проблему исчезающего градиента в 1991 году и объяснил, почему глубокое обучение не работает должным образом. [6] Чтобы решить эту проблему, с длинной краткосрочной памятью (LSTM). используются рекуррентные нейронные сети [4] иметь остаточные соединения с весом 1,0 в каждой ячейке LSTM (называемой каруселью постоянных ошибок) для вычисления . При обратном распространении ошибки во времени это становится формулой остатка для нейронных сетей прямого распространения. Это позволяет обучать очень глубокие рекуррентные нейронные сети в течение очень длительного периода времени. Более поздняя версия LSTM, опубликованная в 2000 году. [5] модулирует идентификационные соединения LSTM с помощью так называемых «ворот забывания», так что их веса не имеют фиксированного значения 1,0, но могут быть изучены. В экспериментах ворота забывания инициализировались с положительными весами смещения, [5] таким образом открывается, решая проблему исчезновения градиента.Пока ворота забывания LSTM 2000 года открыты, он ведет себя как LSTM 1997 года.

Дорожная сеть мая 2015 г. [1] применяет эти принципы к нейронным сетям прямого распространения .Сообщалось, что это «первая очень глубокая сеть прямой связи с сотнями слоев». [10] Это похоже на LSTM 2000 года с воротами забвения, раскрытыми во времени . [5] в то время как более поздние Residual Nets не имеют эквивалента шлюзов забывания и похожи на развернутый оригинальный LSTM 1997 года. [4] Если пропущенные соединения в Сети шоссе «без ворот» или их ворота остаются открытыми (активация 1.0), они становятся Остаточными сетями.

Оригинальный документ о сети автомобильных дорог [1] не только представил основной принцип очень глубоких сетей прямой связи, но также включил экспериментальные результаты с сетями с 20, 50 и 100 слоями, а также упомянул текущие эксперименты с числом слоев до 900.

  1. ^ Jump up to: а б с д Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [ cs.LG ].
  2. ^ Jump up to: а б Шривастава, Рупеш К; Грефф, Клаус; Шмидхубер, Юрген (2015). «Обучение очень глубоких сетей» . Достижения в области нейронных систем обработки информации . 28 . Curran Associates, Inc.: 2377–2385.
  3. ^ Jump up to: а б Шмидхубер, Юрген (2021). «Все наиболее цитируемые нейронные сети основаны на работе, проделанной в моих лабораториях» . Блог ИИ . ИДСИА, Швейцария . Проверено 30 апреля 2022 г.
  4. ^ Jump up to: а б с Зепп Хохрайтер ; Юрген Шмидхубер (1997). «Долгая кратковременная память» . Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ПМИД   9377276 . S2CID   1915014 .
  5. ^ Jump up to: а б с д Феликс А. Герс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: постоянное прогнозирование с помощью LSTM». Нейронные вычисления . 12 (10): 2451–2471. CiteSeerX   10.1.1.55.5709 . дои : 10.1162/089976600300015015 . ПМИД   11032042 . S2CID   11598600 .
  6. ^ Jump up to: а б Хохрейтер, Зепп (1991). Исследования по динамическим нейронным сетям (PDF) (дипломная работа). Технический университет Мюнхена, Институт компьютерных наук, руководитель: Й. Шмидхубер.
  7. ^ Пэн, Цзянь, Цзявэй (12 сентября 2017 г.). Лю, Лиюань; Сюй, Фрэнк Ф.; Рен , Сян ; 1709.04109 [ cs.CL ].
  8. ^ Курата, Гакуто; Рамабхадран, Бхувана ; Саон, Джордж; Сети, Абхинав (19 сентября 2017 г.). «Языковое моделирование с помощью Highway LSTM». arXiv : 1709.06436 [ cs.CL ].
  9. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). Глубокое остаточное обучение для распознавания изображений . Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN  978-1-4673-8851-1 .
  10. ^ Шмидхубер, Юрген (2015). «Сети шоссе (май 2015 г.): первые работающие нейронные сети с действительно глубокой прямой связью с более чем 100 слоями» .


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1644adb67776df638028111a03e815e5__1703950920
URL1:https://arc.ask3.ru/arc/aa/16/e5/1644adb67776df638028111a03e815e5.html
Заголовок, (Title) документа по адресу, URL1:
Highway network - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)