Закрытый рекуррентный блок
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Закрытые рекуррентные единицы ( GRU ) — это механизм вентилирования в рекуррентных нейронных сетях , представленный в 2014 году Кёнхён Чо и др. [1] GRU похож на длинную кратковременную память (LSTM) с механизмом пропускания для ввода или забывания определенных функций. [2] но ему не хватает вектора контекста или выходного вентиля, что приводит к меньшему количеству параметров, чем LSTM. [3] Было обнаружено, что производительность GRU по некоторым задачам моделирования полифонической музыки, моделирования речевых сигналов и обработки естественного языка аналогична производительности LSTM. [4] [5] ГРУ показали, что шлюзование в целом действительно полезно, и команда Бенджио не пришла к конкретному выводу, какой из двух шлюзов лучше. [6] [7]
Архитектура [ править ]
Существует несколько вариантов полностью закрытого блока, в котором стробирование осуществляется с использованием предыдущего скрытого состояния и смещения в различных комбинациях, а также упрощенная форма, называемая минимальным вентилируемым блоком. [8]
Оператор обозначает произведение Адамара в дальнейшем.
Полностью закрытая квартира [ править ]
Первоначально для , выходной вектор .
Переменные ( обозначает количество входных функций и количество выходных функций):
- : входной вектор
- : выходной вектор
- : вектор активации кандидата
- : обновить вектор ворот
- : сброс вектора ворот
- , и : матрицы параметров и вектор, которые необходимо изучить во время обучения.
- : Исходная логистическая функция .
- : Исходным является гиперболический тангенс .
Альтернативные функции активации возможны при условии, что .
Альтернативные формы могут быть созданы путем изменения и [9]
- Тип 1, каждый гейт зависит только от предыдущего скрытого состояния и смещения.
- Тип 2, каждый гейт зависит только от предыдущего скрытого состояния.
- Тип 3, каждый гейт вычисляется с использованием только смещения.
Минимальный закрытый блок [ править ]
Минимальный вентильный блок (MGU) аналогичен полностью вентилируемому блоку, за исключением того, что вектор вентиля обновления и сброса объединяется с вентилем забывания. Это также означает, что уравнение для выходного вектора необходимо изменить: [10]
Переменные
- : входной вектор
- : выходной вектор
- : вектор активации кандидата
- : забыть вектор
- , и : матрицы параметров и вектор
Легкая закрытая рекуррентная единица [ править ]
Светозапираемая рекуррентная единица (ЛиГРУ) [4] полностью удаляет шлюз сброса, заменяет tanh активацией ReLU и применяет пакетную нормализацию (BN):
LiGRU изучался с байесовской точки зрения. [11] Этот анализ позволил получить вариант под названием «легкая байесовская рекуррентная единица» (LiBRU), который показал небольшие улучшения по сравнению с LiGRU в распознавания речи задачах .
Ссылки [ править ]
- ^ Чо, Кёнхён; ван Мерриенбур, Барт; Богданов, Д.З.митрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). «Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода». Ассоциация компьютерной лингвистики . arXiv : 1406.1078 .
- ^ Феликс Герс ; Юрген Шмидхубер ; Фред Камминс (1999). «Учимся забывать: постоянное предсказание с помощью LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том. 1999. стр. 850–855. дои : 10.1049/cp:19991218 . ISBN 0-85296-721-7 .
- ^ «Учебное пособие по рекуррентной нейронной сети, часть 4. Реализация GRU/LSTM RNN с помощью Python и Theano – WildML» . Wildml.com . 27 октября 2015 г. Архивировано из оригинала 10 ноября 2021 г. Проверено 18 мая 2016 г.
- ^ Jump up to: Перейти обратно: а б Раванелли, Мирко; Бракель, Филимон; Омолого, Маурицио; Бенджио, Йошуа (2018). «Световые рекуррентные устройства для распознавания речи». Транзакции IEEE по новым темам вычислительного интеллекта . 2 (2): 92–102. arXiv : 1803.10225 . дои : 10.1109/TETCI.2017.2762739 . S2CID 4402991 .
- ^ Су, Юаханг; Куо, Джей (2019). «О расширенной долговременной кратковременной памяти и зависимой двунаправленной рекуррентной нейронной сети». Нейрокомпьютинг . 356 : 151–161. arXiv : 1803.01686 . дои : 10.1016/j.neucom.2019.04.044 . S2CID 3675055 .
- ^ Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [ cs.NE ].
- ^ Грубер, Н.; Йокиш, А. (2020), «Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными при классификации текста по мотивам?», Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID 33733157 , S2CID 220252321
- ^ Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [ cs.NE ].
- ^ Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). «Варианты вентильных нейронных сетей с закрытыми рекуррентными единицами (GRU)». arXiv : 1701.05923 [ cs.NE ].
- ^ Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные варианты вентильных единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [ cs.NE ].
- ^ Биттар, Александр; Гарнер, Филип Н. (май 2021 г.). «Байесовская интерпретация рекуррентной единицы с закрытым светом» . МКАССП 2021 . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2021 года. Торонто, Онтарио, Канада: IEEE. стр. 2965–2969. 10.1109/ICASSP39728.2021.9414259.