Закрытый рекуррентный блок

Закрытые рекуррентные единицы ( GRU ) — это механизм вентилирования в рекуррентных нейронных сетях , представленный в 2014 году Кёнхён Чо и др. ^[1] GRU похож на длинную кратковременную память (LSTM) с механизмом пропускания для ввода или забывания определенных функций. ^[2] но ему не хватает вектора контекста или выходного вентиля, что приводит к меньшему количеству параметров, чем LSTM. ^[3] Было обнаружено, что производительность GRU по некоторым задачам моделирования полифонической музыки, моделирования речевых сигналов и обработки естественного языка аналогична производительности LSTM. ^[4]^[5] ГРУ показали, что шлюзование в целом действительно полезно, и команда Бенджио не пришла к конкретному выводу, какой из двух шлюзов лучше. ^[6]^[7]

Архитектура [ править ]

Существует несколько вариантов полностью закрытого блока, в котором стробирование осуществляется с использованием предыдущего скрытого состояния и смещения в различных комбинациях, а также упрощенная форма, называемая минимальным вентилируемым блоком. ^[8]

Оператор $\odot$ обозначает произведение Адамара в дальнейшем.

Полностью закрытая квартира [ править ]

Первоначально для $t=0$ , выходной вектор $h_{0}=0$ .

{\begin{aligned}z_{t}&=\sigma (W_{z}x_{t}+U_{z}h_{t-1}+b_{z})\\r_{t}&=\sigma (W_{r}x_{t}+U_{r}h_{t-1}+b_{r})\\{\hat {h}}_{t}&=\phi (W_{h}x_{t}+U_{h}(r_{t}\odot h_{t-1})+b_{h})\\h_{t}&=(1-z_{t})\odot h_{t-1}+z_{t}\odot {\hat {h}}_{t}\end{aligned}}

Переменные ( $d$ обозначает количество входных функций и $e$ количество выходных функций):

$x_{t}\in \mathbb {R} ^{d}$ : входной вектор
$h_{t}\in \mathbb {R} ^{e}$ : выходной вектор
${\hat {h}}_{t}\in \mathbb {R} ^{e}$ : вектор активации кандидата
$z_{t}\in (0,1)^{e}$ : обновить вектор ворот
$r_{t}\in (0,1)^{e}$ : сброс вектора ворот
$W\in \mathbb {R} ^{d\times e}$ , $U\in \mathbb {R} ^{e\times e}$ и $b\in \mathbb {R} ^{e}$ : матрицы параметров и вектор, которые необходимо изучить во время обучения.

Функции активации

$\sigma$ : Исходная логистическая функция .
$\phi$ : Исходным является гиперболический тангенс .

Альтернативные функции активации возможны при условии, что $\sigma (x)\in [0,1]$ .

Альтернативные формы могут быть созданы путем изменения $z_{t}$ и $r_{t}$ ^[9]

Тип 1, каждый гейт зависит только от предыдущего скрытого состояния и смещения.
${\begin{aligned}z_{t}&=\sigma (U_{z}h_{t-1}+b_{z})\\r_{t}&=\sigma (U_{r}h_{t-1}+b_{r})\\\end{aligned}}$
Тип 2, каждый гейт зависит только от предыдущего скрытого состояния.
${\begin{aligned}z_{t}&=\sigma (U_{z}h_{t-1})\\r_{t}&=\sigma (U_{r}h_{t-1})\\\end{aligned}}$
Тип 3, каждый гейт вычисляется с использованием только смещения.
${\begin{aligned}z_{t}&=\sigma (b_{z})\\r_{t}&=\sigma (b_{r})\\\end{aligned}}$

Минимальный закрытый блок [ править ]

Минимальный вентильный блок (MGU) аналогичен полностью вентилируемому блоку, за исключением того, что вектор вентиля обновления и сброса объединяется с вентилем забывания. Это также означает, что уравнение для выходного вектора необходимо изменить: ^[10]

{\begin{aligned}f_{t}&=\sigma (W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\{\hat {h}}_{t}&=\phi (W_{h}x_{t}+U_{h}(f_{t}\odot h_{t-1})+b_{h})\\h_{t}&=(1-f_{t})\odot h_{t-1}+f_{t}\odot {\hat {h}}_{t}\end{aligned}}

Переменные

$x_{t}$ : входной вектор
$h_{t}$ : выходной вектор
${\hat {h}}_{t}$ : вектор активации кандидата
$f_{t}$ : забыть вектор
$W$ , $U$ и $b$ : матрицы параметров и вектор

Легкая закрытая рекуррентная единица [ править ]

Светозапираемая рекуррентная единица (ЛиГРУ) ^[4] полностью удаляет шлюз сброса, заменяет tanh активацией ReLU и применяет пакетную нормализацию (BN):

{\begin{aligned}z_{t}&=\sigma (\operatorname {BN} (W_{z}x_{t})+U_{z}h_{t-1})\\{\tilde {h}}_{t}&=\operatorname {ReLU} (\operatorname {BN} (W_{h}x_{t})+U_{h}h_{t-1})\\h_{t}&=z_{t}\odot h_{t-1}+(1-z_{t})\odot {\tilde {h}}_{t}\end{aligned}}

LiGRU изучался с байесовской точки зрения. ^[11] Этот анализ позволил получить вариант под названием «легкая байесовская рекуррентная единица» (LiBRU), который показал небольшие улучшения по сравнению с LiGRU в распознавания речи задачах .

Ссылки [ править ]

^ Чо, Кёнхён; ван Мерриенбур, Барт; Богданов, Д.З.митрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). «Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода». Ассоциация компьютерной лингвистики . arXiv : 1406.1078 .
^ Феликс Герс ; Юрген Шмидхубер ; Фред Камминс (1999). «Учимся забывать: постоянное предсказание с помощью LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том. 1999. стр. 850–855. дои : 10.1049/cp:19991218 . ISBN 0-85296-721-7 .
^ «Учебное пособие по рекуррентной нейронной сети, часть 4. Реализация GRU/LSTM RNN с помощью Python и Theano – WildML» . Wildml.com . 27 октября 2015 г. Архивировано из оригинала 10 ноября 2021 г. Проверено 18 мая 2016 г.
^ Jump up to: Перейти обратно: ^а ^б Раванелли, Мирко; Бракель, Филимон; Омолого, Маурицио; Бенджио, Йошуа (2018). «Световые рекуррентные устройства для распознавания речи». Транзакции IEEE по новым темам вычислительного интеллекта . 2 (2): 92–102. arXiv : 1803.10225 . дои : 10.1109/TETCI.2017.2762739 . S2CID 4402991 .
^ Су, Юаханг; Куо, Джей (2019). «О расширенной долговременной кратковременной памяти и зависимой двунаправленной рекуррентной нейронной сети». Нейрокомпьютинг . 356 : 151–161. arXiv : 1803.01686 . дои : 10.1016/j.neucom.2019.04.044 . S2CID 3675055 .
^ Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [ cs.NE ].
^ Грубер, Н.; Йокиш, А. (2020), «Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными при классификации текста по мотивам?», Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID 33733157 , S2CID 220252321
^ Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [ cs.NE ].
^ Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). «Варианты вентильных нейронных сетей с закрытыми рекуррентными единицами (GRU)». arXiv : 1701.05923 [ cs.NE ].
^ Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные варианты вентильных единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [ cs.NE ].
^ Биттар, Александр; Гарнер, Филип Н. (май 2021 г.). «Байесовская интерпретация рекуррентной единицы с закрытым светом» . МКАССП 2021 . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2021 года. Торонто, Онтарио, Канада: IEEE. стр. 2965–2969. 10.1109/ICASSP39728.2021.9414259.

[1] Чо, Кёнхён; ван Мерриенбур, Барт; Богданов, Д.З.митрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). «Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода». Ассоциация компьютерной лингвистики . arXiv : 1406.1078 .

[lstm1999-2] Феликс Герс ; Юрген Шмидхубер ; Фред Камминс (1999). «Учимся забывать: постоянное предсказание с помощью LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том. 1999. стр. 850–855. дои : 10.1049/cp:19991218 . ISBN 0-85296-721-7 .

[MyUser_Wildml.com_May_18_2016c-3] «Учебное пособие по рекуррентной нейронной сети, часть 4. Реализация GRU/LSTM RNN с помощью Python и Theano – WildML» . Wildml.com . 27 октября 2015 г. Архивировано из оригинала 10 ноября 2021 г. Проверено 18 мая 2016 г.

[Ravalli2018-4] Jump up to: Перейти обратно: ^а ^б Раванелли, Мирко; Бракель, Филимон; Омолого, Маурицио; Бенджио, Йошуа (2018). «Световые рекуррентные устройства для распознавания речи». Транзакции IEEE по новым темам вычислительного интеллекта . 2 (2): 92–102. arXiv : 1803.10225 . дои : 10.1109/TETCI.2017.2762739 . S2CID 4402991 .

[Su2019-5] Су, Юаханг; Куо, Джей (2019). «О расширенной долговременной кратковременной памяти и зависимой двунаправленной рекуррентной нейронной сети». Нейрокомпьютинг . 356 : 151–161. arXiv : 1803.01686 . дои : 10.1016/j.neucom.2019.04.044 . S2CID 3675055 .

[MyUser_Arxiv.org_May_18_2016c-6] Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [ cs.NE ].

[gruber_jockisch-7] Грубер, Н.; Йокиш, А. (2020), «Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными при классификации текста по мотивам?», Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID 33733157 , S2CID 220252321

[Chung_18_2016c-8] Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [ cs.NE ].

[9] Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). «Варианты вентильных нейронных сетей с закрытыми рекуррентными единицами (GRU)». arXiv : 1701.05923 [ cs.NE ].

[10] Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные варианты вентильных единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [ cs.NE ].

[11] Биттар, Александр; Гарнер, Филип Н. (май 2021 г.). «Байесовская интерпретация рекуррентной единицы с закрытым светом» . МКАССП 2021 . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2021 года. Торонто, Онтарио, Канада: IEEE. стр. 2965–2969. 10.1109/ICASSP39728.2021.9414259.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]