Закрытый рекуррентный блок

Из Википедии, бесплатной энциклопедии

Закрытые рекуррентные единицы ( GRU ) — это механизм вентилирования в рекуррентных нейронных сетях , представленный в 2014 году Кёнхёном Чо и др. [1] GRU похож на длинную кратковременную память (LSTM) с механизмом пропускания для ввода или забывания определенных функций. [2] но ему не хватает вектора контекста или выходного вентиля, что приводит к меньшему количеству параметров, чем LSTM. [3] Было обнаружено, что производительность GRU по некоторым задачам моделирования полифонической музыки, моделирования речевых сигналов и обработки естественного языка аналогична производительности LSTM. [4] [5] ГРУ показало, что шлюзование в целом действительно полезно, и команда Бенджио не пришла к конкретному выводу о том, какой из двух шлюзов лучше. [6] [7]

Архитектура [ править ]

Существует несколько вариаций полностью закрытого блока, в котором стробирование осуществляется с использованием предыдущего скрытого состояния и смещения в различных комбинациях, а также упрощенная форма, называемая минимальным вентилируемым блоком. [8]

Оператор обозначает произведение Адамара в дальнейшем.

Полностью закрытая квартира [ править ]

Закрытый рекуррентный блок, полностью закрытая версия

Первоначально для , выходной вектор .

Переменные ( обозначает количество входных функций и количество выходных функций):

  • : входной вектор
  • : выходной вектор
  • : вектор активации кандидата
  • : обновить вектор ворот
  • : сброс вектора ворот
  • , и : матрицы параметров и вектор, которые необходимо изучить во время обучения.

Функции активации

Альтернативные функции активации возможны при условии, что .

Тип 1
Тип 2
Тип 3

Альтернативные формы могут быть созданы путем изменения и [9]

  • Тип 1, каждый гейт зависит только от предыдущего скрытого состояния и смещения.
  • Тип 2, каждый гейт зависит только от предыдущего скрытого состояния.
  • Тип 3, каждый гейт вычисляется с использованием только смещения.

Минимальный закрытый блок [ править ]

Минимальный вентильный блок (MGU) аналогичен полностью вентилируемому блоку, за исключением того, что вектор вентиля обновления и сброса объединяется с вентилем забывания. Это также означает, что уравнение для выходного вектора необходимо изменить: [10]

Переменные

  • : входной вектор
  • : выходной вектор
  • : вектор активации кандидата
  • : забыть вектор
  • , и : матрицы параметров и вектор

Легкая закрытая рекуррентная единица [ править ]

Светозапираемая рекуррентная единица (ЛиГРУ) [4] полностью удаляет шлюз сброса, заменяет tanh активацией ReLU и применяет пакетную нормализацию (BN):

LiGRU изучался с байесовской точки зрения. [11] Этот анализ позволил получить вариант под названием «легкая байесовская рекуррентная единица» (LiBRU), который показал небольшие улучшения по сравнению с LiGRU в задачах распознавания речи .

Ссылки [ править ]

  1. ^ Чо, Кёнхён; ван Мерриенбур, Барт; Богданов, Д.З.митрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). «Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода». Ассоциация компьютерной лингвистики . arXiv : 1406.1078 .
  2. ^ Феликс Герс ; Юрген Шмидхубер ; Фред Камминс (1999). «Учимся забывать: постоянное предсказание с помощью LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том. 1999. стр. 850–855. дои : 10.1049/cp:19991218 . ISBN  0-85296-721-7 .
  3. ^ «Учебное пособие по рекуррентной нейронной сети, часть 4. Реализация GRU/LSTM RNN с помощью Python и Theano – WildML» . Wildml.com . 27 октября 2015 г. Архивировано из оригинала 10 ноября 2021 г. Проверено 18 мая 2016 г.
  4. ^ Перейти обратно: а б Раванелли, Мирко; Бракель, Филимон; Омолого, Маурицио; Бенджио, Йошуа (2018). «Световые рекуррентные устройства для распознавания речи». Транзакции IEEE по новым темам вычислительного интеллекта . 2 (2): 92–102. arXiv : 1803.10225 . дои : 10.1109/TETCI.2017.2762739 . S2CID   4402991 .
  5. ^ Су, Юаханг; Куо, Джей (2019). «О расширенной долговременной кратковременной памяти и зависимой двунаправленной рекуррентной нейронной сети». Нейрокомпьютинг . 356 : 151–161. arXiv : 1803.01686 . дои : 10.1016/j.neucom.2019.04.044 . S2CID   3675055 .
  6. ^ Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [ cs.NE ].
  7. ^ Грубер, Н.; Йокиш, А. (2020), «Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными при классификации текста по мотивам?», Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC   7861254 , PMID   33733157 , S2CID   220252321
  8. ^ Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [ cs.NE ].
  9. ^ Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). «Варианты вентильных нейронных сетей с закрытыми рекуррентными единицами (GRU)». arXiv : 1701.05923 [ cs.NE ].
  10. ^ Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные варианты вентильных единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [ cs.NE ].
  11. ^ Биттар, Александр; Гарнер, Филип Н. (май 2021 г.). «Байесовская интерпретация рекуррентной единицы с закрытым светом» . МКАССП 2021 . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2021 года. Торонто, Онтарио, Канада: IEEE. стр. 2965–2969. 10.1109/ICASSP39728.2021.9414259.