Двунаправленные рекуррентные нейронные сети

Двунаправленные рекуррентные нейронные сети ( BRNN ) соединяют два скрытых слоя противоположных направлений с одним и тем же выходом. С помощью этой формы генеративного глубокого обучения выходной слой может одновременно получать информацию из прошлого (обратного) и будущего (прямого) состояний. Изобретён в 1997 году Шустером и Паливалом. ^[1] BRNN были введены для увеличения объема входной информации, доступной в сети. Например, многослойный перцептрон (MLP) и нейронная сеть с задержкой (TDNN) имеют ограничения на гибкость входных данных, поскольку они требуют, чтобы их входные данные были фиксированными. Стандартные рекуррентные нейронные сети (RNN) также имеют ограничения, поскольку будущая входная информация не может быть получена из текущего состояния. Напротив, BRNN не требуют фиксирования входных данных. Более того, их будущая входная информация доступна из текущего состояния. ^[2]

BRNN особенно полезны, когда необходим контекст ввода. Например, при распознавании рукописного ввода производительность можно повысить, зная буквы, расположенные до и после текущей буквы.

Архитектура

Принцип BRNN состоит в том, чтобы разделить нейроны обычной RNN на два направления: одно для положительного направления времени (прямые состояния), а другое — для отрицательного направления времени (обратные состояния). Выход этих двух состояний не подключен к входам состояний противоположного направления. Общую структуру RNN и BRNN можно изобразить на диаграмме справа. Используя два временных направления, можно использовать входную информацию из прошлого и будущего текущего периода времени, в отличие от стандартного RNN, который требует задержек для включения будущей информации. ^[1]

Обучение

BRNN можно обучать с использованием алгоритмов, аналогичных RNN, поскольку два направленных нейрона не взаимодействуют. Однако при применении обратного распространения ошибки во времени необходимы дополнительные процессы, поскольку обновление входных и выходных слоев невозможно выполнить одновременно. Общие процедуры обучения следующие: при прямом проходе сначала передаются прямое и обратное состояния, затем передаются выходные нейроны. При обратном проходе сначала передаются выходные нейроны, затем передаются прямые и обратные состояния. После выполнения проходов вперед и назад веса обновляются. ^[1]

Приложения

Приложения BRNN включают:

Распознавание речи (в сочетании с долговременной кратковременной памятью ) ^[3]^[4]

Перевод ^[5]
Распознавание рукописного текста ^[6]
Прогнозирование структуры белка ^[7]^[8]
Маркировка частей речи
Анализ зависимостей ^[9]
Извлечение сущности ^[10]

Ссылки

^ Перейти обратно: ^а ^б ^с ^д Шустер, Майк и Кулдип К. Паливал. « Двунаправленные рекуррентные нейронные сети ». Обработка сигналов, транзакции IEEE 45.11 (1997): 2673-2681.2. Ауни Ханнан, Карл Кейс, Джаред Каспер, Брайан Катандзаро, Грег Диамос, Эрих Элсен, Райан
^ Салехинеджад, Ходжат; Санкар, Шаран; Барфетт, Джозеф; Чолак, Эррол; Валаи, Шахрох (2017). «Последние достижения в области рекуррентных нейронных сетей». arXiv : 1801.01078 [ cs.NE ].
^ Грейвс, Алекс, Сантьяго Фернандес и Юрген Шмидхубер. « Двунаправленные сети LSTM для улучшенной классификации и распознавания фонем ». Искусственные нейронные сети: формальные модели и их приложения – ICANN 2005. Springer Berlin Heidelberg, 2005. 799-804.
^ Грейвс, Алан, Навдип Джейтли и Абдель-Рахман Мохамед. « Гибридное распознавание речи с глубоким двунаправленным LSTM ». Автоматическое распознавание и понимание речи (ASRU), семинар IEEE 2013 г. ИИЭР, 2013.
^ Сандермейер, Мартин и др. « Моделирование перевода с помощью двунаправленных рекуррентных нейронных сетей ». Материалы конференции по эмпирическим методам обработки естественного языка, октябрь. 2014.
^ Ливицкий, Маркус и др. « Новый подход к онлайн-распознаванию рукописного текста, основанный на двунаправленных сетях долговременной краткосрочной памяти ». Учеб. 9-й Международный. Конф. по анализу и распознаванию документов. Том. 1. 2007.
^ Балди, Пьер и др. « Использование прошлого и будущего в предсказании вторичной структуры белков ». Биоинформатика 15.11 (1999): 937-946.
^ Полластри, Джанлука и Аойф Маклисахт. « Портер: новый, точный сервер для предсказания вторичной структуры белков ». Биоинформатика 21.8 (2005): 1719-1720.
^ Кипервассер, Элияху; Гольдберг, Йоав (2016). «Простой и точный анализ зависимостей с использованием двунаправленных представлений функций LSTM» . Труды Ассоциации компьютерной лингвистики . 4 : 313–327. arXiv : 1603.04351 . Бибкод : 2016arXiv160304351K . дои : 10.1162/tacl_a_00101 . S2CID 1642392 .
^ Дернонкур, Франк; Ли, Джи Ён; Шоловиц, Петр (15 мая 2017 г.). «NeuroNER: простая в использовании программа для распознавания именованных объектов на основе нейронных сетей». arXiv : 1705.05487 [ cs.CL ].

Внешние ссылки

[1] Реализация BRNN/LSTM в Python с Theano

[Schuster-1] Перейти обратно: ^а ^б ^с ^д Шустер, Майк и Кулдип К. Паливал. « Двунаправленные рекуррентные нейронные сети ». Обработка сигналов, транзакции IEEE 45.11 (1997): 2673-2681.2. Ауни Ханнан, Карл Кейс, Джаред Каспер, Брайан Катандзаро, Грег Диамос, Эрих Элсен, Райан

[2] Салехинеджад, Ходжат; Санкар, Шаран; Барфетт, Джозеф; Чолак, Эррол; Валаи, Шахрох (2017). «Последние достижения в области рекуррентных нейронных сетей». arXiv : 1801.01078 [ cs.NE ].

[3] Грейвс, Алекс, Сантьяго Фернандес и Юрген Шмидхубер. « Двунаправленные сети LSTM для улучшенной классификации и распознавания фонем ». Искусственные нейронные сети: формальные модели и их приложения – ICANN 2005. Springer Berlin Heidelberg, 2005. 799-804.

[4] Грейвс, Алан, Навдип Джейтли и Абдель-Рахман Мохамед. « Гибридное распознавание речи с глубоким двунаправленным LSTM ». Автоматическое распознавание и понимание речи (ASRU), семинар IEEE 2013 г. ИИЭР, 2013.

[5] Сандермейер, Мартин и др. « Моделирование перевода с помощью двунаправленных рекуррентных нейронных сетей ». Материалы конференции по эмпирическим методам обработки естественного языка, октябрь. 2014.

[6] Ливицкий, Маркус и др. « Новый подход к онлайн-распознаванию рукописного текста, основанный на двунаправленных сетях долговременной краткосрочной памяти ». Учеб. 9-й Международный. Конф. по анализу и распознаванию документов. Том. 1. 2007.

[7] Балди, Пьер и др. « Использование прошлого и будущего в предсказании вторичной структуры белков ». Биоинформатика 15.11 (1999): 937-946.

[8] Полластри, Джанлука и Аойф Маклисахт. « Портер: новый, точный сервер для предсказания вторичной структуры белков ». Биоинформатика 21.8 (2005): 1719-1720.

[9] Кипервассер, Элияху; Гольдберг, Йоав (2016). «Простой и точный анализ зависимостей с использованием двунаправленных представлений функций LSTM» . Труды Ассоциации компьютерной лингвистики . 4 : 313–327. arXiv : 1603.04351 . Бибкод : 2016arXiv160304351K . дои : 10.1162/tacl_a_00101 . S2CID 1642392 .

[10] Дернонкур, Франк; Ли, Джи Ён; Шоловиц, Петр (15 мая 2017 г.). «NeuroNER: простая в использовании программа для распознавания именованных объектов на основе нейронных сетей». arXiv : 1705.05487 [ cs.CL ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]