Длинная кратковременная память

Длинная кратковременная память ( LSTM ) ^[1] это тип рекуррентной нейронной сети (RNN), предназначенный для решения проблемы исчезающего градиента. ^[2] присутствует в традиционных RNN. Его относительная нечувствительность к длине промежутка является его преимуществом перед другими RNN, скрытыми моделями Маркова и другими методами обучения последовательностей. Его цель — обеспечить RNN кратковременную память, которая может сохраняться на тысячи временных шагов, то есть « долгую кратковременную память». ^[1] Он применим для классификации , обработки и прогнозирования данных на основе временных рядов , например, рукописных , ^[3] распознавание речи , ^[4]^[5] машинный перевод , ^[6]^[7] обнаружение речевой активности, ^[8] управление роботом, ^[9]^[10] видеоигры, ^[11]^[12] и здравоохранение. ^[13]

Общий блок LSTM состоит из ячейки , входного вентиля , выходного вентиля. ^[14] и ворота забвения . ^[15] Ячейка запоминает значения в течение произвольных интервалов времени, а три шлюза регулируют поток информации в ячейку и из нее. Ворота забывания решают, какую информацию следует удалить из предыдущего состояния, присваивая предыдущему состоянию по сравнению с текущим входом значение от 0 до 1. (Округленное) значение 1 означает сохранение информации, а значение 0 означает сохранение информации. откажитесь от него. Входные ворота решают, какие фрагменты новой информации хранить в текущем состоянии, используя ту же систему, что и ворота забывания. Выходные вентили контролируют, какие фрагменты информации в текущем состоянии выводить, присваивая информации значение от 0 до 1 с учетом предыдущего и текущего состояний. Выборочный вывод соответствующей информации из текущего состояния позволяет сети LSTM поддерживать полезные долгосрочные зависимости для прогнозирования как на текущих, так и на будущих временных шагах.

Мотивация [ править ]

Теоретически классические RNN могут отслеживать произвольные долгосрочные зависимости во входных последовательностях. Проблема с классическими RNN носит вычислительный (или практический) характер: при обучении классической RNN с использованием обратного распространения ошибки долгосрочные градиенты с обратным распространением могут «исчезать» , то есть они могут стремиться к нулю из-за очень малых чисел. проникает в вычисления, в результате чего модель фактически прекращает обучение. RNN, использующие блоки LSTM, частично решают проблему исчезновения градиента , поскольку блоки LSTM также позволяют градиентам течь практически без затухания. Однако сети LSTM все еще могут страдать от проблемы взрывного градиента. ^[16]

Идея архитектуры LSTM заключается в создании дополнительного модуля в нейронной сети, который учится, когда запоминать, а когда забывать соответствующую информацию. ^[15] Другими словами, сеть эффективно узнает, какая информация может понадобиться позже в последовательности и когда эта информация больше не нужна. Например, в контексте обработки естественного языка сеть может изучать грамматические зависимости. ^[17] LSTM может обработать предложение « Дэйв , в результате его спорных утверждений, теперь является изгоем», запоминая (статистически вероятный) грамматический пол и число подлежащего Дэйв , обратите внимание, что эта информация относится к местоимению его и отметьте что эта информация больше не важна после глагола is .

Варианты [ править ]

В приведенных ниже уравнениях переменные нижнего регистра представляют векторы. Матрицы $W_{q}$ и $U_{q}$ содержат соответственно веса входной и рекуррентной связей, где индекс $_{q}$ может быть либо входным воротами $i$ , выходной вентиль $o$ , ворота забвения $f$ или ячейка памяти $c$ , в зависимости от рассчитываемой активации. Таким образом, в этом разделе мы используем «векторную запись». Так, например, $c_{t}\in \mathbb {R} ^{h}$ это не просто одна единица одной ячейки LSTM, а содержит $h$ Единицы ячейки LSTM.

LSTM с воротами забывания [ править ]

Компактные формы уравнений для прямого прохода ячейки LSTM с воротами забывания: ^[1]^[15]

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\{\tilde {c}}_{t}&=\sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot {\tilde {c}}_{t}\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

где начальные значения $c_{0}=0$ и $h_{0}=0$ и оператор $\odot$ обозначает произведение Адамара (поэлементное произведение). Нижний индекс $t$ индексирует шаг по времени.

Переменные [ править ]

Использование надстрочных индексов $d$ и $h$ относятся к количеству входных объектов и количеству скрытых блоков соответственно:

$x_{t}\in \mathbb {R} ^{d}$ : входной вектор в модуль LSTM
$f_{t}\in {(0,1)}^{h}$ : забыть вектор активации ворот
$i_{t}\in {(0,1)}^{h}$ : вектор активации входа/обновления ворот
$o_{t}\in {(0,1)}^{h}$ : вектор активации выходного вентиля
$h_{t}\in {(-1,1)}^{h}$ : вектор скрытого состояния, также известный как выходной вектор модуля LSTM.
${\tilde {c}}_{t}\in {(-1,1)}^{h}$ : вектор активации ввода ячейки
$c_{t}\in \mathbb {R} ^{h}$ : вектор состояния ячейки
$W\in \mathbb {R} ^{h\times d}$ , $U\in \mathbb {R} ^{h\times h}$ и $b\in \mathbb {R} ^{h}$ : весовые матрицы и параметры вектора смещения, которые необходимо изучить во время обучения.

Функции активации [ править ]

$\sigma _{g}$ : сигмовидная функция .
$\sigma _{c}$ : функция гиперболического тангенса .
$\sigma _{h}$ : функция гиперболического тангенса или, как в бумаге LSTM в глазке ^[18]^[19] предполагает, $\sigma _{h}(x)=x$ .

Глазок LSTM [ править ]

{\displaystyle я} — Блок LSTM «глазок» со входом (т. е. $i$ ), выход (т.е. $o$ ) и забыть (т.е. $f$ ) ворота

Рисунок справа представляет собой графическое изображение блока LSTM с глазковыми соединениями (т.е. глазок LSTM). ^[18]^[19] Соединения «глазок» позволяют воротам получить доступ к карусели постоянных ошибок (CEC), активацией которой является состояние ячейки. ^[18] $h_{t-1}$ не используется, $c_{t-1}$ вместо этого используется в большинстве мест.

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}x_{t}+b_{c})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Каждый из вентилей можно рассматривать как «стандартный» нейрон в нейронной сети прямого распространения (или многослойной): то есть они вычисляют активацию (используя функцию активации) взвешенной суммы. $i_{t},o_{t}$ и $f_{t}$ представляют собой активации соответственно входа, выхода и вентилей забывания на временном шаге $t$ .

3 стрелки выхода из ячейки памяти. $c$ до 3 ворот $i,o$ и $f$ представляют собой соединения глазка . Эти соединения в глазке на самом деле обозначают вклад активации ячейки памяти. $c$ на временном шаге $t-1$ , т.е. вклад $c_{t-1}$ (и не $c_{t}$ , как можно предположить на картинке). Другими словами, ворота $i,o$ и $f$ рассчитать их активации на временном шаге $t$ (т.е., соответственно, $i_{t},o_{t}$ и $f_{t}$ ) также учитывая активацию ячейки памяти $c$ на временном шаге $t-1$ , то есть $c_{t-1}$ .

Единственная стрелка слева направо, выходящая из ячейки памяти, не является соединением глазка и обозначает $c_{t}$ .

Маленькие кружочки, содержащие $\times$ Символ представляет собой поэлементное умножение между его входами. Большие круги, содержащие S -образную кривую, представляют собой применение дифференцируемой функции (например, сигмовидной функции) к взвешенной сумме.

Сверточный глазок LSTM [ править ]

Глазок сверточного LSTM. ^[20] $*$ обозначает оператор свертки .

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\odot c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\odot c_{t-1}+b_{i})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\odot c_{t}+b_{o})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Обучение [ править ]

RNN, использующая блоки LSTM, может быть обучена контролируемым образом на наборе обучающих последовательностей, используя алгоритм оптимизации, такой как градиентный спуск , в сочетании с обратным распространением ошибки во времени, для вычисления градиентов, необходимых в процессе оптимизации, чтобы изменить каждый вес LSTM. сети пропорционально производной ошибки (на выходном уровне сети LSTM) по соответствующему весу.

Проблема с использованием градиентного спуска для стандартных RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с увеличением временного лага между важными событиями. Это связано с $\lim _{n\to \infty }W^{n}=0$ если радиус спектральный $W$ меньше 1. ^[2]^[21]

Однако в модулях LSTM, когда значения ошибок распространяются обратно из выходного слоя, ошибка остается в ячейке модуля LSTM. Эта «карусель ошибок» постоянно передает ошибку обратно каждому из вентилей блока LSTM, пока они не научатся отсекать значение.

Функция оценки CTC [ править ]

Многие приложения используют стеки LSTM RNN. ^[22] и обучать их с помощью коннекционистской временной классификации (CTC) ^[23] найти весовую матрицу RNN, которая максимизирует вероятность последовательностей меток в обучающем наборе, учитывая соответствующие входные последовательности. CTC достигает как согласованности, так и признания.

Альтернативы [ править ]

Иногда может быть полезно обучить (части) LSTM с помощью нейроэволюции. ^[24] или методами политического градиента, особенно когда нет «учителя» (то есть обучающих ярлыков).

Успех [ править ]

Было несколько успешных историй обучения RNN без присмотра с помощью модулей LSTM.

В 2018 году Билл Гейтс назвал «огромной вехой в развитии искусственного интеллекта», когда боты, разработанные OpenAI, смогли победить людей в игре Dota 2 . ^[11] OpenAI Five состоит из пяти независимых, но скоординированных нейронных сетей. Каждая сеть обучается методом градиента политики без надзора учителя и содержит однослойную долговременную память на 1024 единицы, которая видит текущее состояние игры и генерирует действия через несколько возможных головок действий. ^[11]

В 2018 году OpenAI также обучила аналогичный LSTM с помощью политических градиентов для управления человекоподобной роботизированной рукой, которая манипулирует физическими объектами с беспрецедентной ловкостью. ^[10]

В 2019 году компании DeepMind программа AlphaStar использовала глубокое ядро LSTM, чтобы добиться успеха в сложной видеоигре Starcraft II . ^[12] Это было расценено как значительный прогресс на пути к искусственному общему интеллекту. ^[12]

Приложения [ править ]

Приложения LSTM включают:

Управление роботом ^[9]
Прогнозирование временных рядов ^[24]
Распознавание речи ^[25]^[26]^[27]
Обучение ритму ^[19]
Гидрологическое моделирование осадков и стока ^[28]
Музыкальная композиция ^[29]
Изучение грамматики ^[30]^[18]^[31]
Распознавание рукописного ввода ^[32]^[33]
Распознавание действий человека ^[34]
Перевод на язык жестов ^[35]
Обнаружение гомологии белков ^[36]
Прогнозирование субклеточной локализации белков ^[37]
временных рядов Обнаружение аномалий ^[38]
Некоторые задачи прогнозирования в области управления бизнес-процессами ^[39]
Прогнозирование в путях оказания медицинской помощи ^[40]
Семантический анализ ^[41]
Совместная сегментация объектов ^[42]^[43]
Управление пассажирами в аэропорту ^[44]
Краткосрочный прогноз трафика ^[45]
Дизайн лекарств ^[46]
Прогноз рынка ^[47]
Классификация действий в видео ^[48]

График разработки [ править ]

1989: Работа Майка Мозера о «сфокусированном обратном распространении ошибки». ^[49] предвосхищает аспекты LSTM, которые цитируются в документе LSTM. ^[1]

1991: Зепп Хохрайтер проанализировал проблему исчезающего градиента и разработал принципы метода в своей дипломной работе в Германии. ^[2] назвал «одним из самых важных документов в истории машинного обучения» который его руководитель Юрген Шмидхубер . ^[50]

1995: «Долгая кратковременная память (LSTM)» опубликована в техническом отчете Зеппа Хохрайтера и Юргена Шмидхубера . ^[51]

1996: LSTM опубликован на рецензируемой конференции NIPS'1996. ^[14]

1997: Основная статья LSTM опубликована в журнале Neural Computation . ^[1] Внедряя блоки карусели постоянных ошибок (CEC), LSTM решает проблему исчезновения градиента . Первоначальная версия блока LSTM включала ячейки, входные и выходные элементы. ^[52]

1999: Феликс Герс , Юрген Шмидхубер и Фред Камминс представили ворота забывания (также называемые «воротами сохранения») в архитектуру LSTM. ^[53] позволяя LSTM сбросить свое собственное состояние. ^[52]

2000: Герс, Шмидхубер и Камминс добавили в архитектуру соединения глазков (соединения от ячейки к воротам). ^[18]^[19] Кроме того, функция активации выхода была опущена. ^[52]

2001: Герс и Шмидхубер научили LSTM изучать языки, которые невозможно выучить с помощью традиционных моделей, таких как скрытые марковские модели. ^[18]^[54]

Хохрейтер и др. использовал LSTM для метаобучения (т.е. изучения алгоритма обучения). ^[55]

2004: Первое успешное применение LSTM к речи Алекс Грейвс и др. ^[56]^[54]

2005: Первая публикация (Грейвс и Шмидхубер) LSTM с полным обратным распространением ошибки во времени и двунаправленным LSTM. ^[25]^[54]

2005: Даан Виерстра, Фаустино Гомес и Шмидхубер обучали LSTM методом нейроэволюции без учителя. ^[24]

2006: Грейвс, Фернандес, Гомес и Шмидхубер представляют новую функцию ошибок для LSTM: коннекционистскую временную классификацию (CTC) для одновременного выравнивания и распознавания последовательностей. ^[23] LSTM, обученный CTC, привел к прорыву в распознавании речи. ^[26]^[57]^[58]^[59]

Майер и др. обучил LSTM управлять роботами . ^[9]

2007: Виерстра, Ферстер, Петерс и Шмидхубер обучили LSTM с помощью политических градиентов для обучения с подкреплением без учителя. ^[60]

Хохрейтер, Хойзель и Обермайр применили LSTM для обнаружения гомологии белков в области биологии . ^[36]

2009: LSTM, обученный CTC, выиграл соревнование по распознаванию рукописного ввода, подключенное к ICDAR . Три такие модели были представлены командой под руководством Алекса Грейвса . ^[3] Одна была самой точной моделью на соревновании, а другая – самой быстрой. ^[61] Это был первый раз, когда РНН выиграла международные соревнования. ^[54]

2009: Джастин Байер и др. представил поиск нейронной архитектуры для LSTM. ^[62]^[54]

2013: Алекс Грейвс, Абдель-Рахман Мохамед и Джеффри Хинтон использовали сети LSTM в качестве основного компонента сети, которая достигла рекордного уровня ошибок фонем 17,7% в классическом наборе данных естественной речи TIMIT . ^[27]

2014: Кёнхён Чо и др. выдвинул упрощенный вариант шлюза LSTM ^[53] называется закрытой рекуррентной единицей (ГРУ). ^[63]

2015: Google начал использовать LSTM, обученный CTC, для распознавания речи в Google Voice. ^[57]^[58] Согласно официальному сообщению в блоге, новая модель сократила ошибки транскрипции на 49%. ^[64]

2015: Рупеш Кумар Шривастава, Клаус Грефф и Шмидхубер использовали принципы LSTM. ^[53] создать сеть Highway — нейронную сеть прямого распространения с сотнями слоев, гораздо более глубокую, чем предыдущие сети. ^[65]^[66]^[67] 7 месяцев спустя Каймин Хэ, Сянъюй Чжан; с открытыми воротами или без ворот сети шоссе Шаоцин Рен и Цзянь Сунь выиграли конкурс ImageNet 2015, предложив вариант под названием Остаточная нейронная сеть . ^[68] Это самая цитируемая нейронная сеть 21 века. ^[67]

2016: Google начал использовать LSTM для предложения сообщений в приложении Allo Chat. ^[69] В том же году Google выпустила систему нейронного машинного перевода Google для Google Translate, которая использовала LSTM для уменьшения ошибок перевода на 60%. ^[6]^[70]^[71]

Apple объявила на Всемирной конференции разработчиков , что начнет использовать LSTM для быстрого набора текста. ^[72]^[73]^[74] в iPhone и для Siri. ^[75]^[76]

Amazon выпустила Polly , которая генерирует голоса Alexa, используя двунаправленный LSTM для технологии преобразования текста в речь. ^[77]

2017: Facebook ежедневно выполняет около 4,5 миллиардов автоматических переводов, используя сети долговременной краткосрочной памяти. ^[7]

Исследователи из Мичиганского государственного университета , IBM Research и Корнелльского университета опубликовали исследование на конференции Knowledge Discovery and Data Mining (KDD). ^[78]^[79]^[80] Их LSTM с учетом времени (T-LSTM) работает лучше с определенными наборами данных, чем стандартный LSTM.

Microsoft сообщила о достижении точности распознавания 94,9% в корпусе Switchboard , включающем словарь в 165 000 слов. В этом подходе использовалась «долговременная память на основе сеансов диалога». ^[59]

2018: OpenAI использовала LSTM, обученную с помощью политических градиентов, чтобы победить людей в сложной видеоигре Dota 2. ^[11] и управлять человекоподобной рукой робота, которая манипулирует физическими объектами с беспрецедентной ловкостью. ^[10]^[54]

2019: DeepMind использовала LSTM, обученную по градиентам политики, чтобы преуспеть в сложной видеоигре Starcraft II . ^[12]^[54]

2021: По данным Google Scholar , в 2021 году LSTM цитировали более 16 000 раз в течение одного года. Это отражает применение LSTM во многих различных областях, включая здравоохранение. ^[13]

2024: публикует эволюцию LSTM под названием xLSTM Команда под руководством Зеппа Хохрайтера . ^[81]^[82]

См. также [ править ]

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Зепп Хохрайтер ; Юрген Шмидхубер (1997). «Долгая кратковременная память» . Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ПМИД 9377276 . S2CID 1915014 .
^ Jump up to: Перейти обратно: ^а ^б ^с Хохрейтер, Зепп (1991). Исследования по динамическим нейронным сетям (PDF) (дипломная работа). Технический университет Мюнхена, Институт компьютерных наук.
^ Jump up to: Перейти обратно: ^а ^б Грейвс, А.; Ливицкий, М.; Фернандес, С.; Бертолами, Р.; Бунке, Х.; Шмидхубер, Дж. (май 2009 г.). «Новая коннекционистская система для неограниченного распознавания рукописного текста». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . дои : 10.1109/tpami.2008.137 . ISSN 0162-8828 . ПМИД 19299860 . S2CID 14635907 .
^ Сак, Хасим; Старший, Эндрю; Бофе, Франсуаза (2014). «Архитектуры рекуррентных нейронных сетей с долгосрочной кратковременной памятью для крупномасштабного акустического моделирования» (PDF) . Архивировано из оригинала (PDF) 24 апреля 2018 г.
^ Ли, Сянган; У, Сихун (15 октября 2014 г.). «Построение глубоких рекуррентных нейронных сетей на основе долговременной краткосрочной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [ cs.CL ].
^ Jump up to: Перейти обратно: ^а ^б Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Ле, Куок В.; Норузи, Мохаммед; Машери, Вольфганг; Крикун, Максим; Цао, Юань; Гао, Цинь (26 сентября 2016 г.). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [ cs.CL ].
^ Jump up to: Перейти обратно: ^а ^б Онг, Туи (4 августа 2017 г.). «Переводы Facebook теперь полностью выполняются искусственным интеллектом» . www.allthingsdistributed.com . Проверено 15 февраля 2019 г.
^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].
^ Jump up to: Перейти обратно: ^а ^б ^с Майер, Х.; Гомес, Ф.; Виерстра, Д.; Надь, И.; Нолл, А.; Шмидхубер, Дж. (октябрь 2006 г.). «Система для роботизированной кардиохирургии, которая учится завязывать узлы с помощью рекуррентных нейронных сетей». 2006 Международная конференция IEEE/RSJ по интеллектуальным роботам и системам . стр. 543–548. CiteSeerX 10.1.1.218.3399 . дои : 10.1109/IROS.2006.282190 . ISBN 978-1-4244-0258-8 . S2CID 12284900 .
^ Jump up to: Перейти обратно: ^а ^б ^с «Учимся ловкости» . ОпенАИ . 30 июля 2018 г. Проверено 28 июня 2023 г.
^ Jump up to: Перейти обратно: ^а ^б ^с ^д Родригес, Хесус (2 июля 2018 г.). «Наука, лежащая в основе OpenAI Five, которая только что совершила один из величайших прорывов в истории искусственного интеллекта» . На пути к науке о данных . Архивировано из оригинала 26 декабря 2019 г. Проверено 15 января 2019 г.
^ Jump up to: Перейти обратно: ^а ^б ^с ^д Стэнфорд, Стейси (25 января 2019 г.). «ИИ AlphaStar от DeepMind демонстрирует значительный прогресс в области искусственного интеллекта» . Средние мемуары ML . Проверено 15 января 2019 г.
^ Jump up to: Перейти обратно: ^а ^б Шмидхубер, Юрген (2021). «2010-е годы: наше десятилетие глубокого обучения / Перспективы на 2020-е годы» . Блог ИИ . ИДСИА, Швейцария . Проверено 30 апреля 2022 г.
^ Jump up to: Перейти обратно: ^а ^б Хохрейтер, Зепп; Шмидхубер, Юрген (1996). LSTM может решить сложные проблемы с длительной задержкой . Достижения в области нейронных систем обработки информации .
^ Jump up to: Перейти обратно: ^а ^б ^с Феликс А. Герс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: постоянное прогнозирование с помощью LSTM». Нейронные вычисления . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . дои : 10.1162/089976600300015015 . ПМИД 11032042 . S2CID 11598600 .
^ Калин, Овидиу (14 февраля 2020 г.). Архитектуры глубокого обучения . Чам, Швейцария: Springer Nature. п. 555. ИСБН 978-3-030-36720-6 .
^ Лакрец, Яир; Крушевский, немец; Десборд, Тео; Хупкес, Дьюк; Деэн, Станислас; Барони, Марко (2019), «Появление числовых и синтаксических единиц в» , Появление числовых и синтаксических единиц (PDF) , Ассоциация компьютерной лингвистики, стр. 11–20, doi : 10.18653/v1/N19-1002 , hdl : 11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4 , S2CID 81978369
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж Герс, Ф.А.; Шмидхубер, Дж. (2001). «Рекуррентные сети LSTM изучают простые контекстно-свободные и контекстно-зависимые языки» (PDF) . Транзакции IEEE в нейронных сетях . 12 (6): 1333–1340. дои : 10.1109/72.963769 . ПМИД 18249962 . S2CID 10192330 .
^ Jump up to: Перейти обратно: ^а ^б ^с ^д Герс, Ф.; Шраудольф, Н.; Шмидхубер, Дж. (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
^ Синцзянь Ши; Чжоуронг Чен; Хао Ван; Дит-Ян Юнг; Вай-кин Вонг; Ван Чун У (2015). «Сверточная сеть LSTM: подход машинного обучения для прогнозирования текущих осадков». Материалы 28-й Международной конференции по нейронным системам обработки информации : 802–810. arXiv : 1506.04214 . Бибкод : 2015arXiv150604214S .
^ Хохрейтер, С.; Бенджио, Ю.; Фраскони, П.; Шмидхубер, Дж. (2001). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей (доступна загрузка в формате PDF)» . В Кремере и, СК; Колен, Дж. Ф. (ред.). Полевое руководство по динамическим рекуррентным нейронным сетям . IEEE Пресс.
^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Разметка последовательностей в структурированных доменах с помощью иерархических рекуррентных нейронных сетей». Учеб. 20-й Международный Совместная конф. Об искусственном интеллекте, Ijcai 2007 : 774–779. CiteSeerX 10.1.1.79.1887 .
^ Jump up to: Перейти обратно: ^а ^б Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино; Шмидхубер, Юрген (2006). «Временная классификация коннекционистов: маркировка данных несегментированных последовательностей с помощью рекуррентных нейронных сетей». В материалах Международной конференции по машинному обучению, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
^ Jump up to: Перейти обратно: ^а ^б ^с Виерстра, Даан; Шмидхубер, Дж.; Гомес, Ф.Дж. (2005). «Эволино: гибридная нейроэволюция/оптимальный линейный поиск для последовательного обучения» . Материалы 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург : 853–858.
^ Jump up to: Перейти обратно: ^а ^б Грейвс, А.; Шмидхубер, Дж. (2005). «Кадровая классификация фонем с помощью двунаправленного LSTM и других архитектур нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . дои : 10.1016/j.neunet.2005.06.042 . ПМИД 16112549 . S2CID 1856462 .
^ Jump up to: Перейти обратно: ^а ^б Фернандес, С.; Грейвс, А.; Шмидхубер, Дж. (9 сентября 2007 г.). «Применение рекуррентных нейронных сетей для распознавания ключевых слов» . Материалы 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag: 220–229. ISBN 978-3540746935 . Проверено 28 декабря 2023 г.
^ Jump up to: Перейти обратно: ^а ^б Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (2013). «Распознавание речи с помощью глубоких рекуррентных нейронных сетей». Международная конференция IEEE 2013 по акустике, речи и обработке сигналов . стр. 6645–6649. arXiv : 1303.5778 . дои : 10.1109/ICASSP.2013.6638947 . ISBN 978-1-4799-0356-6 . S2CID 206741496 .
^ Кратцерт, Фредерик; Клотц, Дэниел; Шалев, Гай; Кламбауэр, Гюнтер; Хохрейтер, Зепп; Близится, Грей (17 декабря 2019 г.). «На пути к изучению универсального, регионального и местного гидрологического поведения с помощью машинного обучения, применяемого к наборам данных большой выборки» . Гидрология и науки о системе Земли . 23 (12): 5089–5110. arXiv : 1907.08456 . Бибкод : 2019HESS...23.5089K . дои : 10.5194/hess-23-5089-2019 . ISSN 1027-5606 .
^ Эк, Дуглас; Шмидхубер, Юрген (28 августа 2002 г.). «Изучение долгосрочной структуры блюза». Искусственные нейронные сети — ICANN 2002 . Конспекты лекций по информатике. Том. 2415. Шпрингер, Берлин, Гейдельберг. стр. 284–289. CiteSeerX 10.1.1.116.3620 . дои : 10.1007/3-540-46084-5_47 . ISBN 978-3540460848 .
^ Шмидхубер, Дж.; Герс, Ф.; Эк, Д.; Шмидхубер, Дж.; Герс, Ф. (2002). «Изучение нерегулярных языков: сравнение простых рекуррентных сетей и LSTM». Нейронные вычисления . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . дои : 10.1162/089976602320263980 . ПМИД 12184841 . S2CID 30459046 .
^ Перес-Ортис, Дж.А.; Герс, Ф.А.; Эк, Д.; Шмидхубер, Дж. (2003). «Фильтры Калмана улучшают производительность сети LSTM в задачах, неразрешимых традиционными рекуррентными сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . дои : 10.1016/s0893-6080(02)00219-8 . ПМИД 12628609 .
^ А. Грейвс, Дж. Шмидхубер. Распознавание рукописного текста в автономном режиме с помощью многомерных рекуррентных нейронных сетей. Достижения в области нейронных систем обработки информации 22, NIPS'22, стр. 545–552, Ванкувер, MIT Press, 2009.
^ Грейвс, А.; Фернандес, С.; Ливицкий, М.; Бунке, Х.; Шмидхубер, Дж. (3 декабря 2007 г.). «Неограниченное онлайн-распознавание рукописного текста с помощью рекуррентных нейронных сетей» . Материалы 20-й Международной конференции по нейронным системам обработки информации . НИПС'07. США: Curran Associates Inc.: 577–584. ISBN 9781605603520 . Проверено 28 декабря 2023 г.
^ Баккуш, М.; Мамалет, Ф.; Вольф, К.; Гарсия, К.; Баскурт, А. (2011). «Последовательное глубокое обучение для распознавания действий человека». Ин Салах, А.А.; Лепри, Б. (ред.). 2-й Международный семинар по пониманию человеческого поведения (HBU) . Конспекты лекций по информатике. Том. 7065. Амстердам, Нидерланды: Springer. стр. 29–39. дои : 10.1007/978-3-642-25446-8_4 . ISBN 978-3-642-25445-1 .
^ Цилинь; Ли, Хоуцян; Ли, Вэйпин (30 января 2018 г.). «Распознавание языка жестов Хуан, Цзе; Чжан , без сегментации временной » .
^ Jump up to: Перейти обратно: ^а ^б Хохрейтер, С.; Хойзель, М.; Обермайер, К. (2007). «Быстрое обнаружение гомологии белков на основе моделей без выравнивания» . Биоинформатика . 23 (14): 1728–1736. doi : 10.1093/биоинформатика/btm247 . ПМИД 17488755 .
^ Тиреу, Т.; Речко, М. (2007). «Двунаправленные сети долговременной краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. дои : 10.1109/tcbb.2007.1015 . ПМИД 17666763 . S2CID 11787259 .
^ Малхотра, Панкадж; Виг, Лавкеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети долговременной памяти для обнаружения аномалий во временных рядах» (PDF) . Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению — ESANN 2015 . Архивировано из оригинала (PDF) 30 октября 2020 г. Проверено 21 февраля 2018 г.
^ Налог, Н.; Веренич И.; Ла Роза, М.; Дюма, М. (2017). «Прогнозирующий мониторинг бизнес-процессов с помощью нейронных сетей LSTM». Инженерия передовых информационных систем . Конспекты лекций по информатике. Том. 10253. стр. 477–492. arXiv : 1612.02130 . дои : 10.1007/978-3-319-59536-8_30 . ISBN 978-3-319-59535-1 . S2CID 2192354 .
^ Чой, Э.; Бахадори, Монтана; Шуец, Э.; Стюарт, В.; Сан, Дж. (2016). «Доктор ИИ: прогнозирование клинических событий с помощью рекуррентных нейронных сетей» . Материалы семинара и конференции JMLR . 56 : 301–318. arXiv : 1511.05942 . Бибкод : 2015arXiv151105942C . ПМК 5341604 . ПМИД 28286600 .
^ Цзя, Робин; Лян, Перси (2016). «Рекомбинация данных для нейронного семантического анализа». arXiv : 1606.03622 [ cs.CL ].
^ Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. Бибкод : 2018Senso..18.1657W . дои : 10.3390/s18051657 . ISSN 1424-8220 . ПМЦ 5982167 . ПМИД 29789447 .
^ Дуань, Сюйхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда (2018). «Совместная локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией». 2018 25-я Международная конференция IEEE по обработке изображений (ICIP) . 25-я Международная конференция IEEE по обработке изображений (ICIP). стр. 918–922. дои : 10.1109/icip.2018.8451692 . ISBN 978-1-4799-7061-2 .
^ Орсини, Ф.; Гастальди, М.; Мантеккини, Л.; Росси, Р. (2019). Нейронные сети, обученные с помощью трассировок Wi-Fi, прогнозируют поведение пассажиров в аэропорту . 6-я Международная конференция по моделям и технологиям интеллектуальных транспортных систем. Краков: IEEE. arXiv : 1910.14026 . дои : 10.1109/МТИЦ.2019.8883365 . 8883365.
^ Чжао, З.; Чен, В.; Ву, Х.; Чен, PCY; Лю, Дж. (2017). «Сеть LSTM: подход глубокого обучения для краткосрочного прогнозирования трафика». ИЭПП Интеллектуальные Транспортные Системы . 11 (2): 68–75. doi : 10.1049/iet-its.2016.0208 . S2CID 114567527 .
^ Гупта А., Мюллер А.Т., Хьюсман Б.Дж.Х., Фукс Дж.А., Шнайдер П., Шнайдер Г. (2018). «Генераторные рекуррентные сети для разработки лекарств De Novo» . Мол Информ . 37 (1–2). дои : 10.1002/минф.201700111 . ПМК 5836943 . ПМИД 29095571 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Сайфул Ислам, Мэриленд; Хоссейн, Эмам (26 октября 2020 г.). «Прогнозирование курса иностранной валюты с использованием гибридной сети GRU-LSTM» . Мягкие компьютерные буквы . 3 : 100009. doi : 10.1016/j.socl.2020.100009 . ISSN 2666-2221 .
^ {{Цитируйте Эбби Мартин, Эндрю Дж. Хилл, Константин М. Зайлер и Мехала Баламурали (2023) Автоматическое распознавание действий экскаватора и локализация необрезанного видео с использованием гибридных сетей LSTM-трансформатора, Международный журнал горного дела, мелиорации и окружающей среды, DOI: 10.1080 /17480930.2023.2290364}}
^ Мозер, Майк (1989). «Алгоритм сфокусированного обратного распространения ошибки для распознавания временных образов». Сложные системы .
^ Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [ cs.NE ].
^ Зепп Хохрайтер ; Юрген Шмидхубер (21 августа 1995 г.), Долгосрочная память , Викиданные Q98967430
^ Jump up to: Перейти обратно: ^а ^б ^с Клаус Грефф; Рупеш Кумар Шривастава; Ян Кутник; Бас Р. Стойнебринк; Юрген Шмидхубер (2015). «LSTM: Поисковая космическая одиссея». Транзакции IEEE в нейронных сетях и системах обучения . 28 (10): 2222–2232. arXiv : 1503.04069 . Бибкод : 2015arXiv150304069G . дои : 10.1109/TNNLS.2016.2582924 . ПМИД 27411231 . S2CID 3356463 .
^ Jump up to: Перейти обратно: ^а ^б ^с Герс, Феликс; Шмидхубер, Юрген; Камминс, Фред (1999). «Учимся забывать: постоянное предсказание с помощью LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том. 1999. стр. 850–855. дои : 10.1049/cp:19991218 . ISBN 0-85296-721-7 .
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Шмидхубер, Юрген (10 мая 2021 г.). «Глубокое обучение: наш чудесный 1990–1991 год». arXiv : 2005.05744 [ cs.NE ].
^ Хохрейтер, С.; Младший, А.С.; Конвелл, PR (2001). «Учимся учиться с помощью градиентного спуска». Искусственные нейронные сети — ICANN 2001 (PDF) . Конспекты лекций по информатике. Том. 2130. стр. 87–94. CiteSeerX 10.1.1.5.323 . дои : 10.1007/3-540-44668-0_13 . ISBN 978-3-540-42486-4 . ISSN 0302-9743 . S2CID 52872549 .
^ Грейвс, Алекс; Беринджер, Николь; Эк, Дуглас; Шмидхубер, Юрген (2004). Биологически правдоподобное распознавание речи с помощью нейронных сетей LSTM . Семинар по биологическим подходам к передовым информационным технологиям, Bio-ADIT 2004, Лозанна, Швейцария. стр. 175–184.
^ Jump up to: Перейти обратно: ^а ^б Бофе, Франсуаза (11 августа 2015 г.). «Нейронные сети, лежащие в основе транскрипции Google Voice» . Исследовательский блог . Проверено 27 июня 2017 г.
^ Jump up to: Перейти обратно: ^а ^б Сак, Хашим; Старший, Эндрю; Рао, Канишка; Бофе, Франсуаза; Шалквик, Йохан (24 сентября 2015 г.). «Голосовой поиск Google: быстрее и точнее» . Исследовательский блог . Проверено 27 июня 2017 г.
^ Jump up to: Перейти обратно: ^а ^б Хариди, Рич (21 августа 2017 г.). «Система распознавания речи Microsoft теперь не хуже человека» . newatlas.com . Проверено 27 августа 2017 г.
^ Виерстра, Даан; Ферстер, Александр; Петерс, Ян; Шмидхубер, Юрген (2005). «Решение POMDP глубокой памяти с повторяющимися градиентами политики» . Международная конференция по искусственным нейронным сетям ICANN'07 .
^ Маргнер, Фолькер; Абед, Хайкал Эль (июль 2009 г.). «Конкурс ICDAR 2009 по распознаванию арабского почерка». 2009 10-я Международная конференция по анализу и распознаванию документов . стр. 1383–1387. дои : 10.1109/ICDAR.2009.256 . ISBN 978-1-4244-4500-4 . S2CID 52851337 .
^ Байер, Джастин; Виерстра, Даан; Тогелиус, Джулиан; Шмидхубер, Юрген (2009). «Развитие структур ячеек памяти для последовательного обучения». Международная конференция по искусственным нейронным сетям ICANN'09, Кипр .
^ Чо, Кёнхён; ван Мерриенбур, Барт; Гульчере, Чаглар; Богданов Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). «Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [ cs.CL ].
^ «Неоновый рецепт… а точнее, Новая транскрипция для Google Voice» . Официальный блог Google . 23 июля 2015 года . Проверено 25 апреля 2020 г.
^ Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [ cs.LG ].
^ Шривастава, Рупеш К; Грефф, Клаус; Шмидхубер, Юрген (2015). «Обучение очень глубоких сетей» . Достижения в области нейронных систем обработки информации . 28 . Curran Associates, Inc.: 2377–2385.
^ Jump up to: Перейти обратно: ^а ^б Шмидхубер, Юрген (2021). «Все наиболее цитируемые нейронные сети основаны на работе, проделанной в моих лабораториях» . Блог ИИ . ИДСИА, Швейцария . Проверено 30 апреля 2022 г.
^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). Глубокое остаточное обучение для распознавания изображений . Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1 .
^ Хайтан, Пранав (18 мая 2016 г.). «Общайтесь с Allo умнее» . Исследовательский блог . Проверено 27 июня 2017 г.
^ Мец, Кейд (27 сентября 2016 г.). «Внедрение искусственного интеллекта делает Google Translate более мощным, чем когда-либо | WIRED» . Проводной . Проверено 27 июня 2017 г.
^ «Нейронная сеть для машинного перевода в промышленном масштабе» . Блог Google AI . 27 сентября 2016 г. Проверено 25 апреля 2020 г.
^ Эфрати, Амир (13 июня 2016 г.). «Машины Apple тоже могут учиться» . Информация . Проверено 27 июня 2017 г.
^ Рейнджер, Стив (14 июня 2016 г.). «iPhone, искусственный интеллект и большие данные: вот как Apple планирует защитить вашу конфиденциальность | ZDNet» . ЗДНет . Проверено 27 июня 2017 г.
^ «Может ли глобальный семантический контекст улучшить модели нейронного языка? – Apple» . Журнал Apple по машинному обучению . Проверено 30 апреля 2020 г.
^ Смит, Крис (13 июня 2016 г.). «iOS 10: Siri теперь работает в сторонних приложениях и оснащена дополнительными функциями искусственного интеллекта» . БГР . Проверено 27 июня 2017 г.
^ Кейпс, Тим; Коулз, Пол; Конки, Алистер; Голипур, Ладан; Хаджитархани, Аби; Ху, Цюн; Хаддлстон, Нэнси; Хант, Мелвин; Ли, Цзянчуань; Ниракер, Матиас; Прахаллад, Кишор (20 августа 2017 г.). «Система преобразования текста в речь, управляемая с помощью Siri для глубокого обучения на устройстве» . Интерспич 2017 . ISCA: 4011–4015. doi : 10.21437/Interspeech.2017-1798 .
^ Фогельс, Вернер (30 ноября 2016 г.). «Привнесение волшебства Amazon AI и Alexa в приложения на AWS. – Все распределено» . www.allthingsdistributed.com . Проверено 27 июня 2017 г.
^ «Подтипирование пациентов с помощью сетей LSTM с учетом времени» (PDF) . msu.edu . Проверено 21 ноября 2018 г.
^ «Подтипирование пациентов с помощью сетей LSTM с учетом времени» . Кдд.орг . Проверено 24 мая 2018 г.
^ «СИГКДД» . Кдд.орг . Проверено 24 мая 2018 г.
^ Бек, Максимилиан; Пеппель, Корбиниан; Спанринг, Маркус; Ауэр, Андреас; Прудникова, Александра; Копп, Майкл; Кламбауэр, Гюнтер; Брандштеттер, Йоханнес; Хохрайтер, Зепп (07 мая 2024 г.). «xLSTM: расширенная долгосрочная краткосрочная память». arXiv : 2405.04517 [ cs.LG ].
^ NX-AI/xlstm , NXAI, 04 июня 2024 г. , получено 4 июня 2024 г.

^[1]

Дальнейшее чтение [ править ]

Моннер, Дерек Д.; Реджиа, Джеймс А. (2010). «Обобщенный LSTM-подобный алгоритм обучения для рекуррентных нейронных сетей второго порядка» (PDF) . Нейронные сети . 25 (1): 70–83. дои : 10.1016/j.neunet.2011.07.003 . ПМК 3217173 . ПМИД 21803542 . Высокопроизводительное расширение LSTM, упрощенное до одного типа узла и способное обучать произвольные архитектуры.
Герс, Феликс А.; Шраудольф, Никол Н.; Шмидхубер, Юрген (август 2002 г.). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
Герс, Феликс (2001). «Долгая краткосрочная память в рекуррентных нейронных сетях» (PDF) . Кандидатская диссертация .
Абидогун, Олусола Аденийи (2005). Интеллектуальный анализ данных, обнаружение мошенничества и мобильные телекоммуникации: анализ шаблонов вызовов с помощью неконтролируемых нейронных сетей . Магистерская диссертация (Диссертация). Университет Западного Кейпа. hdl : 11394/249 . Архивировано (PDF) из оригинала 22 мая 2012 г.
- оригинал с двумя главами, посвященными объяснению рекуррентных нейронных сетей, особенно LSTM.

Внешние ссылки [ править ]

Рекуррентные нейронные сети с более чем 30 статьями LSTM группы Юргена Шмидхубера в IDSIA
Дельфин, Р. (12 ноября 2021 г.). «Сети LSTM — подробное объяснение» . Статья .
Герта, Кристиан. «Как реализовать LSTM в Python с помощью Theano» . Учебник .

^ Эбби Мартин, Эндрю Дж. Хилл, Константин М. Зайлер и Мехала Баламурали (2023) Автоматическое распознавание действий экскаватора и локализация необрезанного видео с использованием гибридных сетей LSTM-трансформатора, Международный журнал горного дела, мелиорации и окружающей среды, DOI: 10.1080/17480930.2023. 2290364

[lstm1997-1] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Зепп Хохрайтер ; Юрген Шмидхубер (1997). «Долгая кратковременная память» . Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ПМИД 9377276 . S2CID 1915014 .

[hochreiter1991-2] Jump up to: Перейти обратно: ^а ^б ^с Хохрейтер, Зепп (1991). Исследования по динамическим нейронным сетям (PDF) (дипломная работа). Технический университет Мюнхена, Институт компьютерных наук.

[graves2009-3] Jump up to: Перейти обратно: ^а ^б Грейвс, А.; Ливицкий, М.; Фернандес, С.; Бертолами, Р.; Бунке, Х.; Шмидхубер, Дж. (май 2009 г.). «Новая коннекционистская система для неограниченного распознавания рукописного текста». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . дои : 10.1109/tpami.2008.137 . ISSN 0162-8828 . ПМИД 19299860 . S2CID 14635907 .

[sak2014-4] Сак, Хасим; Старший, Эндрю; Бофе, Франсуаза (2014). «Архитектуры рекуррентных нейронных сетей с долгосрочной кратковременной памятью для крупномасштабного акустического моделирования» (PDF) . Архивировано из оригинала (PDF) 24 апреля 2018 г.

[liwu2015-5] Ли, Сянган; У, Сихун (15 октября 2014 г.). «Построение глубоких рекуррентных нейронных сетей на основе долговременной краткосрочной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [ cs.CL ].

[GoogleTranslate-6] Jump up to: Перейти обратно: ^а ^б Ву, Юнхуэй; Шустер, Майк; Чен, Чжифэн; Ле, Куок В.; Норузи, Мохаммед; Машери, Вольфганг; Крикун, Максим; Цао, Юань; Гао, Цинь (26 сентября 2016 г.). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [ cs.CL ].

[FacebookTranslate-7] Jump up to: Перейти обратно: ^а ^б Онг, Туи (4 августа 2017 г.). «Переводы Facebook теперь полностью выполняются искусственным интеллектом» . www.allthingsdistributed.com . Проверено 15 февраля 2019 г.

[8] Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].

[mayer2006-9] Jump up to: Перейти обратно: ^а ^б ^с Майер, Х.; Гомес, Ф.; Виерстра, Д.; Надь, И.; Нолл, А.; Шмидхубер, Дж. (октябрь 2006 г.). «Система для роботизированной кардиохирургии, которая учится завязывать узлы с помощью рекуррентных нейронных сетей». 2006 Международная конференция IEEE/RSJ по интеллектуальным роботам и системам . стр. 543–548. CiteSeerX 10.1.1.218.3399 . дои : 10.1109/IROS.2006.282190 . ISBN 978-1-4244-0258-8 . S2CID 12284900 .

[OpenAIhand-10] Jump up to: Перейти обратно: ^а ^б ^с «Учимся ловкости» . ОпенАИ . 30 июля 2018 г. Проверено 28 июня 2023 г.

[OpenAIfive-11] Jump up to: Перейти обратно: ^а ^б ^с ^д Родригес, Хесус (2 июля 2018 г.). «Наука, лежащая в основе OpenAI Five, которая только что совершила один из величайших прорывов в истории искусственного интеллекта» . На пути к науке о данных . Архивировано из оригинала 26 декабря 2019 г. Проверено 15 января 2019 г.

[alphastar-12] Jump up to: Перейти обратно: ^а ^б ^с ^д Стэнфорд, Стейси (25 января 2019 г.). «ИИ AlphaStar от DeepMind демонстрирует значительный прогресс в области искусственного интеллекта» . Средние мемуары ML . Проверено 15 января 2019 г.

[decade2022-13] Jump up to: Перейти обратно: ^а ^б Шмидхубер, Юрген (2021). «2010-е годы: наше десятилетие глубокого обучения / Перспективы на 2020-е годы» . Блог ИИ . ИДСИА, Швейцария . Проверено 30 апреля 2022 г.

[hochreiter1996-14] Jump up to: Перейти обратно: ^а ^б Хохрейтер, Зепп; Шмидхубер, Юрген (1996). LSTM может решить сложные проблемы с длительной задержкой . Достижения в области нейронных систем обработки информации .

[lstm2000-15] Jump up to: Перейти обратно: ^а ^б ^с Феликс А. Герс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: постоянное прогнозирование с помощью LSTM». Нейронные вычисления . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . дои : 10.1162/089976600300015015 . ПМИД 11032042 . S2CID 11598600 .

[calin2020-16] Калин, Овидиу (14 февраля 2020 г.). Архитектуры глубокого обучения . Чам, Швейцария: Springer Nature. п. 555. ИСБН 978-3-030-36720-6 .

[LakretzKruszewskiDesbordes2019-17] Лакрец, Яир; Крушевский, немец; Десборд, Тео; Хупкес, Дьюк; Деэн, Станислас; Барони, Марко (2019), «Появление числовых и синтаксических единиц в» , Появление числовых и синтаксических единиц (PDF) , Ассоциация компьютерной лингвистики, стр. 11–20, doi : 10.18653/v1/N19-1002 , hdl : 11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4 , S2CID 81978369

[peepholeLSTM-18] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж Герс, Ф.А.; Шмидхубер, Дж. (2001). «Рекуррентные сети LSTM изучают простые контекстно-свободные и контекстно-зависимые языки» (PDF) . Транзакции IEEE в нейронных сетях . 12 (6): 1333–1340. дои : 10.1109/72.963769 . ПМИД 18249962 . S2CID 10192330 .

[peephole2002-19] Jump up to: Перейти обратно: ^а ^б ^с ^д Герс, Ф.; Шраудольф, Н.; Шмидхубер, Дж. (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.

[shi2015-20] Синцзянь Ши; Чжоуронг Чен; Хао Ван; Дит-Ян Юнг; Вай-кин Вонг; Ван Чун У (2015). «Сверточная сеть LSTM: подход машинного обучения для прогнозирования текущих осадков». Материалы 28-й Международной конференции по нейронным системам обработки информации : 802–810. arXiv : 1506.04214 . Бибкод : 2015arXiv150604214S .

[gradf-21] Хохрейтер, С.; Бенджио, Ю.; Фраскони, П.; Шмидхубер, Дж. (2001). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей (доступна загрузка в формате PDF)» . В Кремере и, СК; Колен, Дж. Ф. (ред.). Полевое руководство по динамическим рекуррентным нейронным сетям . IEEE Пресс.

[fernandez2007ijcai-22] Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Разметка последовательностей в структурированных доменах с помощью иерархических рекуррентных нейронных сетей». Учеб. 20-й Международный Совместная конф. Об искусственном интеллекте, Ijcai 2007 : 774–779. CiteSeerX 10.1.1.79.1887 .

[graves2006-23] Jump up to: Перейти обратно: ^а ^б Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино; Шмидхубер, Юрген (2006). «Временная классификация коннекционистов: маркировка данных несегментированных последовательностей с помощью рекуррентных нейронных сетей». В материалах Международной конференции по машинному обучению, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .

[wierstra2005-24] Jump up to: Перейти обратно: ^а ^б ^с Виерстра, Даан; Шмидхубер, Дж.; Гомес, Ф.Дж. (2005). «Эволино: гибридная нейроэволюция/оптимальный линейный поиск для последовательного обучения» . Материалы 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург : 853–858.

[graves2005-25] Jump up to: Перейти обратно: ^а ^б Грейвс, А.; Шмидхубер, Дж. (2005). «Кадровая классификация фонем с помощью двунаправленного LSTM и других архитектур нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . дои : 10.1016/j.neunet.2005.06.042 . ПМИД 16112549 . S2CID 1856462 .

[fernandez2007icann-26] Jump up to: Перейти обратно: ^а ^б Фернандес, С.; Грейвс, А.; Шмидхубер, Дж. (9 сентября 2007 г.). «Применение рекуррентных нейронных сетей для распознавания ключевых слов» . Материалы 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag: 220–229. ISBN 978-3540746935 . Проверено 28 декабря 2023 г.

[graves2013-27] Jump up to: Перейти обратно: ^а ^б Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (2013). «Распознавание речи с помощью глубоких рекуррентных нейронных сетей». Международная конференция IEEE 2013 по акустике, речи и обработке сигналов . стр. 6645–6649. arXiv : 1303.5778 . дои : 10.1109/ICASSP.2013.6638947 . ISBN 978-1-4799-0356-6 . S2CID 206741496 .

[28] Кратцерт, Фредерик; Клотц, Дэниел; Шалев, Гай; Кламбауэр, Гюнтер; Хохрейтер, Зепп; Близится, Грей (17 декабря 2019 г.). «На пути к изучению универсального, регионального и местного гидрологического поведения с помощью машинного обучения, применяемого к наборам данных большой выборки» . Гидрология и науки о системе Земли . 23 (12): 5089–5110. arXiv : 1907.08456 . Бибкод : 2019HESS...23.5089K . дои : 10.5194/hess-23-5089-2019 . ISSN 1027-5606 .

[eck2002-29] Эк, Дуглас; Шмидхубер, Юрген (28 августа 2002 г.). «Изучение долгосрочной структуры блюза». Искусственные нейронные сети — ICANN 2002 . Конспекты лекций по информатике. Том. 2415. Шпрингер, Берлин, Гейдельберг. стр. 284–289. CiteSeerX 10.1.1.116.3620 . дои : 10.1007/3-540-46084-5_47 . ISBN 978-3540460848 .

[gers2002-30] Шмидхубер, Дж.; Герс, Ф.; Эк, Д.; Шмидхубер, Дж.; Герс, Ф. (2002). «Изучение нерегулярных языков: сравнение простых рекуррентных сетей и LSTM». Нейронные вычисления . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . дои : 10.1162/089976602320263980 . ПМИД 12184841 . S2CID 30459046 .

[perez2003-31] Перес-Ортис, Дж.А.; Герс, Ф.А.; Эк, Д.; Шмидхубер, Дж. (2003). «Фильтры Калмана улучшают производительность сети LSTM в задачах, неразрешимых традиционными рекуррентными сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . дои : 10.1016/s0893-6080(02)00219-8 . ПМИД 12628609 .

[graves2009nips-32] А. Грейвс, Дж. Шмидхубер. Распознавание рукописного текста в автономном режиме с помощью многомерных рекуррентных нейронных сетей. Достижения в области нейронных систем обработки информации 22, NIPS'22, стр. 545–552, Ванкувер, MIT Press, 2009.

[33] Грейвс, А.; Фернандес, С.; Ливицкий, М.; Бунке, Х.; Шмидхубер, Дж. (3 декабря 2007 г.). «Неограниченное онлайн-распознавание рукописного текста с помощью рекуррентных нейронных сетей» . Материалы 20-й Международной конференции по нейронным системам обработки информации . НИПС'07. США: Curran Associates Inc.: 577–584. ISBN 9781605603520 . Проверено 28 декабря 2023 г.

[baccouche2011-34] Баккуш, М.; Мамалет, Ф.; Вольф, К.; Гарсия, К.; Баскурт, А. (2011). «Последовательное глубокое обучение для распознавания действий человека». Ин Салах, А.А.; Лепри, Б. (ред.). 2-й Международный семинар по пониманию человеческого поведения (HBU) . Конспекты лекций по информатике. Том. 7065. Амстердам, Нидерланды: Springer. стр. 29–39. дои : 10.1007/978-3-642-25446-8_4 . ISBN 978-3-642-25445-1 .

[huang2018-35] Цилинь; Ли, Хоуцян; Ли, Вэйпин (30 января 2018 г.). «Распознавание языка жестов Хуан, Цзе; Чжан , без сегментации временной » .

[hochreiter2007-36] Jump up to: Перейти обратно: ^а ^б Хохрейтер, С.; Хойзель, М.; Обермайер, К. (2007). «Быстрое обнаружение гомологии белков на основе моделей без выравнивания» . Биоинформатика . 23 (14): 1728–1736. doi : 10.1093/биоинформатика/btm247 . ПМИД 17488755 .

[thireou2007-37] Тиреу, Т.; Речко, М. (2007). «Двунаправленные сети долговременной краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. дои : 10.1109/tcbb.2007.1015 . ПМИД 17666763 . S2CID 11787259 .

[malhotra2015-38] Малхотра, Панкадж; Виг, Лавкеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети долговременной памяти для обнаружения аномалий во временных рядах» (PDF) . Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению — ESANN 2015 . Архивировано из оригинала (PDF) 30 октября 2020 г. Проверено 21 февраля 2018 г.

[tax2017-39] Налог, Н.; Веренич И.; Ла Роза, М.; Дюма, М. (2017). «Прогнозирующий мониторинг бизнес-процессов с помощью нейронных сетей LSTM». Инженерия передовых информационных систем . Конспекты лекций по информатике. Том. 10253. стр. 477–492. arXiv : 1612.02130 . дои : 10.1007/978-3-319-59536-8_30 . ISBN 978-3-319-59535-1 . S2CID 2192354 .

[choi2016-40] Чой, Э.; Бахадори, Монтана; Шуец, Э.; Стюарт, В.; Сан, Дж. (2016). «Доктор ИИ: прогнозирование клинических событий с помощью рекуррентных нейронных сетей» . Материалы семинара и конференции JMLR . 56 : 301–318. arXiv : 1511.05942 . Бибкод : 2015arXiv151105942C . ПМК 5341604 . ПМИД 28286600 .

[jia2016-41] Цзя, Робин; Лян, Перси (2016). «Рекомбинация данных для нейронного семантического анализа». arXiv : 1606.03622 [ cs.CL ].

[Wang_Duan_Zhang_Niu_p=1657-42] Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. Бибкод : 2018Senso..18.1657W . дои : 10.3390/s18051657 . ISSN 1424-8220 . ПМЦ 5982167 . ПМИД 29789447 .

[Duan_Wang_Zhai_Zheng_2018_p.-43] Дуань, Сюйхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда (2018). «Совместная локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией». 2018 25-я Международная конференция IEEE по обработке изображений (ICIP) . 25-я Международная конференция IEEE по обработке изображений (ICIP). стр. 918–922. дои : 10.1109/icip.2018.8451692 . ISBN 978-1-4799-7061-2 .

[orsini2019-44] Орсини, Ф.; Гастальди, М.; Мантеккини, Л.; Росси, Р. (2019). Нейронные сети, обученные с помощью трассировок Wi-Fi, прогнозируют поведение пассажиров в аэропорту . 6-я Международная конференция по моделям и технологиям интеллектуальных транспортных систем. Краков: IEEE. arXiv : 1910.14026 . дои : 10.1109/МТИЦ.2019.8883365 . 8883365.

[liu2017-45] Чжао, З.; Чен, В.; Ву, Х.; Чен, PCY; Лю, Дж. (2017). «Сеть LSTM: подход глубокого обучения для краткосрочного прогнозирования трафика». ИЭПП Интеллектуальные Транспортные Системы . 11 (2): 68–75. doi : 10.1049/iet-its.2016.0208 . S2CID 114567527 .

[pmid29095571-46] Гупта А., Мюллер А.Т., Хьюсман Б.Дж.Х., Фукс Дж.А., Шнайдер П., Шнайдер Г. (2018). «Генераторные рекуррентные сети для разработки лекарств De Novo» . Мол Информ . 37 (1–2). дои : 10.1002/минф.201700111 . ПМК 5836943 . ПМИД 29095571 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[saiful2020-47] Сайфул Ислам, Мэриленд; Хоссейн, Эмам (26 октября 2020 г.). «Прогнозирование курса иностранной валюты с использованием гибридной сети GRU-LSTM» . Мягкие компьютерные буквы . 3 : 100009. doi : 10.1016/j.socl.2020.100009 . ISSN 2666-2221 .

[renamed_from_2023_on_20240120110022-48] {{Цитируйте Эбби Мартин, Эндрю Дж. Хилл, Константин М. Зайлер и Мехала Баламурали (2023) Автоматическое распознавание действий экскаватора и локализация необрезанного видео с использованием гибридных сетей LSTM-трансформатора, Международный журнал горного дела, мелиорации и окружающей среды, DOI: 10.1080 /17480930.2023.2290364}}

[mozer1989-49] Мозер, Майк (1989). «Алгоритм сфокусированного обратного распространения ошибки для распознавания временных образов». Сложные системы .

[DLhistory-50] Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [ cs.NE ].

[51] Зепп Хохрайтер ; Юрген Шмидхубер (21 августа 1995 г.), Долгосрочная память , Викиданные Q98967430

[ASearchSpaceOdyssey-52] Jump up to: Перейти обратно: ^а ^б ^с Клаус Грефф; Рупеш Кумар Шривастава; Ян Кутник; Бас Р. Стойнебринк; Юрген Шмидхубер (2015). «LSTM: Поисковая космическая одиссея». Транзакции IEEE в нейронных сетях и системах обучения . 28 (10): 2222–2232. arXiv : 1503.04069 . Бибкод : 2015arXiv150304069G . дои : 10.1109/TNNLS.2016.2582924 . ПМИД 27411231 . S2CID 3356463 .

[lstm1999-53] Jump up to: Перейти обратно: ^а ^б ^с Герс, Феликс; Шмидхубер, Юрген; Камминс, Фред (1999). «Учимся забывать: постоянное предсказание с помощью LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том. 1999. стр. 850–855. дои : 10.1049/cp:19991218 . ISBN 0-85296-721-7 .

[miraculous2021-54] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г Шмидхубер, Юрген (10 мая 2021 г.). «Глубокое обучение: наш чудесный 1990–1991 год». arXiv : 2005.05744 [ cs.NE ].

[55] Хохрейтер, С.; Младший, А.С.; Конвелл, PR (2001). «Учимся учиться с помощью градиентного спуска». Искусственные нейронные сети — ICANN 2001 (PDF) . Конспекты лекций по информатике. Том. 2130. стр. 87–94. CiteSeerX 10.1.1.5.323 . дои : 10.1007/3-540-44668-0_13 . ISBN 978-3-540-42486-4 . ISSN 0302-9743 . S2CID 52872549 .

[graves2004-56] Грейвс, Алекс; Беринджер, Николь; Эк, Дуглас; Шмидхубер, Юрген (2004). Биологически правдоподобное распознавание речи с помощью нейронных сетей LSTM . Семинар по биологическим подходам к передовым информационным технологиям, Bio-ADIT 2004, Лозанна, Швейцария. стр. 175–184.

[Beau15-57] Jump up to: Перейти обратно: ^а ^б Бофе, Франсуаза (11 августа 2015 г.). «Нейронные сети, лежащие в основе транскрипции Google Voice» . Исследовательский блог . Проверено 27 июня 2017 г.

[GoogleVoiceSearch-58] Jump up to: Перейти обратно: ^а ^б Сак, Хашим; Старший, Эндрю; Рао, Канишка; Бофе, Франсуаза; Шалквик, Йохан (24 сентября 2015 г.). «Голосовой поиск Google: быстрее и точнее» . Исследовательский блог . Проверено 27 июня 2017 г.

[microsoft2017-59] Jump up to: Перейти обратно: ^а ^б Хариди, Рич (21 августа 2017 г.). «Система распознавания речи Microsoft теперь не хуже человека» . newatlas.com . Проверено 27 августа 2017 г.

[wierstra2007-60] Виерстра, Даан; Ферстер, Александр; Петерс, Ян; Шмидхубер, Юрген (2005). «Решение POMDP глубокой памяти с повторяющимися градиентами политики» . Международная конференция по искусственным нейронным сетям ICANN'07 .

[maergner2009-61] Маргнер, Фолькер; Абед, Хайкал Эль (июль 2009 г.). «Конкурс ICDAR 2009 по распознаванию арабского почерка». 2009 10-я Международная конференция по анализу и распознаванию документов . стр. 1383–1387. дои : 10.1109/ICDAR.2009.256 . ISBN 978-1-4244-4500-4 . S2CID 52851337 .

[bayer2009-62] Байер, Джастин; Виерстра, Даан; Тогелиус, Джулиан; Шмидхубер, Юрген (2009). «Развитие структур ячеек памяти для последовательного обучения». Международная конференция по искусственным нейронным сетям ICANN'09, Кипр .

[cho2014-63] Чо, Кёнхён; ван Мерриенбур, Барт; Гульчере, Чаглар; Богданов Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенджио, Йошуа (2014). «Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [ cs.CL ].

[googleblog2015-64] «Неоновый рецепт… а точнее, Новая транскрипция для Google Voice» . Официальный блог Google . 23 июля 2015 года . Проверено 25 апреля 2020 г.

[highway2015-65] Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [ cs.LG ].

[highway2015neurips-66] Шривастава, Рупеш К; Грефф, Клаус; Шмидхубер, Юрген (2015). «Обучение очень глубоких сетей» . Достижения в области нейронных систем обработки информации . 28 . Curran Associates, Inc.: 2377–2385.

[mostcited2021-67] Jump up to: Перейти обратно: ^а ^б Шмидхубер, Юрген (2021). «Все наиболее цитируемые нейронные сети основаны на работе, проделанной в моих лабораториях» . Блог ИИ . ИДСИА, Швейцария . Проверено 30 апреля 2022 г.

[resnet2015-68] Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). Глубокое остаточное обучение для распознавания изображений . Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1 .

[GoogleAllo-69] Хайтан, Пранав (18 мая 2016 г.). «Общайтесь с Allo умнее» . Исследовательский блог . Проверено 27 июня 2017 г.

[WiredGoogleTranslate-70] Мец, Кейд (27 сентября 2016 г.). «Внедрение искусственного интеллекта делает Google Translate более мощным, чем когда-либо | WIRED» . Проводной . Проверено 27 июня 2017 г.

[googleblog2016-71] «Нейронная сеть для машинного перевода в промышленном масштабе» . Блог Google AI . 27 сентября 2016 г. Проверено 25 апреля 2020 г.

[AppleQuicktype-72] Эфрати, Амир (13 июня 2016 г.). «Машины Apple тоже могут учиться» . Информация . Проверено 27 июня 2017 г.

[AppleQuicktype2-73] Рейнджер, Стив (14 июня 2016 г.). «iPhone, искусственный интеллект и большие данные: вот как Apple планирует защитить вашу конфиденциальность | ZDNet» . ЗДНет . Проверено 27 июня 2017 г.

[74] «Может ли глобальный семантический контекст улучшить модели нейронного языка? – Apple» . Журнал Apple по машинному обучению . Проверено 30 апреля 2020 г.

[AppleSiri-75] Смит, Крис (13 июня 2016 г.). «iOS 10: Siri теперь работает в сторонних приложениях и оснащена дополнительными функциями искусственного интеллекта» . БГР . Проверено 27 июня 2017 г.

[capes2017-76] Кейпс, Тим; Коулз, Пол; Конки, Алистер; Голипур, Ладан; Хаджитархани, Аби; Ху, Цюн; Хаддлстон, Нэнси; Хант, Мелвин; Ли, Цзянчуань; Ниракер, Матиас; Прахаллад, Кишор (20 августа 2017 г.). «Система преобразования текста в речь, управляемая с помощью Siri для глубокого обучения на устройстве» . Интерспич 2017 . ISCA: 4011–4015. doi : 10.21437/Interspeech.2017-1798 .

[AmazonAlexa-77] Фогельс, Вернер (30 ноября 2016 г.). «Привнесение волшебства Amazon AI и Alexa в приложения на AWS. – Все распределено» . www.allthingsdistributed.com . Проверено 27 июня 2017 г.

[78] «Подтипирование пациентов с помощью сетей LSTM с учетом времени» (PDF) . msu.edu . Проверено 21 ноября 2018 г.

[79] «Подтипирование пациентов с помощью сетей LSTM с учетом времени» . Кдд.орг . Проверено 24 мая 2018 г.

[80] «СИГКДД» . Кдд.орг . Проверено 24 мая 2018 г.

[81] Бек, Максимилиан; Пеппель, Корбиниан; Спанринг, Маркус; Ауэр, Андреас; Прудникова, Александра; Копп, Майкл; Кламбауэр, Гюнтер; Брандштеттер, Йоханнес; Хохрайтер, Зепп (07 мая 2024 г.). «xLSTM: расширенная долгосрочная краткосрочная память». arXiv : 2405.04517 [ cs.LG ].

[82] NX-AI/xlstm , NXAI, 04 июня 2024 г. , получено 4 июня 2024 г.

[83] Эбби Мартин, Эндрю Дж. Хилл, Константин М. Зайлер и Мехала Баламурали (2023) Автоматическое распознавание действий экскаватора и локализация необрезанного видео с использованием гибридных сетей LSTM-трансформатора, Международный журнал горного дела, мелиорации и окружающей среды, DOI: 10.1080/17480930.2023. 2290364

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[1]