Дифференцируемый нейронный компьютер

В области искусственного интеллекта дифференцируемый нейронный компьютер ( DNC ) представляет собой архитектуру нейронной сети с расширенной памятью (MANN), которая обычно (но не по определению) является рекуррентной в своей реализации. Модель была опубликована в 2016 году Алексом Грейвсом и др. компании ДипМайнд . ^[1]

Приложения [ править ]

DNC косвенно черпает вдохновение из архитектуры Фон-Неймана , что позволяет ей превосходить традиционные архитектуры в задачах, которые по своей сути являются алгоритмическими и которые невозможно изучить путем нахождения границы решения .

До сих пор было продемонстрировано, что DNC справляются только с относительно простыми задачами, которые можно решить с помощью обычного программирования. Но DNC не нужно программировать для решения каждой проблемы, их можно обучить. Такая концентрация внимания позволяет пользователю последовательно вводить сложные структуры данных , такие как графики , и вызывать их для дальнейшего использования. Более того, они могут изучить аспекты символического мышления и применить их к рабочей памяти. Исследователи, опубликовавшие этот метод, видят перспективу в том, что DNC можно научить выполнять сложные структурированные задачи. ^[1]^[2] и обращаться к приложениям для обработки больших данных, которые требуют определенного рода рассуждений, таких как создание видеокомментариев или семантический анализ текста. ^[3]^[4]

DNC можно обучить ориентироваться в системах скоростного транспорта и применять эту сеть к другой системе. Нейронной сети без памяти обычно приходится изучать каждую транзитную систему с нуля. В задачах обхода графа и обработки последовательностей с контролируемым обучением DNC работали лучше, чем альтернативы, такие как длинная кратковременная память или нейронная машина Тьюринга. ^[5] Благодаря подходу обучения с подкреплением к задаче-головоломке из блоков, вдохновленному SHRDLU , DNC прошел обучение по учебной программе и научился составлять план . Она работала лучше, чем традиционная рекуррентная нейронная сеть . ^[5]

Архитектура [ править ]

Сети DNC были представлены как расширение нейронной машины Тьюринга (NTM) с добавлением механизмов внимания к памяти, которые контролируют, где хранится память, и временного внимания, которое записывает порядок событий. Эта структура позволяет DNC быть более надежными и абстрактными, чем NTM, и при этом выполнять задачи, которые имеют более долгосрочные зависимости, чем некоторые предшественники, такие как Long Short Term Memory ( LSTM ). Память, которая представляет собой просто матрицу, может распределяться динамически и иметь к ней неограниченный доступ. DNC является дифференцируемым сквозным (каждый подкомпонент модели дифференцируем, следовательно, дифференцируема и вся модель). Это дает возможность эффективно оптимизировать их с помощью градиентного спуска . ^[3]^[6]^[7]

Модель DNC аналогична архитектуре фон Неймана и из-за возможности изменения размера памяти является полной по Тьюрингу . ^[8]

DNC Традиционный

DNC, как первоначально опубликовано ^[1]

Независимые переменные
$\mathbf {x} _{t}$	Входной вектор
$\mathbf {z} _{t}$	Целевой вектор
Контроллер
${\boldsymbol {\chi }}_{t}=[\mathbf {x} _{t};\mathbf {r} _{t-1}^{1};\cdots ;\mathbf {r} _{t-1}^{R}]$	Входная матрица контроллера

Глубокий (многоуровневый) LSTM	$\forall \;0\leq l\leq L$
$\mathbf {i} _{t}^{l}=\sigma (W_{i}^{l}[{\boldsymbol {\chi }}_{t};\mathbf {h} _{t-1}^{l};\mathbf {h} _{t}^{l-1}]+\mathbf {b} _{i}^{l})$	Вектор входных ворот
$\mathbf {o} _{t}^{l}=\sigma (W_{o}^{l}[{\boldsymbol {\chi }}_{t};\mathbf {h} _{t-1}^{l};\mathbf {h} _{t}^{l-1}]+\mathbf {b} _{o}^{l})$	Вектор выходного вентиля
$\mathbf {f} _{t}^{l}=\sigma (W_{f}^{l}[{\boldsymbol {\chi }}_{t};\mathbf {h} _{t-1}^{l};\mathbf {h} _{t}^{l-1}]+\mathbf {b} _{f}^{l})$	Забудьте о векторе ворот
$\mathbf {s} _{t}^{l}=\mathbf {f} _{t}^{l}\mathbf {s} _{t-1}^{l}+\mathbf {i} _{t}^{l}\tanh(W_{s}^{l}[{\boldsymbol {\chi }}_{t};\mathbf {h} _{t-1}^{l};\mathbf {h} _{t}^{l-1}]+\mathbf {b} _{s}^{l})$	Вектор государственных ворот, $s_{0}=0$
$\mathbf {h} _{t}^{l}=\mathbf {o} _{t}^{l}\tanh(\mathbf {s} _{t}^{l})$	Вектор скрытых ворот, $h_{0}=0;h_{t}^{0}=0\;\forall \;t$

$\mathbf {y} _{t}=W_{y}[\mathbf {h} _{t}^{1};\cdots ;\mathbf {h} _{t}^{L}]+W_{r}[\mathbf {r} _{t}^{1};\cdots ;\mathbf {r} _{t}^{R}]$	Выходной вектор DNC
Чтение и запись головок
$\xi _{t}=W_{\xi }[h_{t}^{1};\cdots ;h_{t}^{L}]$	Параметры интерфейса
$=[\mathbf {k} _{t}^{r,1};\cdots ;\mathbf {k} _{t}^{r,R};{\hat {\beta }}_{t}^{r,1};\cdots ;{\hat {\beta }}_{t}^{r,R};\mathbf {k} _{t}^{w};{\hat {\beta _{t}^{w}}};\mathbf {\hat {e}} _{t};\mathbf {v} _{t};{\hat {f_{t}^{1}}};\cdots ;{\hat {f_{t}^{R}}};{\hat {g}}_{t}^{a};{\hat {g}}_{t}^{w};{\hat {\boldsymbol {\pi }}}_{t}^{1};\cdots ;{\hat {\boldsymbol {\pi }}}_{t}^{R}]$

Читать головы	$\forall \;1\leq i\leq R$
$\mathbf {k} _{t}^{r,i}$	Чтение ключей
$\beta _{t}^{r,i}={\text{oneplus}}({\hat {\beta }}_{t}^{r,i})$	Прочтите сильные стороны
$f_{t}^{i}=\sigma ({\hat {f}}_{t}^{i})$	Свободные ворота
${\boldsymbol {\pi }}_{t}^{i}={\text{softmax}}({\hat {\boldsymbol {\pi }}}_{t}^{i})$	Режимы чтения, ${\boldsymbol {\pi }}_{t}^{i}\in \mathbb {R} ^{3}$

Написать голову
$\mathbf {k} _{t}^{w}$	Написать ключ
$\beta _{t}^{w}={\hat {\beta }}_{t}^{w}$	Напишите силу
$\mathbf {e} _{t}=\sigma (\mathbf {\hat {e}} _{t})$	Стереть вектор
$\mathbf {v} _{t}$	Записать вектор
$g_{t}^{a}=\sigma ({\hat {g}}_{t}^{a})$	Ворота распределения
$g_{t}^{w}=\sigma ({\hat {g}}_{t}^{w})$	Написать ворота
Память
$M_{t}=M_{t-1}\circ (E-\mathbf {w} _{t}^{w}\mathbf {e} _{t}^{\intercal })+\mathbf {w} _{t}^{w}\mathbf {v} _{t}^{\intercal }$	Матрица памяти, Матрица единиц $E\in \mathbb {R} ^{N\times W}$
$\mathbf {u} _{t}=(\mathbf {u} _{t-1}+\mathbf {w} _{t-1}^{w}-\mathbf {u} _{t-1}\circ \mathbf {w} _{t-1}^{w})\circ {\boldsymbol {\psi }}_{t}$	Вектор использования
$\mathbf {p} _{t}=\left(1-\sum _{i}\mathbf {w} _{t}^{w}[i]\right)\mathbf {p} _{t-1}+\mathbf {w} _{t}^{w}$	Взвешивание приоритета, $\mathbf {p} _{0}=\mathbf {0}$
$L_{t}=(\mathbf {1} -\mathbf {I} )\left[(1-\mathbf {w} _{t}^{w}[i]-\mathbf {w} _{t}^{j})L_{t-1}[i,j]+\mathbf {w} _{t}^{w}[i]\mathbf {p} _{t-1}^{j}\right]$	Матрица временных связей, $L_{0}=\mathbf {0}$
$\mathbf {w} _{t}^{w}=g_{t}^{w}[g_{t}^{a}\mathbf {a} _{t}+(1-g_{t}^{a})\mathbf {c} _{t}^{w}]$	Напишите вес
$\mathbf {w} _{t}^{r,i}={\boldsymbol {\pi }}_{t}^{i}[1]\mathbf {b} _{t}^{i}+{\boldsymbol {\pi }}_{t}^{i}[2]c_{t}^{r,i}+{\boldsymbol {\pi }}_{t}^{i}[3]f_{t}^{i}$	Чтение взвешивания
$\mathbf {r} _{t}^{i}=M_{t}^{\intercal }\mathbf {w} _{t}^{r,i}$	Чтение векторов

${\mathcal {C}}(M,\mathbf {k} ,\beta )[i]={\frac {\exp\{{\mathcal {D}}(\mathbf {k} ,M[i,\cdot ])\beta \}}{\sum _{j}\exp\{{\mathcal {D}}(\mathbf {k} ,M[j,\cdot ])\beta \}}}$	Адресация на основе контента , Ключ поиска $\mathbf {k}$ , ключевая сила $\beta$
$\phi _{t}$	Индексы $\mathbf {u} _{t}$ , отсортировано в порядке возрастания использования
$\mathbf {a} _{t}[\phi _{t}[j]]=(1-\mathbf {u} _{t}[\phi _{t}[j]])\prod _{i=1}^{j-1}\mathbf {u} _{t}[\phi _{t}[i]]$	Вес распределения
$\mathbf {c} _{t}^{w}={\mathcal {C}}(M_{t-1},\mathbf {k} _{t}^{w},\beta _{t}^{w})$	Напишите вес контента
$\mathbf {c} _{t}^{r,i}={\mathcal {C}}(M_{t-1},\mathbf {k} _{t}^{r,i},\beta _{t}^{r,i})$	Чтение веса контента
$\mathbf {f} _{t}^{i}=L_{t}\mathbf {w} _{t-1}^{r,i}$	Форвардное взвешивание
$\mathbf {b} _{t}^{i}=L_{t}^{\intercal }\mathbf {w} _{t-1}^{r,i}$	Обратное взвешивание
${\boldsymbol {\psi }}_{t}=\prod _{i=1}^{R}\left(\mathbf {1} -f_{t}^{i}\mathbf {w} _{t-1}^{r,i}\right)$	Вектор сохранения памяти
Определения
$\mathbf {W} ,\mathbf {b}$	Матрица весов , вектор смещения
$\mathbf {0} ,\mathbf {1} ,\mathbf {I}$	Матрица нулей, матрица единиц, матрица единиц
$\circ$	Поэлементное умножение
${\mathcal {D}}(\mathbf {u} ,\mathbf {v} )={\frac {\mathbf {u} \cdot \mathbf {v} }{\\|\mathbf {u} \\|\\|\mathbf {v} \\|}}$	Косинусное подобие
$\sigma (x)=1/(1+e^{-x})$	Сигмовидная функция
${\text{oneplus}}(x)=1+\log(1+e^{x})$	Функция Oneplus
${\text{softmax}}(\mathbf {x} )_{j}={\frac {e^{x_{j}}}{\sum _{k=1}^{K}e^{x_{k}}}}$ для j = 1,..., К .	Функция Софтмакс

Расширения [ править ]

Усовершенствования включают разреженную адресацию памяти, что сокращает временную и пространственную сложность в тысячи раз. Этого можно достичь с помощью алгоритма приблизительного ближайшего соседа, такого как хеширование с учетом локальности , или случайного дерева kd, такого как Fast Library for Approximate Nearest Neighbours от UBC . ^[9] Добавление адаптивного времени вычислений (ACT) отделяет время вычислений от времени обработки данных, что учитывает тот факт, что длина и сложность задачи не всегда одинаковы. ^[10] Обучение с использованием синтетических градиентов работает значительно лучше, чем обратное распространение ошибки во времени (BPTT). ^[11] Надежность можно повысить, используя нормализацию слоев и обход исключения в качестве регуляризации. ^[12]

См. также [ править ]

Дифференцируемое программирование

Ссылки [ править ]

↑ Перейти обратно: Перейти обратно: ^а ^б ^с Грейвс, Алекс; Уэйн, Грег; Рейнольдс, Малькольм; Харли, Тим; Данигелька, Иво; Грабская-Барвинская, Агнешка; Кольменарехо, Серхио Гомес; Грефенштетт, Эдвард; Рамальо, Тьяго (12 октября 2016 г.). «Гибридные вычисления с использованием нейронной сети с динамической внешней памятью» . Природа . 538 (7626): 471–476. Бибкод : 2016Natur.538..471G . дои : 10.1038/nature20101 . ISSN 1476-4687 . ПМИД 27732574 . S2CID 205251479 .
^ «Дифференцируемые нейронные компьютеры | DeepMind» . ДипМайнд . 12 октября 2016 г. Проверено 19 октября 2016 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Берджесс, Мэтт. «ИИ DeepMind научился ездить в лондонском метро, используя человеческий разум и память» . ПРОВОДНАЯ Великобритания . Проверено 19 октября 2016 г.
^ Джагер, Герберт (12 октября 2016 г.). «Искусственный интеллект: глубокое нейронное мышление» . Природа . 538 (7626): 467–468. Бибкод : 2016Natur.538..467J . дои : 10.1038/nature19477 . ISSN 1476-4687 . ПМИД 27732576 .
↑ Перейти обратно: Перейти обратно: ^а ^б Джеймс, Майк. «Дифференцируемая нейронная сеть DeepMind мыслит глубоко» . www.i-programmer.info . Проверено 20 октября 2016 г.
^ «ИИ DeepMind «учится» ориентироваться в лондонском метро» . ПКМАГ . Проверено 19 октября 2016 г.
^ Маннес, Джон (13 октября 2016 г.). «Дифференцируемый нейронный компьютер DeepMind помогает вам ориентироваться в метро с помощью своей памяти» . ТехКранч . Проверено 19 октября 2016 г.
^ «Симпозиум RNN 2016: Алекс Грейвс — дифференцируемый нейронный компьютер» . Ютуб .
^ Джек В. Рэй; Джонатан Дж. Хант; Харли, Тим; Данигелька, Иво; Старший, Эндрю; Уэйн, Грег; Грейвс, Алекс; Тимоти П. Лилликрап (2016). «Масштабирование нейронных сетей с расширенной памятью с редкими операциями чтения и записи». arXiv : 1610.09027 [ cs.LG ].
^ Грейвс, Алекс (2016). «Адаптивное время вычислений для рекуррентных нейронных сетей». arXiv : 1603.08983 [ cs.NE ].
^ Ядерберг, Макс; Войцех Мариан Чарнецкий; Осиндеро, Саймон; Виньялс, Ориол; Грейвс, Алекс; Сильвер, Дэвид; Кавукчуоглу, Корай (2016). «Раздельные нейронные интерфейсы с использованием синтетических градиентов». arXiv : 1608.05343 [ cs.LG ].
^ Франке, Йорг; Ниеуэс, Ян; Вайбель, Алекс (2018). «Надежный и масштабируемый дифференцируемый нейронный компьютер для ответов на вопросы». arXiv : 1807.02658 [ cs.CL ].

Внешние ссылки [ править ]

[DNCnature2016-1] Перейти обратно: Перейти обратно: ^а ^б ^с Грейвс, Алекс; Уэйн, Грег; Рейнольдс, Малькольм; Харли, Тим; Данигелька, Иво; Грабская-Барвинская, Агнешка; Кольменарехо, Серхио Гомес; Грефенштетт, Эдвард; Рамальо, Тьяго (12 октября 2016 г.). «Гибридные вычисления с использованием нейронной сети с динамической внешней памятью» . Природа . 538 (7626): 471–476. Бибкод : 2016Natur.538..471G . дои : 10.1038/nature20101 . ISSN 1476-4687 . ПМИД 27732574 . S2CID 205251479 .

[2] «Дифференцируемые нейронные компьютеры | DeepMind» . ДипМайнд . 12 октября 2016 г. Проверено 19 октября 2016 г.

[:0-3] Перейти обратно: Перейти обратно: ^а ^б Берджесс, Мэтт. «ИИ DeepMind научился ездить в лондонском метро, используя человеческий разум и память» . ПРОВОДНАЯ Великобритания . Проверено 19 октября 2016 г.

[4] Джагер, Герберт (12 октября 2016 г.). «Искусственный интеллект: глубокое нейронное мышление» . Природа . 538 (7626): 467–468. Бибкод : 2016Natur.538..467J . дои : 10.1038/nature19477 . ISSN 1476-4687 . ПМИД 27732576 .

[:1-5] Перейти обратно: Перейти обратно: ^а ^б Джеймс, Майк. «Дифференцируемая нейронная сеть DeepMind мыслит глубоко» . www.i-programmer.info . Проверено 20 октября 2016 г.

[6] «ИИ DeepMind «учится» ориентироваться в лондонском метро» . ПКМАГ . Проверено 19 октября 2016 г.

[7] Маннес, Джон (13 октября 2016 г.). «Дифференцируемый нейронный компьютер DeepMind помогает вам ориентироваться в метро с помощью своей памяти» . ТехКранч . Проверено 19 октября 2016 г.

[8] «Симпозиум RNN 2016: Алекс Грейвс — дифференцируемый нейронный компьютер» . Ютуб .

[9] Джек В. Рэй; Джонатан Дж. Хант; Харли, Тим; Данигелька, Иво; Старший, Эндрю; Уэйн, Грег; Грейвс, Алекс; Тимоти П. Лилликрап (2016). «Масштабирование нейронных сетей с расширенной памятью с редкими операциями чтения и записи». arXiv : 1610.09027 [ cs.LG ].

[10] Грейвс, Алекс (2016). «Адаптивное время вычислений для рекуррентных нейронных сетей». arXiv : 1603.08983 [ cs.NE ].

[11] Ядерберг, Макс; Войцех Мариан Чарнецкий; Осиндеро, Саймон; Виньялс, Ориол; Грейвс, Алекс; Сильвер, Дэвид; Кавукчуоглу, Корай (2016). «Раздельные нейронные интерфейсы с использованием синтетических градиентов». arXiv : 1608.05343 [ cs.LG ].

[12] Франке, Йорг; Ниеуэс, Ян; Вайбель, Алекс (2018). «Надежный и масштабируемый дифференцируемый нейронный компьютер для ответов на вопросы». arXiv : 1807.02658 [ cs.CL ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]