Дифференцируемый нейронный компьютер
В области искусственного интеллекта дифференцируемый нейронный компьютер ( DNC ) представляет собой архитектуру нейронной сети с расширенной памятью (MANN), которая обычно (но не по определению) является рекуррентной в своей реализации. Модель была опубликована в 2016 году Алексом Грейвсом и др. компании ДипМайнд . [1]
Приложения [ править ]
DNC косвенно черпает вдохновение из архитектуры Фон-Неймана , что позволяет ей превосходить традиционные архитектуры в задачах, которые по своей сути являются алгоритмическими и которые невозможно изучить путем нахождения границы решения .
До сих пор было продемонстрировано, что DNC справляются только с относительно простыми задачами, которые можно решить с помощью обычного программирования. Но DNC не нужно программировать для решения каждой проблемы, их можно обучить. Такая концентрация внимания позволяет пользователю последовательно вводить сложные структуры данных , такие как графики , и вызывать их для дальнейшего использования. Более того, они могут изучить аспекты символического мышления и применить их к рабочей памяти. Исследователи, опубликовавшие этот метод, видят перспективу в том, что DNC можно научить выполнять сложные структурированные задачи. [1] [2] и обращаться к приложениям для обработки больших данных, которые требуют определенного рода рассуждений, таких как создание видеокомментариев или семантический анализ текста. [3] [4]
DNC можно обучить ориентироваться в системах скоростного транспорта и применять эту сеть к другой системе. Нейронной сети без памяти обычно приходится изучать каждую транзитную систему с нуля. В задачах обхода графа и обработки последовательностей с контролируемым обучением DNC работали лучше, чем альтернативы, такие как длинная кратковременная память или нейронная машина Тьюринга. [5] Благодаря подходу обучения с подкреплением к задаче-головоломке из блоков, вдохновленному SHRDLU , DNC прошел обучение по учебной программе и научился составлять план . Она работала лучше, чем традиционная рекуррентная нейронная сеть . [5]
Архитектура [ править ]
Сети DNC были представлены как расширение нейронной машины Тьюринга (NTM) с добавлением механизмов внимания к памяти, которые контролируют, где хранится память, и временного внимания, которое записывает порядок событий. Эта структура позволяет DNC быть более надежными и абстрактными, чем NTM, и при этом выполнять задачи, которые имеют более долгосрочные зависимости, чем некоторые предшественники, такие как Long Short Term Memory ( LSTM ). Память, которая представляет собой просто матрицу, может распределяться динамически и иметь к ней неограниченный доступ. DNC является дифференцируемым сквозным (каждый подкомпонент модели дифференцируем, следовательно, дифференцируема и вся модель). Это дает возможность эффективно оптимизировать их с помощью градиентного спуска . [3] [6] [7]
Модель DNC аналогична архитектуре фон Неймана и из-за возможности изменения размера памяти является полной по Тьюрингу . [8]
DNC Традиционный
Этот раздел может сбивать с толку или быть неясным для читателей . В частности, список уравнений (без, например, исчерпывающей привязки к полной схеме ДНК) не является удобоваримым описанием для многих читателей этой статьи. ( Октябрь 2017 г. ) |
DNC, как первоначально опубликовано [1]
Независимые переменные | |
Входной вектор | |
Целевой вектор | |
Контроллер | |
Входная матрица контроллера | |
Глубокий (многоуровневый) LSTM | |
Вектор входных ворот | |
Вектор выходного вентиля | |
Забудьте о векторе ворот | |
Вектор государственных ворот, | |
Вектор скрытых ворот, | |
Выходной вектор DNC | |
Чтение и запись головок | |
Параметры интерфейса | |
Читать головы | |
Чтение ключей | |
Прочтите сильные стороны | |
Свободные ворота | |
Режимы чтения, | |
Написать голову | |
Написать ключ | |
Напишите силу | |
Стереть вектор | |
Записать вектор | |
Ворота распределения | |
Написать ворота | |
Память | |
Матрица памяти, Матрица единиц | |
Вектор использования | |
Взвешивание приоритета, | |
Матрица временных связей, | |
Напишите вес | |
Чтение взвешивания | |
Чтение векторов | |
Адресация на основе контента , Ключ поиска , ключевая сила | |
Индексы , отсортировано в порядке возрастания использования | |
Вес распределения | |
Напишите вес контента | |
Чтение веса контента | |
Форвардное взвешивание | |
Обратное взвешивание | |
Вектор сохранения памяти | |
Определения | |
Матрица весов , вектор смещения | |
Матрица нулей, матрица единиц, матрица единиц | |
Поэлементное умножение | |
Косинусное подобие | |
Сигмовидная функция | |
Функция Oneplus | |
для j = 1,..., К . | Функция Софтмакс |
Расширения [ править ]
Усовершенствования включают разреженную адресацию памяти, что сокращает временную и пространственную сложность в тысячи раз. Этого можно достичь с помощью алгоритма приблизительного ближайшего соседа, такого как хеширование с учетом локальности , или случайного дерева kd, такого как Fast Library for Approximate Nearest Neighbours от UBC . [9] Добавление адаптивного времени вычислений (ACT) отделяет время вычислений от времени обработки данных, что учитывает тот факт, что длина и сложность задачи не всегда одинаковы. [10] Обучение с использованием синтетических градиентов работает значительно лучше, чем обратное распространение ошибки во времени (BPTT). [11] Надежность можно повысить, используя нормализацию слоев и обход исключения в качестве регуляризации. [12]
См. также [ править ]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с Грейвс, Алекс; Уэйн, Грег; Рейнольдс, Малькольм; Харли, Тим; Данигелька, Иво; Грабская-Барвинская, Агнешка; Кольменарехо, Серхио Гомес; Грефенштетт, Эдвард; Рамальо, Тьяго (12 октября 2016 г.). «Гибридные вычисления с использованием нейронной сети с динамической внешней памятью» . Природа . 538 (7626): 471–476. Бибкод : 2016Natur.538..471G . дои : 10.1038/nature20101 . ISSN 1476-4687 . ПМИД 27732574 . S2CID 205251479 .
- ^ «Дифференцируемые нейронные компьютеры | DeepMind» . ДипМайнд . 12 октября 2016 г. Проверено 19 октября 2016 г.
- ↑ Перейти обратно: Перейти обратно: а б Берджесс, Мэтт. «ИИ DeepMind научился ездить в лондонском метро, используя человеческий разум и память» . ПРОВОДНАЯ Великобритания . Проверено 19 октября 2016 г.
- ^ Джагер, Герберт (12 октября 2016 г.). «Искусственный интеллект: глубокое нейронное мышление» . Природа . 538 (7626): 467–468. Бибкод : 2016Natur.538..467J . дои : 10.1038/nature19477 . ISSN 1476-4687 . ПМИД 27732576 .
- ↑ Перейти обратно: Перейти обратно: а б Джеймс, Майк. «Дифференцируемая нейронная сеть DeepMind мыслит глубоко» . www.i-programmer.info . Проверено 20 октября 2016 г.
- ^ «ИИ DeepMind «учится» ориентироваться в лондонском метро» . ПКМАГ . Проверено 19 октября 2016 г.
- ^ Маннес, Джон (13 октября 2016 г.). «Дифференцируемый нейронный компьютер DeepMind помогает вам ориентироваться в метро с помощью своей памяти» . ТехКранч . Проверено 19 октября 2016 г.
- ^ «Симпозиум RNN 2016: Алекс Грейвс — дифференцируемый нейронный компьютер» . Ютуб .
- ^ Джек В. Рэй; Джонатан Дж. Хант; Харли, Тим; Данигелька, Иво; Старший, Эндрю; Уэйн, Грег; Грейвс, Алекс; Тимоти П. Лилликрап (2016). «Масштабирование нейронных сетей с расширенной памятью с редкими операциями чтения и записи». arXiv : 1610.09027 [ cs.LG ].
- ^ Грейвс, Алекс (2016). «Адаптивное время вычислений для рекуррентных нейронных сетей». arXiv : 1603.08983 [ cs.NE ].
- ^ Ядерберг, Макс; Войцех Мариан Чарнецкий; Осиндеро, Саймон; Виньялс, Ориол; Грейвс, Алекс; Сильвер, Дэвид; Кавукчуоглу, Корай (2016). «Раздельные нейронные интерфейсы с использованием синтетических градиентов». arXiv : 1608.05343 [ cs.LG ].
- ^ Франке, Йорг; Ниеуэс, Ян; Вайбель, Алекс (2018). «Надежный и масштабируемый дифференцируемый нейронный компьютер для ответов на вопросы». arXiv : 1807.02658 [ cs.CL ].