Виды искусственных нейронных сетей
Существует множество типов искусственных нейронных сетей ( ИНС ).
Искусственные нейронные сети — это вычислительные модели, созданные на основе биологических нейронных сетей , которые используются для аппроксимации функций , которые обычно неизвестны. В частности, их вдохновением является поведение нейронов и электрические сигналы, которые они передают между входом (например, от глаз или нервных окончаний руки), обработкой и выходом из мозга (например, реакцией на свет, прикосновение или тепло). ). То, как нейроны семантически общаются, является областью продолжающихся исследований. [1] [2] [3] [4] Большинство искусственных нейронных сетей лишь в некоторой степени похожи на свои более сложные биологические аналоги, но очень эффективны при выполнении поставленных задач (например, классификации или сегментации).
Некоторые искусственные нейронные сети являются адаптивными системами и используются, например, для моделирования популяций и окружающей среды, которые постоянно меняются.
Нейронные сети могут быть аппаратными (нейроны представлены физическими компонентами) или программными (компьютерные модели) и могут использовать различные топологии и алгоритмы обучения.
Упреждающая связь
[ редактировать ]Нейронная сеть прямого распространения была первым и самым простым типом. В этой сети информация перемещается только из входного слоя напрямую через любые скрытые слои в выходной слой без циклов/циклов. Сети прямой связи могут быть построены с использованием различных типов единиц, таких как бинарные нейроны Мак-Каллоха-Питтса , самым простым из которых является перцептрон . Непрерывные нейроны, часто с сигмоидальной активацией , используются в контексте обратного распространения ошибки .
Групповой метод обработки данных
[ редактировать ]Групповой метод обработки данных (GMDH) [5] обеспечивает полностью автоматическую структурную и параметрическую оптимизацию модели. Функции активации узла представляют собой полиномы Колмогорова – Габора, допускающие сложение и умножение. Он использует глубокий многослойный перцептрон с восемью слоями. [6] Это контролируемая обучающая сеть, которая растет слой за слоем, где каждый уровень обучается с помощью регрессионного анализа . Бесполезные элементы обнаруживаются с помощью набора проверки и отсекаются посредством регуляризации . Размер и глубина получаемой сети зависит от поставленной задачи. [7]
Автоэнкодер
[ редактировать ]Автоэнкодер, автоассоциатор или сеть Diabolo. [8] : 19 подобен многослойному перцептрону (MLP) – с входным слоем, выходным слоем и одним или несколькими соединяющими их скрытыми слоями. Однако выходной слой имеет то же количество единиц, что и входной слой. Его цель — восстановить собственные входные данные (вместо выдачи целевого значения). Таким образом, автокодировщики представляют собой модели обучения без учителя . Автоэнкодер используется для неконтролируемого обучения кодировкам эффективным . [9] [10] обычно с целью уменьшения размерности и для изучения генеративных моделей данных. [11] [12]
Вероятностный
[ редактировать ]Вероятностная нейронная сеть (PNN) — это четырехслойная нейронная сеть прямого распространения. Слоями являются входной, скрытый шаблон/суммирование и выходной. В алгоритме PNN родительская функция распределения вероятностей (PDF) каждого класса аппроксимируется окном Парцена и непараметрической функцией. Затем, используя PDF каждого класса, оценивается классовая вероятность нового входного сигнала и используется правило Байеса для отнесения его к классу с наибольшей апостериорной вероятностью. [13] Он был получен из байесовской сети. [14] и статистический алгоритм, называемый дискриминантным анализом Кернела Фишера . [15] Он используется для классификации и распознавания образов.
Задержка времени
[ редактировать ]Нейронная сеть с задержкой по времени (TDNN) — это архитектура прямой связи для последовательных данных, которая распознает функции, независимые от положения последовательности. Чтобы добиться неизменности временного сдвига, ко входным данным добавляются задержки, чтобы несколько точек данных (моментов времени) анализировались вместе.
Обычно он является частью более крупной системы распознавания образов. Он был реализован с использованием сети перцептрона , веса соединений которой были обучены с помощью обратного распространения ошибки (обучение с учителем). [16]
сверточный
[ редактировать ]Сверточная нейронная сеть (CNN, или ConvNet, или инвариант сдвига, или пространственный инвариант) — это класс глубокой сети, состоящий из одного или нескольких сверточных слоев с полностью связанными слоями (соответствующими слоям в типичных ИНС) сверху. [17] [18] Он использует связанные веса и слои пула. В частности, макс-пулинг. [19] Его часто структурируют с помощью сверточной архитектуры Фукусимы. [20] Они представляют собой разновидности многослойных перцептронов , использующих минимальную предварительную обработку . [21] Эта архитектура позволяет CNN использовать преимущества двумерной структуры входных данных.
Схема соединения его единиц вдохновлена организацией зрительной коры головного мозга . Единицы реагируют на стимулы в ограниченной области пространства, известной как рецептивное поле . Рецептивные поля частично перекрываются, перекрывая все поле зрения . Отклик устройства можно аппроксимировать математически с помощью операции свертки . [22]
CNN подходят для обработки визуальных и других двумерных данных. [23] [24] Они показали превосходные результаты как в графических, так и в речевых приложениях. Их можно обучить с помощью стандартного обратного распространения ошибки. CNN легче обучать, чем другие обычные, глубокие нейронные сети с прямой связью, и у них гораздо меньше параметров для оценки. [25]
Капсульные нейронные сети (CapsNet) добавляют в CNN структуры, называемые капсулами, и повторно используют выходные данные нескольких капсул для формирования более стабильных (по отношению к различным возмущениям) представлений. [26]
Примеры приложений в области компьютерного зрения включают DeepDream. [27] и роботизированная навигация . [28] Они имеют широкое применение в распознавании изображений и видео , рекомендательных системах. [29] и обработка естественного языка . [30]
Глубокая стековая сеть
[ редактировать ]Сеть с глубоким стеком (DSN) [31] (глубокая выпуклая сеть) основана на иерархии блоков упрощенных модулей нейронной сети. Он был представлен в 2011 году Дэном и Ю. [32] Он формулирует обучение как задачу выпуклой оптимизации с решением в замкнутой форме , подчеркивая сходство механизма с многоуровневым обобщением . [33] Каждый блок DSN представляет собой простой модуль, который легко обучать самостоятельно контролируемым образом без обратного распространения ошибки для всех блоков. [8]
Каждый блок состоит из упрощенного многослойного перцептрона (MLP) с одним скрытым слоем. Скрытый слой h имеет логистические сигмоидальные единицы , а выходной слой — линейные единицы. Связи между этими слоями представлены весовой матрицей U; Соединения ввода со скрытым слоем имеют весовую матрицу W . Целевые векторы t образуют столбцы матрицы T , а векторы входных данных x образуют столбцы матрицы X. Матрица скрытых единиц равна . Модули обучаются по порядку, поэтому веса W нижних уровней известны на каждом этапе. Функция выполняет поэлементную логистическую сигмовидную операцию. Каждый блок оценивает один и тот же окончательный класс меток y , и его оценка объединяется с исходными входными данными X, чтобы сформировать расширенные входные данные для следующего блока. Таким образом, входные данные первого блока содержат только исходные данные, тогда как входные данные последующих блоков добавляют выходные данные предыдущих блоков. Тогда обучение весовой матрицы верхнего уровня U с учетом других весов в сети можно сформулировать как задачу выпуклой оптимизации:
которая имеет решение в замкнутом виде. [31]
В отличие от других глубоких архитектур, таких как DBN , цель состоит не в том, чтобы обнаружить преобразованное представление функций . Структура иерархии такого типа архитектуры делает параллельное обучение простым, как задачу оптимизации пакетного режима. В чисто дискриминационных задачах DSN превосходят обычные DBN.
Тензорные сети с глубоким стеком
[ редактировать ]Эта архитектура является расширением DSN. Он предлагает два важных улучшения: он использует информацию более высокого порядка из ковариационной статистики и преобразует невыпуклую задачу нижнего уровня в выпуклую подзадачу верхнего уровня. [34] TDSN используют ковариационную статистику при билинейном сопоставлении каждого из двух различных наборов скрытых единиц в одном слое с предсказаниями с помощью тензора третьего порядка .
Хотя распараллеливание и масштабируемость не рассматриваются всерьез в традиционных ДНН , [35] [36] [37] все обучение для DSN и TDSN выполняется в пакетном режиме, чтобы обеспечить распараллеливание. [32] [31] Распараллеливание позволяет масштабировать проект для более крупных (более глубоких) архитектур и наборов данных.
Базовая архитектура подходит для решения разнообразных задач, таких как классификация и регрессия .
Нормативная обратная связь
[ редактировать ]Сети регуляторной обратной связи возникли как модель для объяснения феноменов мозга, обнаруживаемых во время распознавания, включая взрывы в масштабах всей сети и трудности со сходством, повсеместно встречающиеся при сенсорном распознавании. Механизм оптимизации во время распознавания создается с использованием тормозящих обратных связей с теми же входами, которые их активируют. Это снижает требования во время обучения и упрощает обучение и обновление, сохраняя при этом возможность выполнять сложное распознавание.
Сеть регуляторной обратной связи делает выводы, используя отрицательную обратную связь . [38] Обратная связь используется для поиска оптимальной активации агрегатов. Он больше всего похож на непараметрический метод , но отличается от K-ближайшего соседа тем, что математически эмулирует сети прямой связи.
Радиальная базисная функция (RBF)
[ редактировать ]Радиальные базисные функции — это функции, которые имеют критерий расстояния относительно центра. Радиальные базисные функции были применены вместо сигмоидальной передаточной характеристики скрытого слоя в многослойных персептронах. Сети RBF имеют два уровня: на первом входные данные отображаются на каждый RBF в «скрытом» слое. Выбранный RBF обычно является гауссовым. В задачах регрессии выходной слой представляет собой линейную комбинацию значений скрытого слоя, представляющих средний прогнозируемый результат. Интерпретация значения этого выходного слоя аналогична модели регрессии в статистике. В задачах классификации выходной слой обычно представляет собой сигмовидную функцию линейной комбинации значений скрытого слоя, представляющую апостериорную вероятность. Производительность в обоих случаях часто улучшается с помощью методов усадки , известных в классической статистике как гребневая регрессия . Это соответствует априорному убеждению в малых значениях параметров (и, следовательно, в гладких выходных функциях) в байесовской системе.
Преимущество сетей RBF заключается в том, что они позволяют избежать локальных минимумов так же, как и многослойные перцептроны. Это связано с тем, что единственные параметры, которые настраиваются в процессе обучения, — это линейное сопоставление скрытого слоя с выходным слоем. Линейность гарантирует, что поверхность ошибок является квадратичной и, следовательно, имеет один легко находимый минимум. В задачах регрессии это можно найти за одну матричную операцию. В задачах классификации фиксированная нелинейность, вносимая сигмовидной выходной функцией, наиболее эффективно решается с использованием итеративно перевзвешенного метода наименьших квадратов .
Сети RBF имеют тот недостаток, что требуют хорошего покрытия входного пространства радиальными базисными функциями. Центры RBF определяются с учетом распределения входных данных, но без привязки к задаче прогнозирования. В результате репрезентативные ресурсы могут быть потрачены впустую в областях входного пространства, которые не имеют отношения к задаче. Обычное решение состоит в том, чтобы связать каждую точку данных с ее собственным центром, хотя это может расширить линейную систему, которую необходимо решить на последнем слое, и требует методов сжатия, чтобы избежать переобучения .
Связывание каждого входного элемента данных с RBF естественным образом приводит к методам ядра, таким как машины опорных векторов (SVM) и гауссовские процессы (RBF — это функция ядра ). Все три подхода используют нелинейную функцию ядра для проецирования входных данных в пространство, где задача обучения может быть решена с использованием линейной модели. Подобно гауссовским процессам и в отличие от SVM, сети RBF обычно обучаются в рамках модели максимального правдоподобия путем максимизации вероятности (минимизации ошибки). SVM избегают переоснащения, вместо этого максимизируя запас . SVM превосходят сети RBF в большинстве приложений классификации. В приложениях регрессии они могут быть конкурентоспособными, когда размерность входного пространства относительно мала.
Как работают сети RBF
[ редактировать ]Нейронные сети RBF концептуально похожи на модели K-Nearest Neighbor (k-NN). Основная идея заключается в том, что одинаковые входные данные производят аналогичные выходные данные.
Предположим, что каждый случай в обучающем наборе имеет две переменные-предикторы, x и y, а целевая переменная имеет две категории: положительную и отрицательную. Учитывая новый случай со значениями предикторов x=6, y=5,1, как вычисляется целевая переменная?
Классификация ближайших соседей, выполняемая для этого примера, зависит от количества рассматриваемых соседних точек. Если используется 1-NN и ближайшая точка отрицательная, то новую точку следует классифицировать как отрицательную. Альтернативно, если используется классификация 9-NN и учитываются ближайшие 9 точек, то эффект окружающих 8 положительных точек может перевесить ближайшую 9-ю (отрицательную) точку.
Сеть RBF размещает нейроны в пространстве, описываемом переменными-предикторами (в этом примере x, y). Это пространство имеет столько же измерений, сколько переменных-предикторов. Евклидово расстояние вычисляется от новой точки до центра каждого нейрона, а к расстоянию применяется радиальная базисная функция (RBF, также называемая функцией ядра) для вычисления веса (влияния) для каждого нейрона. Радиальная базисная функция названа так потому, что аргументом функции является расстояние по радиусу.
- Вес = RBF( расстояние )
Радиальная базисная функция
[ редактировать ]Значение новой точки находится путем суммирования выходных значений функций RBF, умноженных на веса, вычисленные для каждого нейрона.
Радиальная базисная функция нейрона имеет центр и радиус (также называемый спредом). Радиус может быть разным для каждого нейрона, а в RBF-сетях, генерируемых DTREG, радиус может быть разным в каждом измерении.
При большем разбросе большее влияние оказывают нейроны, находящиеся на расстоянии от точки.
Архитектура
[ редактировать ]Сети RBF имеют три уровня:
- Входной слой: во входном слое для каждой предикторной переменной появляется один нейрон. В случае категориальных переменных используется N-1 нейронов, где N — количество категорий. Входные нейроны стандартизируют диапазоны значений путем вычитания медианы и деления на межквартильный диапазон. Затем входные нейроны передают значения каждому нейрону скрытого слоя.
- Скрытый слой: этот слой имеет переменное количество нейронов (определяется процессом обучения). Каждый нейрон состоит из радиальной базисной функции с центром в точке и имеет столько же измерений, сколько переменных-предикторов. Разброс (радиус) функции RBF может быть разным для каждого измерения. Центры и спреды определяются путем обучения. При представлении вектора x входных значений из входного слоя скрытый нейрон вычисляет евклидово расстояние тестового примера от центральной точки нейрона, а затем применяет функцию ядра RBF к этому расстоянию, используя значения разброса. Полученное значение передается на слой суммирования.
- Слой суммирования: значение, выходящее из нейрона в скрытом слое, умножается на вес, связанный с этим нейроном, и добавляется к взвешенным значениям других нейронов. Эта сумма становится выходом. Для задач классификации создается один результат (с отдельным набором весов и единицей суммирования) для каждой целевой категории. Выходное значение для категории — это вероятность того, что оцениваемый случай имеет эту категорию.
Обучение
[ редактировать ]Тренировочным процессом определяются следующие параметры:
- Количество нейронов в скрытом слое
- Координаты центра каждой функции RBF скрытого слоя.
- Радиус (разброс) каждой функции RBF в каждом измерении.
- Веса, применяемые к выходным данным функции RBF при их передаче на уровень суммирования.
Для обучения сетей RBF использовались различные методы. Один из подходов сначала использует кластеризацию K-средних для поиска центров кластеров, которые затем используются в качестве центров для функций RBF. Однако кластеризация K-средних требует больших вычислительных ресурсов и часто не создает оптимальное количество центров. Другой подход заключается в использовании случайного подмножества тренировочных точек в качестве центров.
DTREG использует алгоритм обучения, использующий эволюционный подход для определения оптимальных центральных точек и разбросов для каждого нейрона. Он определяет, когда прекратить добавление нейронов в сеть, отслеживая расчетную ошибку исключения одного (LOO) и завершая работу, когда ошибка LOO начинает увеличиваться из-за переобучения.
Вычисление оптимальных весов между нейронами в скрытом слое и слое суммирования выполняется с использованием гребневой регрессии. Итеративная процедура вычисляет оптимальный параметр Lambda регуляризации, который минимизирует ошибку обобщенной перекрестной проверки (GCV).
Нейронная сеть общей регрессии
[ редактировать ]GRNN — это нейронная сеть ассоциативной памяти, которая похожа на вероятностную нейронную сеть , но используется для регрессии и аппроксимации, а не для классификации.
Сеть глубоких убеждений
[ редактировать ]Сеть глубоких убеждений (DBN) — это вероятностная генеративная модель , состоящая из нескольких скрытых слоев. Его можно рассматривать как совокупность простых обучающих модулей. [39]
DBN можно использовать для генеративного предварительного обучения глубокой нейронной сети (DNN), используя изученные веса DBN в качестве начальных весов DNN. Затем различные дискриминационные алгоритмы могут настроить эти веса. Это особенно полезно, когда данные обучения ограничены, поскольку плохо инициализированные веса могут существенно затруднить обучение. Эти предварительно обученные веса оказываются в области весового пространства, которая ближе к оптимальным весам, чем случайный выбор. Это позволяет как улучшить моделирование, так и ускорить конечную сходимость. [40]
Рекуррентная нейронная сеть
[ редактировать ]Рекуррентные нейронные сети (RNN) передают данные вперед, а также назад, от более поздних этапов обработки к более ранним. RNN можно использовать в качестве процессоров общих последовательностей.
Полностью рецидивирующий
[ редактировать ]Эта архитектура была разработана в 1980-х годах. Его сеть создает направленное соединение между каждой парой устройств. Каждый из них имеет изменяющуюся во времени активацию (выход) с действительным значением (более нуля или единицы). Каждое соединение имеет изменяемый действительный вес. Некоторые узлы называются помеченными узлами, некоторые выходными узлами, остальные скрытыми узлами.
Для контролируемого обучения в дискретных временных настройках обучающие последовательности действительных входных векторов становятся последовательностями активаций входных узлов, по одному входному вектору за раз. На каждом временном шаге каждый невходной модуль вычисляет свою текущую активацию как нелинейную функцию взвешенной суммы активаций всех модулей, от которых он получает соединения. Система может явно активировать (независимо от входящих сигналов) некоторые выходные устройства на определенных временных шагах. Например, если входная последовательность представляет собой речевой сигнал, соответствующий произнесенной цифре, конечным целевым выходным сигналом в конце последовательности может быть метка, классифицирующая цифру. Для каждой последовательности ее ошибка представляет собой сумму отклонений всех вычисленных сетью активаций от соответствующих целевых сигналов. Для обучающего набора из множества последовательностей общая ошибка представляет собой сумму ошибок всех отдельных последовательностей.
Чтобы минимизировать общую ошибку, можно использовать градиентный спуск для изменения каждого веса пропорционально его производной по ошибке, при условии, что нелинейные функции активации дифференцируемы . Стандартный метод называется « обратное распространение ошибки во времени » или BPTT, это обобщение обратного распространения ошибки для сетей прямого распространения. [41] [42] Более затратный в вычислительном отношении онлайн-вариант называется « Рекуррентное обучение в реальном времени » или RTRL. [43] [44] В отличие от BPTT этот алгоритм является локальным во времени, но не локальным в пространстве . [45] [46] Существует онлайн-гибрид между BPTT и RTRL средней сложности, [47] [48] с вариантами для непрерывного времени. [49] Основная проблема градиентного спуска для стандартных архитектур RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с увеличением временного лага между важными событиями. [50] [51] Архитектура долгосрочной кратковременной памяти решает эти проблемы. [52]
В обучения с подкреплением условиях ни один учитель не подает целевые сигналы. Вместо этого функция приспособленности , функция вознаграждения или функция полезности для оценки производительности иногда используется , которая влияет на входной поток через выходные устройства, подключенные к исполнительным механизмам, влияющим на окружающую среду. Варианты эволюционных вычислений часто используются для оптимизации весовой матрицы.
Хопфилд
[ редактировать ]Сеть Хопфилда (как и аналогичные сети на основе аттракторов) представляет исторический интерес, хотя она не является общей RNN, поскольку не предназначена для обработки последовательностей шаблонов. Вместо этого требуются стационарные входы. Это RNN, в которой все соединения симметричны. Это гарантирует, что оно сойдется. Если соединения обучаются с использованием обучения Хеббиана, сеть Хопфилда может работать как надежная память с адресацией по содержимому , устойчивая к изменению соединения.
Машина Больцмана
[ редактировать ]Машину Больцмана можно рассматривать как шумную сеть Хопфилда. Это одна из первых нейронных сетей, демонстрирующая обучение скрытым переменным (скрытым единицам). Машинное обучение Больцмана поначалу было медленным для моделирования, но алгоритм контрастной дивергенции ускоряет обучение машин Больцмана и продуктов экспертов .
Самоорганизующаяся карта
[ редактировать ]Самоорганизующаяся карта (SOM) использует обучение без учителя . Набор нейронов учится сопоставлять точки во входном пространстве с координатами в выходном пространстве. Входное пространство может иметь размеры и топологию, отличные от выходного пространства, и SOM пытается их сохранить.
Обучение векторному квантованию
[ редактировать ]Квантование вектора обучения (LVQ) можно интерпретировать как архитектуру нейронной сети. Прототипические представители классов параметризуются вместе с соответствующей мерой расстояния в схеме классификации, основанной на расстоянии.
Простой рекуррентный
[ редактировать ]Простые рекуррентные сети имеют три слоя с добавлением набора «единиц контекста» во входном слое. Эти единицы подключаются со скрытого слоя или выходного слоя с фиксированным весом, равным единице. [53] На каждом временном шаге входные данные распространяются стандартным способом прямого распространения, а затем применяется правило обучения, подобное обратному распространению ошибки (без выполнения градиентного спуска ). Фиксированные обратные соединения оставляют копию предыдущих значений скрытых модулей в контекстных модулях (поскольку они распространяются по соединениям до применения правила обучения).
Резервные вычисления
[ редактировать ]Резервуарные вычисления — это вычислительная среда, которую можно рассматривать как расширение нейронных сетей . [54] Обычно входной сигнал подается в фиксированную (случайную) динамическую систему, называемую резервуаром , динамика которой отображает входные данные в более высоком измерении. Механизм считывания обучен отображать резервуар на желаемом выходе. Обучение осуществляется только на этапе считывания. Жидкостные машины [55] представляют собой тип резервуарных вычислений. [56]
Состояние эха
[ редактировать ]Сеть состояний эха (ESN) использует редкосвязный случайный скрытый уровень. Веса выходных нейронов — единственная обучаемая часть сети. ESN хорошо воспроизводят определенные временные ряды . [57]
Длинная кратковременная память
[ редактировать ]Длинная кратковременная память (LSTM) [52] позволяет избежать проблемы исчезающего градиента . Он работает даже при больших задержках между входами и может обрабатывать сигналы, в которых смешаны низкочастотные и высокочастотные компоненты. LSTM RNN превзошел другие RNN и другие методы последовательного обучения, такие как HMM, в таких приложениях, как изучение языка. [58] и подключенное распознавание рукописного ввода. [59]
Двунаправленный
[ редактировать ]Двунаправленная RNN, или BRNN, использует конечную последовательность для прогнозирования или маркировки каждого элемента последовательности на основе как прошлого, так и будущего контекста элемента. [60] Это делается путем сложения выходов двух RNN: один обрабатывает последовательность слева направо, другой — справа налево. Объединенные выходные данные представляют собой прогнозы целевых сигналов, заданных учителем. Этот метод оказался особенно полезным в сочетании с LSTM. [61]
Иерархический
[ редактировать ]Иерархическая RNN соединяет элементы различными способами, чтобы разложить иерархическое поведение на полезные подпрограммы. [62] [63]
Стохастический
[ редактировать ]Район обычных нейронных сетей, стохастическая искусственная нейронная сеть, используемая в качестве приближения к случайные функции.
Генетическая шкала
[ редактировать ]RNN (часто LSTM), в которой ряд разлагается на несколько шкал, где каждый масштаб сообщает основную длину между двумя последовательными точками. Шкала первого порядка состоит из обычной RNN, второго порядка — из всех точек, разделенных двумя индексами, и так далее. RNN N-го порядка соединяет первый и последний узел. Результаты всех различных шкал обрабатываются как Комитет машин , и соответствующие оценки генетически используются для следующей итерации.
Модульный
[ редактировать ]Биологические исследования показали, что человеческий мозг функционирует как совокупность небольших сетей. Эта реализация породила концепцию модульных нейронных сетей , в которой несколько небольших сетей сотрудничают или конкурируют за решение проблем.
Комитет машин
[ редактировать ]Комитет машин (CoM) — это совокупность различных нейронных сетей, которые вместе «голосуют» по заданному примеру. Обычно это дает гораздо лучший результат, чем отдельные сети. Поскольку нейронные сети страдают от локальных минимумов, начиная с одной и той же архитектуры и обучения, но используя случайно разные начальные веса, часто дают совершенно разные результаты. [ нужна ссылка ] Соглашение мэров имеет тенденцию стабилизировать результат.
CoM аналогичен общему машинного обучения методу упаковки , за исключением того, что необходимое разнообразие машин в комитете достигается путем обучения с разными стартовыми весами, а не обучением на разных случайно выбранных подмножествах обучающих данных.
Ассоциативный
[ редактировать ]Ассоциативная нейронная сеть (ASNN) — это расширение комитета машин, которое сочетает в себе несколько нейронных сетей прямого распространения и метод k-ближайшего соседа. Он использует корреляцию между ответами ансамбля как меру расстояния среди проанализированных случаев для kNN. Это исправляет смещение ансамбля нейронной сети. Ассоциативная нейронная сеть имеет память, которая может совпадать с обучающей выборкой. Если становятся доступными новые данные, сеть мгновенно улучшает свои прогнозирующие способности и обеспечивает аппроксимацию данных (самообучение) без переобучения. Еще одной важной особенностью ASNN является возможность интерпретировать результаты нейронной сети путем анализа корреляций между случаями данных в пространстве моделей. [64]
Физический
[ редактировать ]Физическая нейронная сеть включает в себя электрически регулируемый материал сопротивления для имитации искусственных синапсов. Примеры включают нейронную сеть ADALINE на основе мемристора . [65] Оптическая нейронная сеть — это физическая реализация искусственной нейронной сети с оптическими компонентами .
Динамический
[ редактировать ]Динамические нейронные сети решают нелинейное многомерное поведение и включают (обучение) зависящее от времени поведение, такое как переходные явления и эффекты задержки. Методы оценки системного процесса на основе наблюдаемых данных подпадают под общую категорию идентификации системы.
Каскадный
[ редактировать ]Каскадная корреляция — это архитектура и обучения с учителем алгоритм . Вместо того, чтобы просто корректировать веса в сети с фиксированной топологией, [66] Каскадная корреляция начинается с минимальной сети, затем автоматически обучается и добавляет новые скрытые блоки один за другим, создавая многоуровневую структуру. Как только в сеть добавляется новый скрытый блок, его веса на входе замораживаются. Затем это устройство становится постоянным детектором функций в сети, доступным для создания выходных данных или для создания других, более сложных детекторов функций. Архитектура каскадной корреляции имеет несколько преимуществ: она быстро обучается, определяет собственный размер и топологию, сохраняет построенные структуры, даже если обучающий набор изменяется, и не требует обратного распространения ошибки .
Нейро-нечеткий
[ редактировать ]Нейро-нечеткая сеть — это система нечеткого вывода в теле искусственной нейронной сети. В зависимости от типа FIS несколько слоев моделируют процессы, участвующие в нечетком выводе, такие как фаззификация , вывод, агрегирование и дефаззификация . Преимущество внедрения FIS в общую структуру ИНС заключается в использовании доступных методов обучения ИНС для поиска параметров нечеткой системы.
Изготовление композиционных узоров
[ редактировать ]Сети, создающие композиционные шаблоны (CPPN), представляют собой разновидность искусственных нейронных сетей, которые различаются набором функций активации и способами их применения. В то время как типичные искусственные нейронные сети часто содержат только сигмовидные функции (а иногда и функции Гаусса ), CPPN могут включать в себя оба типа функций и многие другие. Более того, в отличие от типичных искусственных нейронных сетей, CPPN применяются ко всему пространству возможных входных данных, чтобы они могли представлять полное изображение. Поскольку они представляют собой композиции функций, CPPN фактически кодируют изображения с бесконечным разрешением и могут быть выбраны для конкретного дисплея с любым оптимальным разрешением.
Сети памяти
[ редактировать ]Сети памяти [67] [68] включить долговременную память . Долговременную память можно читать и записывать с целью использования ее для прогнозирования. Эти модели применялись в контексте ответов на вопросы (QA), где долговременная память эффективно действует как (динамическая) база знаний, а результатом является текстовый ответ. [69]
В разреженной распределенной памяти или иерархической темпоральной памяти шаблоны, закодированные нейронными сетями, используются в качестве адресов для адресуемой по содержимому памяти , при этом «нейроны», по существу, служат кодировщиками и декодерами адресов . Однако ранние контроллеры таких воспоминаний не были дифференцируемыми. [70]
Одноразовая ассоциативная память
[ редактировать ]Этот тип сети может добавлять новые шаблоны без повторного обучения. Это делается путем создания специальной структуры памяти, которая присваивает каждому новому шаблону ортогональную плоскость с использованием смежно связанных иерархических массивов. [71] Сеть предлагает распознавание образов в реальном времени и высокую масштабируемость; это требует параллельной обработки и поэтому лучше всего подходит для таких платформ, как беспроводные сенсорные сети , грид-вычисления и графические процессоры .
Иерархическая временная память
[ редактировать ]некоторые структурные и алгоритмические свойства неокортекса Иерархическая временная память (HTM) моделирует . HTM — это биомиметическая модель, основанная на теории прогнозирования памяти . HTM — это метод обнаружения и вывода высокоуровневых причин наблюдаемых входных шаблонов и последовательностей, позволяющий построить все более сложную модель мира.
HTM сочетает в себе существующие идеи по имитации неокортекса с простой конструкцией, предоставляющей множество возможностей. HTM объединяет и расширяет подходы, используемые в байесовских сетях , алгоритмы пространственной и временной кластеризации, используя при этом древовидную иерархию узлов, распространенную в нейронных сетях .
Голографическая ассоциативная память
[ редактировать ]Голографическая ассоциативная память (HAM) — это аналоговая, основанная на корреляции, ассоциативная система стимул-реакция. Информация отображается на фазовую ориентацию комплексных чисел. Память эффективна для задач ассоциативной памяти , обобщения и распознавания образов с переменным вниманием. Локализация динамического поиска занимает центральное место в биологической памяти. При зрительном восприятии люди сосредотачиваются на определенных объектах в узоре. Люди могут переключать фокус с объекта на объект без обучения. HAM может имитировать эту способность, создавая явные представления для фокуса. Он использует бимодальное представление шаблона и подобное голограмме сложное сферическое пространство состояний веса. HAM полезны для оптической реализации, поскольку лежащие в основе гиперсферические вычисления могут быть реализованы с помощью оптических вычислений. [72]
Дифференцируемые структуры памяти, связанные с LSTM
[ редактировать ]Помимо долговременной краткосрочной памяти (LSTM), другие подходы также добавляли дифференцируемую память к повторяющимся функциям. Например:
- Дифференцируемые действия push и pop для альтернативных сетей памяти, называемых машинами нейронного стека. [73] [74]
- Сети памяти, в которых внешнее дифференцируемое хранилище сети управления находится в быстрых весах другой сети. [75]
- LSTM забыть ворота [76]
- Самоссылающиеся RNN со специальными блоками вывода для адресации и быстрого манипулирования собственными весами RNN дифференцируемым способом (внутреннее хранилище). [77] [78]
- Учимся преобразовывать с неограниченной памятью [79]
Нейронные машины Тьюринга
[ редактировать ]Нейронные машины Тьюринга (НТМ) [80] связывают сети LSTM с ресурсами внешней памяти, с которыми они могут взаимодействовать посредством процессов внимания. Комбинированная система аналогична машине Тьюринга, но является сквозной дифференцируемой, что позволяет эффективно обучать ее методом градиентного спуска . Предварительные результаты показывают, что нейронные машины Тьюринга могут выводить простые алгоритмы, такие как копирование, сортировка и ассоциативный вызов, на основе примеров ввода и вывода.
Дифференцируемые нейронные компьютеры (DNC) являются расширением NTM. Они превзошли нейронные машины Тьюринга, системы долговременной краткосрочной памяти и сети памяти в задачах обработки последовательностей. [81] [82] [83] [84] [85]
Семантическое хеширование
[ редактировать ]Подходы, которые напрямую представляют предыдущий опыт и используют аналогичный опыт для формирования локальной модели, часто называются методами ближайшего соседа или k-ближайших соседей . [86] Глубокое обучение полезно при семантическом хешировании [87] где глубокая графическая модель векторов количества слов [88] получено из большого пакета документов. [ нужны разъяснения ] Документы сопоставляются с адресами памяти таким образом, что семантически схожие документы располагаются по соседним адресам. Документы, подобные документу запроса, можно затем найти, обратившись ко всем адресам, которые отличаются всего на несколько битов от адреса документа запроса. В отличие от разреженной распределенной памяти , которая работает с 1000-битными адресами, семантическое хеширование работает с 32- или 64-битными адресами, встречающимися в обычной компьютерной архитектуре.
Сети указателей
[ редактировать ]Глубокие нейронные сети потенциально можно улучшить за счет углубления и уменьшения параметров, сохраняя при этом обучаемость. Хотя обучение чрезвычайно глубоких (например, 1 миллион слоев) нейронных сетей может быть непрактичным, архитектуры, подобные ЦП , такие как сети указателей [89] и нейронные машины с произвольным доступом [90] преодолеть это ограничение за счет использования внешней оперативной памяти и других компонентов, которые обычно принадлежат компьютерной архитектуре, таких как регистры , АЛУ и указатели . Такие системы оперируют векторами распределения вероятностей , хранящимися в ячейках памяти и регистрах. Таким образом, модель полностью дифференцируема и обучается сквозно. Ключевой характеристикой этих моделей является то, что их глубину, размер кратковременной памяти и количество параметров можно изменять независимо.
Гибриды
[ редактировать ]Сети кодировщика-декодера
[ редактировать ]Среды кодирования-декодера основаны на нейронных сетях, которые сопоставляют высокоструктурированный ввод с высокоструктурированным выводом. Подход возник в контексте машинного перевода . [91] [92] [93] где входными и выходными данными являются письменные предложения на двух естественных языках. В этой работе LSTM RNN или CNN использовались в качестве кодировщика для суммирования исходного предложения, а резюме декодировалось с использованием условной языковой модели RNN для создания перевода. [94] Эти системы имеют общие строительные блоки: закрытые RNN и CNN и механизмы обученного внимания.
Другие типы
[ редактировать ]Мгновенно обучается
[ редактировать ]Нейронные сети с мгновенным обучением (ITNN) были созданы на основе феномена краткосрочного обучения, которое, кажется, происходит мгновенно. В этих сетях веса скрытого и выходного слоев сопоставляются непосредственно из данных обучающего вектора. Обычно они работают с двоичными данными, но существуют версии для непрерывных данных, требующие небольшой дополнительной обработки.
Пикирование
[ редактировать ]Пиковые нейронные сети (SNN) явно учитывают время ввода. Входные и выходные данные сети обычно представляются в виде серии пиков ( дельта-функция или более сложные формы). SNN может обрабатывать информацию во временной области (сигналы, которые меняются со временем). Они часто реализуются как рекуррентные сети. SNN также являются разновидностью импульсного компьютера . [95]
Пиковые нейронные сети с задержками аксональной проводимости демонстрируют полихронизацию и, следовательно, могут иметь очень большой объем памяти. [96]
SNN и временные корреляции нейронных сборок в таких сетях использовались для моделирования разделения фигуры и фона и связи областей в зрительной системе.
Пространственный
[ редактировать ]Пространственные нейронные сети (SNN) представляют собой суперкатегорию специализированных нейронных сетей (NN) для представления и прогнозирования географических явлений. Они обычно улучшают как статистическую точность , так и надежность а-пространственных/классических нейронных сетей всякий раз, когда они обрабатывают наборы геопространственных данных , а также других пространственных (статистических) моделей (например, моделей пространственной регрессии), когда переменные наборов геопространственных данных отображают нелинейные отношения . [97] [98] [99] Примерами SNN являются пространственные нейронные сети OSFA, SVANN и GWNN.
Неокогнитрон
[ редактировать ]Неокогнитрон — это иерархическая многослойная сеть, созданная по образцу зрительной коры . Он использует несколько типов модулей (первоначально два, называемые простыми и сложными ячейками) в качестве каскадной модели для использования в задачах распознавания образов. [100] [101] [102] Локальные особенности извлекаются S-клетками, деформацию которых терпят C-клетки. Локальные объекты во входных данных постепенно интегрируются и классифицируются на более высоких уровнях. [103] Среди различных видов неокогнитрона [104] — это системы, которые могут обнаруживать несколько шаблонов в одном и том же входном сигнале, используя обратное распространение для достижения избирательного внимания . [105] Он использовался для задач распознавания образов и вдохновил на создание сверточных нейронных сетей . [106]
Сложные иерархически-глубинные модели
[ редактировать ]Сложные иерархически-глубокие модели составляют глубокие сети с непараметрическими байесовскими моделями . Функции можно изучить с помощью глубоких архитектур, таких как DBN , [107] глубинные машины Больцмана (DBM), [108] глубокие автоматические кодировщики, [109] сверточные варианты, [110] [111] ССРБМ , [112] сети глубокого кодирования, [113] DBN с редким обучением функций, [114] РНН , [115] условные ДБН, [116] автоэнкодеры с шумоподавлением . [117] Это обеспечивает лучшее представление, ускоряя обучение и более точную классификацию многомерных данных. Однако эти архитектуры плохо подходят для изучения новых классов с небольшим количеством примеров, поскольку все сетевые модули участвуют в представлении входных данных ( распределенное представление ) и должны корректироваться вместе (высокая степень свободы ). Ограничение степени свободы уменьшает количество изучаемых параметров, облегчая изучение новых классов на нескольких примерах. Иерархические байесовские модели (HB) позволяют учиться на нескольких примерах, например [118] [119] [120] [121] [122] для компьютерного зрения , статистики и когнитивных наук .
Архитектуры Compound HD направлены на интеграцию характеристик как HB, так и глубоких сетей. Составная архитектура HDP-DBM представляет собой иерархический процесс Дирихле (HDP) как иерархическую модель, включающую архитектуру DBM. Это полная генеративная модель , обобщенная на основе абстрактных концепций, проходящих через уровни модели, которая способна синтезировать новые примеры в новых классах, которые выглядят «достаточно» естественными. Все уровни изучаются совместно путем максимизации общей логарифмической вероятности оценки . [123]
В DBM с тремя скрытыми слоями вероятность видимого ввода '' ν '' равна:
где представляет собой набор скрытых единиц, а — параметры модели, представляющие видимые-скрытые и скрыто-скрытые условия симметричного взаимодействия.
Обученная модель DBM — это ненаправленная модель, определяющая совместное распределение . Одним из способов выразить изученное является условная модель. и предыдущий срок .
Здесь представляет собой условную модель DBM, которую можно рассматривать как двухуровневую DBM, но с условиями смещения, заданными состояниями :
Сети глубокого предиктивного кодирования
[ редактировать ]Сеть глубокого прогнозирующего кодирования (DPCN) — это схема прогнозирующего кодирования, которая использует нисходящую информацию для эмпирической корректировки априорных значений, необходимых для восходящей процедуры вывода , с помощью глубокой, локально связанной генеративной модели . Это работает путем извлечения редких функций из изменяющихся во времени наблюдений с использованием линейной динамической модели. Затем используется стратегия объединения для изучения инвариантных представлений объектов. Эти блоки формируют глубокую архитектуру и обучаются посредством жадного послойного обучения без учителя . Слои представляют собой своего рода цепь Маркова , в которой состояния любого уровня зависят только от предыдущего и последующего слоев.
DPCN прогнозируют представление уровня, используя нисходящий подход, используя информацию верхнего уровня и временные зависимости от предыдущих состояний. [124]
DPCN могут быть расширены для формирования сверточной сети . [124]
Многослойная машина ядра
[ редактировать ]Машины с многоуровневым ядром (MKM) — это способ изучения сильно нелинейных функций путем итеративного применения слабо нелинейных ядер. Они используют анализ главных компонентов ядра (KPCA), [125] как метод неконтролируемого жадного послойного этапа предварительного обучения глубокого обучения. [126]
Слой изучает представление предыдущего слоя , извлекая главный компонент (ПК) проекционного слоя выходные данные в области функций, индуцированные ядром. Чтобы уменьшить размерность обновленного представления на каждом уровне, контролируемая стратегия выбирает лучшие информативные функции среди функций, извлеченных KPCA. Процесс:
- ранжировать признаки в соответствии с их взаимной информацией с метками классов;
- для разных значений K и , вычислите частоту ошибок классификации классификатора K-ближайшего соседа (K-NN), используя только наиболее информативные функции в наборе проверки ;
- ценность то, с каким классификатором достигнут наименьший коэффициент ошибок, определяет количество сохраняемых признаков.
Метод KPCA для MKM имеет некоторые недостатки.
Более простой способ использования машин ядра для глубокого обучения был разработан для понимания разговорной речи. [127] Основная идея состоит в том, чтобы использовать машину ядра для аппроксимации мелкой нейронной сети с бесконечным числом скрытых модулей, а затем использовать сеть с глубоким стеком для объединения выходных данных машины ядра и необработанных входных данных для построения следующего, более высокого уровня сети. машина с ядром. Количество уровней в глубокой выпуклой сети является гиперпараметром всей системы, который определяется путем перекрестной проверки .
См. также
[ редактировать ]- Теория адаптивного резонанса
- Искусственная жизнь
- Автоассоциативная память
- Автоэнкодер
- Биологически вдохновленные вычисления
- Синий мозг
- Коннекционистская экспертная система
- Дерево решений
- Экспертная система
- Генетический алгоритм
- Адаптивное табулирование in situ
- Нейронные сети с большой памятью и поиском данных
- Линейный дискриминантный анализ
- Логистическая регрессия
- Многослойный персептрон
- Нейронный газ
- Нейроэволюция , Нейроэволюция дополненных топологий (NEAT)
- Ni1000 Чип
- Оптическая нейронная сеть
- Оптимизация роя частиц
- Прогнозная аналитика
- Анализ основных компонентов
- Имитация отжига
- Систолический массив
- Нейронная сеть с задержкой времени (TDNN)
- Графовая нейронная сеть
Ссылки
[ редактировать ]- ^ Университет Южной Калифорнии (16 июня 2004 г.). «Серые вопросы: новые сведения о том, как нейроны обрабатывают информацию» . ScienceDaily . Цитата: "..."Удивительно, что после ста лет современных нейробиологических исследований мы до сих пор не знаем основных функций нейрона по обработке информации", - сказал Бартлетт Мел..."
- ^ Институт науки Вейцмана. (2 апреля 2007 г.). «Это всего лишь азартная игра: ведущая теория восприятия поставлена под сомнение» . ScienceDaily . Цитата: «...»Начиная с 1980-х годов многие нейробиологи считали, что обладают ключом к пониманию работы мозга. Но мы предоставили убедительные доказательства того, что мозг не может кодировать информацию, используя точные модели активности».
- ^ Калифорнийский университет - Лос-Анджелес (14 декабря 2004 г.). «Нейробиолог Калифорнийского университета в Лос-Анджелесе получил представление о человеческом мозге, изучая морскую улитку» . ScienceDaily . Цитата: «...«Наша работа предполагает, что механизмы мозга для формирования такого рода ассоциаций могут быть чрезвычайно похожи у улиток и высших организмов... Мы не до конца понимаем даже самые простые виды обучения у этих животных». .."
- ^ Йельский университет (13 апреля 2006 г.). «Мозг общается одновременно в аналоговом и цифровом режимах» . ScienceDaily . Цитата: «...Маккормик сказал, что будущие исследования и модели работы нейронов в мозге должны будут принимать во внимание смешанную аналогово-цифровую природу коммуникации. Только при глубоком понимании этого смешанного режима передачи сигналов будет действительно глубокая работа. По его словам, будет достигнуто понимание работы мозга и его нарушений..."
- ^ Ивахненко, Алексей Григорьевич (1968). «Групповой метод обработки данных – конкурент метода стохастической аппроксимации» . Советская автоматика . 13 (3): 43–55.
- ^ Ивахненко, А.Г. (1971). «Полиномиальная теория сложных систем». Транзакции IEEE по системам, человеку и кибернетике . 1 (4): 364–378. дои : 10.1109/TSMC.1971.4308320 . S2CID 17606980 .
- ^ Кондо, Т.; Уэно, Дж. (2008). «Многослойная нейронная сеть типа GMDH, самостоятельно выбирающая оптимальную архитектуру нейронной сети и ее применение для распознавания трехмерных медицинских изображений кровеносных сосудов» . Международный журнал инновационных вычислений, информации и управления . 4 (1): 175–187.
- ^ Jump up to: а б Бенджио, Ю. (15 ноября 2009 г.). «Изучение глубокой архитектуры для искусственного интеллекта» (PDF) . Основы и тенденции в машинном обучении . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . дои : 10.1561/2200000006 . ISSN 1935-8237 . S2CID 207178999 .
- ^ Лиу, Ченг-Юань (2008). «Моделирование восприятия слов с помощью сети Элмана» (PDF) . Нейрокомпьютинг . 71 (16–18): 3150–3157. doi : 10.1016/j.neucom.2008.04.030 .
- ^ Лиу, Чэн-Юань (2014). «Автоэнкодер слов». Нейрокомпьютинг . 139 : 84–96. дои : 10.1016/j.neucom.2013.09.055 .
- ^ Дидерик П. Кингма; Веллинг, Макс (2013). «Автокодирование вариационного Байеса». arXiv : 1312.6114 [ stat.ML ].
- ^ Боезен, А.; Ларсен, Л.; Сондерби, СК (2015). «Создание лиц с помощью факела» .
- ^ «Конкурентно-вероятностная нейронная сеть (доступна загрузка в формате PDF)» . Исследовательские ворота . Проверено 16 марта 2017 г.
- ^ «Вероятностные нейронные сети» . Архивировано из оригинала 18 декабря 2010 г. Проверено 22 марта 2012 г.
- ^ Чунг, Винсент; Кэннонс, Кевин (10 июня 2002 г.). «Введение в вероятностные нейронные сети» (PDF) . Группа вероятностных и статистических выводов . Архивировано из оригинала (PDF) 31 января 2012 г. Проверено 22 марта 2012 г.
- ^ «Основы ТДНН» . Архивировано из оригинала 22 марта 2017 г. Проверено 18 июня 2017 г. , глава из по SNNS онлайн-руководства
- ^ Чжан, Вэй (1990). «Модель параллельной распределенной обработки с локальными пространственно-инвариантными соединениями и ее оптическая архитектура» . Прикладная оптика . 29 (32): 4790–7. Бибкод : 1990ApOpt..29.4790Z . дои : 10.1364/ao.29.004790 . ПМИД 20577468 .
- ^ Чжан, Вэй (1988). «Сдвиг-инвариантная нейронная сеть распознавания образов и ее оптическая архитектура» . Материалы ежегодной конференции Японского общества прикладной физики .
- ^ Венг, Дж.; Ахуджа, Н.; Хуанг, Т.С. (май 1993 г.). Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений (PDF) . 4-я Международная конференция. Компьютерное зрение. Берлин, Германия. стр. 121–128.
- ^ Фукусима, К. (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения». Биол. Киберн . 36 (4): 193–202. дои : 10.1007/bf00344251 . ПМИД 7370364 . S2CID 206775608 .
- ^ ЛеКун, Янн. «LeNet-5, сверточные нейронные сети» . Проверено 16 ноября 2013 г.
- ^ «Сверточные нейронные сети (LeNet) — документация DeepLearning 0.1» . Глубокое обучение 0.1 . ЛИЗА Лаборатория. Архивировано из оригинала 28 декабря 2017 года . Проверено 31 августа 2013 г.
- ^ ЛеКун и др. (1989). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса». Нейронные вычисления . 1 (4): 541–551. дои : 10.1162/neco.1989.1.4.541 .
- ^ ЛеКун, Янн (2016). «Слайды по глубокому онлайн-обучению» .
- ^ «Учебное пособие по обучению функциям без присмотра и глубокому обучению» . ufldl.stanford.edu .
- ^ Хинтон, Джеффри Э.; Крижевский, Алекс; Ван, Сида Д. (2011 г.), «Преобразование автокодировщиков», Искусственные нейронные сети и машинное обучение – ICANN 2011 г. , Конспекты лекций по информатике, том. 6791, Springer, стр. 44–51, CiteSeerX 10.1.1.220.5099 , номер doi : 10.1007/978-3-642-21735-7_6 , ISBN. 9783642217340 , S2CID 6138085
- ^ Сегеди, Кристиан; Лю, Вэй; Цзя, Янцин; Сермане, Пьер; Рид, Скотт Э.; Ангелов, Драгомир; Эрхан, Дмитрий; Ванхук, Винсент; Рабинович, Андрей (2015). «Углубляемся с извилинами». Конференция IEEE по компьютерному зрению и распознаванию образов, CVPR 2015, Бостон, Массачусетс, США, 7–12 июня 2015 г. Компьютерное общество IEEE. стр. 1–9. arXiv : 1409.4842 . дои : 10.1109/CVPR.2015.7298594 . ISBN 978-1-4673-6964-0 .
- ^ Ран, Линьян; Чжан, Яннин; Чжан, Цилинь; Ян, Тао (12 июня 2017 г.). «Навигация робота на основе сверточной нейронной сети с использованием некалиброванных сферических изображений» (PDF) . Датчики . 17 (6): 1341. Бибкод : 2017Senso..17.1341R . дои : 10.3390/s17061341 . ISSN 1424-8220 . ПМЦ 5492478 . ПМИД 28604624 .
- ^ ван ден Оорд, Аарон; Дилеман, Сандер; Шраувен, Бенджамин (01 января 2013 г.). Берджес, CJC; Ботту, Л.; Веллинг, М.; Гахрамани, З.; Вайнбергер, KQ (ред.). Глубокие рекомендации по музыке на основе контента (PDF) . Карран Ассошиэйтс. стр. 2643–2651.
- ^ Коллобер, Ронан; Уэстон, Джейсон (1 января 2008 г.). «Единая архитектура обработки естественного языка». Материалы 25-й международной конференции по машинному обучению ICML '08 . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 160–167. дои : 10.1145/1390156.1390177 . ISBN 978-1-60558-205-4 . S2CID 2617020 .
- ^ Jump up to: а б с Дэн, Ли; Ю, Донг; Платт, Джон (2012). «Масштабируемое стекирование и обучение для создания глубоких архитектур» (PDF) . Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) , 2012 г. стр. 2133–2136. дои : 10.1109/ICASSP.2012.6288333 . ISBN 978-1-4673-0046-9 . S2CID 16171497 .
- ^ Jump up to: а б Дэн, Ли; Ю, Донг (2011). «Глубокая выпуклая сеть: масштабируемая архитектура для классификации речевых шаблонов» (PDF) . Труды Интерспича : 2285–2288. doi : 10.21437/Interspeech.2011-607 . S2CID 36439 .
- ^ Дэвид, Вулперт (1992). «Сложенное обобщение». Нейронные сети . 5 (2): 241–259. CiteSeerX 10.1.1.133.8090 . дои : 10.1016/S0893-6080(05)80023-1 .
- ^ Хатчинсон, Брайан; Дэн, Ли; Ю, Донг (2012). «Тензорные сети с глубоким стеком». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 1–15 (8): 1944–1957. дои : 10.1109/tpami.2012.268 . ПМИД 23267198 . S2CID 344385 .
- ^ Хинтон, Джеффри; Салахутдинов, Руслан (2006). «Уменьшение размерности данных с помощью нейронных сетей». Наука . 313 (5786): 504–507. Бибкод : 2006Sci...313..504H . дои : 10.1126/science.1127647 . ПМИД 16873662 . S2CID 1658773 .
- ^ Даль, Г.; Ю, Д.; Дэн, Л.; Асеро, А. (2012). «Контекстно-зависимые предварительно обученные глубокие нейронные сети для распознавания речи с большим словарным запасом». Транзакции IEEE по обработке звука, речи и языка . 20 (1): 30–42. CiteSeerX 10.1.1.227.8990 . дои : 10.1109/tasl.2011.2134090 . S2CID 14862572 .
- ^ Мохамед, Абдель-Рахман; Даль, Джордж; Хинтон, Джеффри (2012). «Акустическое моделирование с использованием сетей глубокого доверия». Транзакции IEEE по обработке звука, речи и языка . 20 (1): 14–22. CiteSeerX 10.1.1.338.2670 . дои : 10.1109/tasl.2011.2109382 . S2CID 9530137 .
- ^ Ахлер, Т.; Омар, К.; Амир, Э. (2008). Сброс веса: больше с меньшими затратами . Международная совместная конференция по нейронным сетям.
- ^ Хинтон, GE (2009). «Сети глубоких убеждений» . Схоларпедия . 4 (5): 5947. Бибкод : 2009SchpJ...4.5947H . doi : 10.4249/scholarpedia.5947 .
- ^ Ларошель, Хьюго; Эрхан, Дмитрий; Курвиль, Аарон; Бергстра, Джеймс; Бенджио, Йошуа (2007). «Эмпирическая оценка глубоких архитектур для решения проблем со многими факторами вариаций». Материалы 24-й международной конференции по машинному обучению . ICML '07. Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 473–480. CiteSeerX 10.1.1.77.3242 . дои : 10.1145/1273496.1273556 . ISBN 9781595937933 . S2CID 14805281 .
- ^ Вербос, П.Дж. (1988). «Обобщение обратного распространения ошибки с применением к рекуррентной модели газового рынка» . Нейронные сети . 1 (4): 339–356. дои : 10.1016/0893-6080(88)90007-x .
- ^ Румельхарт, Дэвид Э.; Хинтон, Джеффри Э.; Уильямс, Рональд Дж. Изучение внутренних представлений путем распространения ошибок (Отчет). S2CID 62245742 .
- ^ Робинсон, Эй Джей; Фоллсайд, Ф. (1987). Сеть динамического распространения ошибок, управляемая утилитой. Технический отчет CUED/F-INFENG/TR.1 (PDF) (Отчет). Инженерный факультет Кембриджского университета.
- ^ Уильямс, Р.Дж.; Зипсер, Д. (1994). «Алгоритмы градиентного обучения для рекуррентных сетей и их вычислительная сложность» (PDF) . Обратное распространение ошибки: теория, архитектура и приложения . Хиллсдейл, Нью-Джерси: Эрлбаум. S2CID 14792754 .
- ^ Шмидхубер, Дж. (1989). «Алгоритм локального обучения для динамических сетей прямой связи и рекуррентных сетей». Наука о связях . 1 (4): 403–412. дои : 10.1080/09540098908915650 . S2CID 18721007 .
- ^ Принсипи, JC; Эулиано, Северная Каролина; Лефевр, В. К. Нейронные и адаптивные системы: основы посредством моделирования .
- ^ Шмидхубер, Дж. (1992). «Алгоритм обучения временной сложности O (n3) фиксированного размера для полностью рекуррентных, постоянно работающих сетей». Нейронные вычисления . 4 (2): 243–248. дои : 10.1162/neco.1992.4.2.243 . S2CID 11761172 .
- ^ Уильямс, Р.Дж. (1989). Сложность алгоритмов точного вычисления градиента для рекуррентных нейронных сетей. Технический отчет Технический отчет NU-CCS-89-27 (Отчет). Бостон: Северо-Восточный университет, Колледж компьютерных наук.
- ^ Перлмуттер, бакалавр (1989). «Изучение траекторий пространства состояний в рекуррентных нейронных сетях» (PDF) . Нейронные вычисления . 1 (2): 263–269. дои : 10.1162/neco.1989.1.2.263 . S2CID 16813485 .
- ^ Хохрейтер, С. (1991). Исследования по динамическим нейронным сетям (дипломная работа) (на немецком языке). Мюнхен: Институт компьютерных наук, Технический университет.
- ^ Хохрейтер, С.; Бенджио, Ю.; Фраскони, П.; Шмидхубер, Дж. (2001). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей» (PDF) . В Кремере, Южная Каролина; Колен, Дж. Ф. (ред.). Полевое руководство по динамическим рекуррентным нейронным сетям . IEEE Пресс.
- ^ Jump up to: а б Хохрейтер, С.; Шмидхубер, Дж. (1997). «Длинная кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ПМИД 9377276 . S2CID 1915014 .
- ^ Круз, Холк. Нейронные сети как кибернетические системы (PDF) (2-е и исправленное издание).
- ^ Шраувен, Бенджамин ; Верстратен, Дэвид ; Кампенхаут, Ян Ван (2007). Обзор пластовых вычислений: теория, приложения и реализации . Европейский симпозиум по искусственным нейронным сетям ESANN. стр. 471–482.
- ^ Масс, Вольфганг ; Нахчлегер, Т.; Маркрам, Х. (2002). «Вычисления в реальном времени без стабильных состояний: новая основа нейронных вычислений, основанная на возмущениях». Нейронные вычисления . 14 (11): 2531–2560. дои : 10.1162/089976602760407955 . ПМИД 12433288 . S2CID 1045112 .
- ^ Джагер, Герберт (2007). «Эхо государственной сети» . Схоларпедия . 2 (9): 2330. Бибкод : 2007SchpJ...2.2330J . doi : 10.4249/scholarpedia.2330 .
- ^ Джагер, Х.; Использование (2004). «Прогнозирование хаотических систем и экономия энергии в беспроводной связи». Наука . 304 (5667): 78–80. Бибкод : 2004Sci...304...78J . CiteSeerX 10.1.1.719.2301 . дои : 10.1126/science.1091277 . ПМИД 15064413 . S2CID 2184251 .
- ^ Герс, Ф.А.; Шмидхубер, Дж. (2001). «Рекуррентные сети LSTM изучают простые контекстно-свободные и контекстно-зависимые языки» . Транзакции IEEE в нейронных сетях . 12 (6): 1333–1340. дои : 10.1109/72.963769 . ПМИД 18249962 .
- ^ Грейвс, А.; Шмидхубер, Дж. (2009). Автономное распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей (PDF) . Достижения в области нейронных систем обработки информации 22, NIPS'22. Ванкувер: MIT Press. стр. 545–552.
- ^ Шустер, Майк; Паливал, Кулдип К. (1997). «Двунаправленные рекуррентные нейронные сети». Транзакции IEEE по обработке сигналов . 45 (11): 2673–2681. Бибкод : 1997ITSP...45.2673S . CiteSeerX 10.1.1.331.9441 . дои : 10.1109/78.650093 . S2CID 18375389 .
- ^ Грейвс, А.; Шмидхубер, Дж. (2005). «Кадровая классификация фонем с помощью двунаправленного LSTM и других архитектур нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . дои : 10.1016/j.neunet.2005.06.042 . ПМИД 16112549 . S2CID 1856462 .
- ^ Шмидхубер, Дж. (1992). «Изучение сложных, расширенных последовательностей с использованием принципа сжатия истории». Нейронные вычисления . 4 (2): 234–242. дои : 10.1162/neco.1992.4.2.234 . S2CID 18271205 .
- ^ «Динамическое представление примитивов движения в развитой рекуррентной нейронной сети» (PDF) . Архивировано из оригинала (PDF) 18 июля 2011 г. Проверено 12 июля 2010 г.
- ^ «Ассоциативная нейронная сеть» . www.vcclab.org . Проверено 17 июня 2017 г.
- ^ Андерсон, Джеймс А.; Розенфельд, Эдвард (2000). Говорящие сети: устная история нейронных сетей . МТИ Пресс. ISBN 9780262511117 .
- ^ Фалман, Скотт Э.; Лебьер, Кристиан (29 августа 1991 г.). «Архитектура обучения с каскадной корреляцией» (PDF) . Университет Карнеги-Меллон . Архивировано из оригинала (PDF) 3 мая 2013 года . Проверено 4 октября 2014 г.
- ^ Шмидхубер, Юрген (2014). «Сети памяти». arXiv : 1410.3916 [ cs.AI ].
- ^ Шмидхубер, Юрген (2015). «Сквозные сети памяти». arXiv : 1503.08895 [ cs.NE ].
- ^ Шмидхубер, Юрген (2015). «Масштабные ответы на простые вопросы с помощью сетей памяти». arXiv : 1506.02075 [ cs.LG ].
- ^ Хинтон, Джеффри Э. (1984). «Распределенные представления» . Архивировано из оригинала 2 мая 2016 г.
- ^ Насутион, ББ; Хан, А.И. (февраль 2008 г.). «Схема нейронов с иерархическим графом для распознавания образов в реальном времени». Транзакции IEEE в нейронных сетях . 19 (2): 212–229. дои : 10.1109/ТНН.2007.905857 . ПМИД 18269954 . S2CID 17573325 .
- ^ Сазерленд, Джон Г. (1 января 1990 г.). «Голографическая модель памяти, обучения и выражения». Международный журнал нейронных систем . 01 (3): 259–267. дои : 10.1142/S0129065790000163 .
- ^ Дас, С.; Джайлз, CL; Солнце, Г.З. (1992). Обучение контекстно-свободной грамматике: ограничения рекуррентной нейронной сети с внешней стековой памятью . 14-я ежегодная конференция. Ког. наук. Соц. п. 79.
- ^ Мозер, MC; Дас, С. (1993). «Коннекционистский манипулятор символов, обнаруживающий структуру контекстно-свободных языков» . Достижения в области нейронных систем обработки информации . 5 : 863–870. Архивировано из оригинала 6 декабря 2019 г. Проверено 25 августа 2019 г.
- ^ Шмидхубер, Дж. (1992). «Научиться контролировать быстрые воспоминания: альтернатива повторяющимся сетям». Нейронные вычисления . 4 (1): 131–139. дои : 10.1162/neco.1992.4.1.131 . S2CID 16683347 .
- ^ Герс, Ф.; Шраудольф, Н.; Шмидхубер, Дж. (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . JMLR . 3 : 115–143.
- ^ Юрген Шмидхубер (1993). «Интроспективная сеть, которая может научиться запускать собственный алгоритм изменения веса». Материалы Международной конференции по искусственным нейронным сетям, Брайтон . ИЭЭ. стр. 191–195. [ постоянная мертвая ссылка ]
- ^ Хохрейтер, Зепп; Младший, А. Стивен; Конвелл, Питер Р. (2001). «Учимся учиться с помощью градиентного спуска». ИКАНН . 2130 : 87–94. CiteSeerX 10.1.1.5.323 .
- ^ Шмидхубер, Юрген (2015). «Учимся преобразовывать с неограниченной памятью». arXiv : 1506.02516 [ cs.NE ].
- ^ Шмидхубер, Юрген (2014). «Нейронные машины Тьюринга». arXiv : 1410.5401 [ cs.NE ].
- ^ Берджесс, Мэтт. «ИИ DeepMind научился ездить в лондонском метро, используя человеческий разум и память» . ПРОВОДНАЯ Великобритания . Проверено 19 октября 2016 г.
- ^ «ИИ DeepMind «учится» ориентироваться в лондонском метро» . ПКМАГ . Проверено 19 октября 2016 г.
- ^ Маннес, Джон (13 октября 2016 г.). «Дифференцируемый нейронный компьютер DeepMind помогает вам ориентироваться в метро с помощью своей памяти» . ТехКранч . Проверено 19 октября 2016 г.
- ^ Грейвс, Алекс; Уэйн, Грег; Рейнольдс, Малькольм; Харли, Тим; Данигелка, Иво; Грабская-Барвинская, Агнешка; Кольменарехо, Серхио Гомес; Грефенштетт, Эдвард; Рамальо, Тьяго (12 октября 2016 г.). «Гибридные вычисления с использованием нейронной сети с динамической внешней памятью» . Природа . 538 (7626): 471–476. Бибкод : 2016Natur.538..471G . дои : 10.1038/nature20101 . ISSN 1476-4687 . ПМИД 27732574 . S2CID 205251479 .
- ^ «Дифференцируемые нейронные компьютеры | DeepMind» . ДипМайнд . 12 октября 2016 г. Проверено 19 октября 2016 г.
- ^ Аткесон, Кристофер Г.; Шааль, Стефан (1995). «Нейронные сети на основе памяти для обучения роботов». Нейрокомпьютинг . 9 (3): 243–269. дои : 10.1016/0925-2312(95)00033-6 .
- ^ Салахутдинов Руслан; Хинтон, Джеффри (2009). «Семантическое хеширование» (PDF) . Международный журнал приближенного рассуждения . 50 (7): 969–978. дои : 10.1016/j.ijar.2008.11.006 .
- ^ Ле, Куок В.; Миколов, Томас (2014). «Распределенные представления предложений и документов». arXiv : 1405.4053 [ cs.CL ].
- ^ Шмидхубер, Юрген (2015). «Сети указателей». arXiv : 1506.03134 [ стат.ML ].
- ^ Шмидхубер, Юрген (2015). «Нейронные машины произвольного доступа». arXiv : 1511.06392 [ cs.LG ].
- ^ Кальхбреннер, Н.; Блансом, П. (2013). Рекуррентные модели непрерывного перевода . ЭМНЛП'2013. стр. 1700–1709.
- ^ Суцкевер И.; Виньялс, О.; Ле, QV (2014). «Последовательное обучение с помощью нейронных сетей» (PDF) . Двадцать восьмая конференция по нейронным системам обработки информации . arXiv : 1409.3215 .
- ^ Шмидхубер, Юрген (2014). «Изучение представлений фраз с использованием кодера-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [ cs.CL ].
- ^ Шмидхубер, Юрген; Курвиль, Аарон; Бенджио, Йошуа (2015). «Описание мультимедийного контента с использованием кодировщика, основанного на внимании — сети декодера». Транзакции IEEE в мультимедиа . 17 (11): 1875–1886. arXiv : 1507.01053 . Бибкод : 2015arXiv150701053C . дои : 10.1109/TMM.2015.2477044 . S2CID 1179542 .
- ^ Герстнер; Кистлер. «Модели импульсных нейронов: одиночные нейроны, популяции, пластичность» . icwww.epfl.ch . Архивировано из оригинала 4 июня 2017 г. Проверено 18 июня 2017 г. Бесплатный онлайн-учебник
- ^ Ижикевич Э.М. (февраль 2006 г.). «Полихронизация: вычисления с шипами». Нейронные вычисления . 18 (2): 245–82. дои : 10.1162/089976606775093882 . ПМИД 16378515 . S2CID 14253998 .
- ^ Морер И., Кардилло А., Диас-Гильера А., Приньяно Л., Лосано С. (2020). «Сравнение пространственных сетей: универсальный подход, ориентированный на эффективность». Физический обзор . 101 (4): 042301. Бибкод : 2020PhRvE.101d2301M . дои : 10.1103/PhysRevE.101.042301 . hdl : 2445/161417 . ПМИД 32422764 . S2CID 49564277 .
- ^ Гупта Дж., Молнар С., Се Ю., Найт Дж., Шекхар С. (2021). «Глубокие нейронные сети с учетом пространственной изменчивости (SVANN): общий подход». Транзакции ACM в интеллектуальных системах и технологиях . 12 (6): 1–21. дои : 10.1145/3466688 . S2CID 244786699 .
- ^ Хагенауэр Дж., Хельбих М. (2022). «Географически взвешенная искусственная нейронная сеть» . Международный журнал географической информатики . 36 (2): 215–235. Бибкод : 2022IJGIS..36..215H . дои : 10.1080/13658816.2021.1871618 . S2CID 233883395 .
- ^ Дэвид Х. Хьюбель и Торстен Н. Визель (2005). Мозг и зрительное восприятие: история 25-летнего сотрудничества . Издательство Оксфордского университета. п. 106. ИСБН 978-0-19-517618-6 .
- ^ Хьюбель, Д.Х.; Визель, Теннесси (октябрь 1959 г.). «Рецептивные поля отдельных нейронов полосатой коры головного мозга кошки» . Дж. Физиол . 148 (3): 574–91. doi : 10.1113/jphysicalol.1959.sp006308 . ПМЦ 1363130 . ПМИД 14403679 .
- ^ Фукусима 1987 , стр. 83.
- ^ Фукусима 1987 , стр. 84.
- ^ Фукусима 2007 .
- ^ Фукусима 1987 , стр. 81, 85.
- ^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение» (PDF) . Природа . 521 (7553): 436–444. Бибкод : 2015Natur.521..436L . дои : 10.1038/nature14539 . ПМИД 26017442 . S2CID 3074096 .
- ^ Хинтон, Джорджия ; Осиндеро, С.; Тех, Ю. (2006). «Алгоритм быстрого обучения для сетей глубокого доверия» (PDF) . Нейронные вычисления . 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД 16764513 . S2CID 2309950 .
- ^ Хинтон, Джеффри; Салахутдинов, Руслан (2009). «Эффективное обучение глубоких машин Больцмана» (PDF) . 3 : 448–455. Архивировано из оригинала (PDF) 6 ноября 2015 г. Проверено 25 августа 2019 г.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Ларошель, Хьюго; Бенджио, Йошуа; Лурадур, Джердме; Ламблин, Паскаль (2009). «Изучение стратегий обучения глубоких нейронных сетей» . Журнал исследований машинного обучения . 10 :1–40.
- ^ Коутс, Адам; Карпентер, Блейк (2011). «Обнаружение текста и распознавание символов в изображениях сцен с неконтролируемым обучением функций» (PDF) : 440–445.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Ли, Хонглак; Гросс, Роджер (2009). «Сверточные сети глубокого убеждения для масштабируемого неконтролируемого обучения иерархических представлений». Материалы 26-й ежегодной международной конференции по машинному обучению . стр. 609–616. CiteSeerX 10.1.1.149.6800 . дои : 10.1145/1553374.1553453 . ISBN 9781605585161 . S2CID 12008458 .
- ^ Курвиль, Аарон; Бергстра, Джеймс; Бенджио, Йошуа (2011). «Неконтролируемые модели изображений с помощью RBM с шипами и плитами» (PDF) . Материалы 28-й Международной конференции по машинному обучению . Том. 10. С. 1–8. Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 25 августа 2019 г.
- ^ Линь, Юаньцин; Чжан, Тонг; Чжу, Шэнхо; Ю, Кай (2010). «Сеть глубокого кодирования» . Достижения в области нейронных систем обработки информации 23 (NIPS 2010) . Том. 23. стр. 1–9.
- ^ Ранзато, Марк Аурелио; Буро, И-Лан (2007). «Обучение разреженным функциям для сетей глубокого доверия» (PDF) . Достижения в области нейронных систем обработки информации . 23 : 1–8. Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 25 августа 2019 г.
- ^ Сошер, Ричард; Лин, Клиф (2011). «Анализ естественных сцен и естественного языка с помощью рекурсивных нейронных сетей» (PDF) . Материалы 26-й Международной конференции по машинному обучению . Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 25 августа 2019 г.
- ^ Тейлор, Грэм; Хинтон, Джеффри (2006). «Моделирование движения человека с использованием двоичных скрытых переменных» (PDF) . Достижения в области нейронных систем обработки информации . Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 25 августа 2019 г.
- ^ Винсент, Паскаль; Ларошель, Хьюго (2008). «Извлечение и составление надежных функций с помощью автоэнкодеров с шумоподавлением». Материалы 25-й международной конференции по машинному обучению ICML '08 . стр. 1096–1103. CiteSeerX 10.1.1.298.4083 . дои : 10.1145/1390156.1390294 . ISBN 9781605582054 . S2CID 207168299 .
- ^ Кемп, Чарльз; Перфорс, Эми; Тененбаум, Джошуа (2007). «Изучение сверхгипотез с помощью иерархических байесовских моделей». Наука развития . 10 (3): 307–21. CiteSeerX 10.1.1.141.5560 . дои : 10.1111/j.1467-7687.2007.00585.x . ПМИД 17444972 .
- ^ Сюй, Фэй; Тененбаум, Джошуа (2007). «Изучение слов как байесовский вывод». Психол. Преподобный . 114 (2): 245–72. CiteSeerX 10.1.1.57.9649 . дои : 10.1037/0033-295X.114.2.245 . ПМИД 17500627 .
- ^ Чен, Бо; Полаткан, Гунгор (2011). «Иерархический бета-процесс для сверточного факторного анализа и глубокого обучения» (PDF) . Материалы 28-й Международной конференции по машинному обучению . Омнипресс. стр. 361–368. ISBN 978-1-4503-0619-5 .
- ^ Фей-Фей, Ли; Фергус, Роб (2006). «Одноразовое изучение категорий объектов». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 28 (4): 594–611. CiteSeerX 10.1.1.110.9024 . дои : 10.1109/TPAMI.2006.79 . ПМИД 16566508 . S2CID 6953475 .
- ^ Родригес, Абель; Дансон, Дэвид (2008). «Вложенный процесс Дирихле». Журнал Американской статистической ассоциации . 103 (483): 1131–1154. CiteSeerX 10.1.1.70.9873 . дои : 10.1198/016214508000000553 . S2CID 13462201 .
- ^ Руслан, Салахутдинов; Джошуа, Тененбаум (2012). «Обучение с помощью иерархически-глубоких моделей». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (8): 1958–71. CiteSeerX 10.1.1.372.909 . дои : 10.1109/TPAMI.2012.269 . ПМИД 23787346 . S2CID 4508400 .
- ^ Jump up to: а б Чаласани, Ракеш; Принсипи, Хосе (2013). «Сети глубокого прогнозирующего кодирования». arXiv : 1301.3541 [ cs.LG ].
- ^ Шолькопф, Б; Смола, Александр (1998). «Анализ нелинейных компонентов как проблема собственных значений ядра». Нейронные вычисления . 44 (5): 1299–1319. CiteSeerX 10.1.1.53.8911 . дои : 10.1162/089976698300017467 . S2CID 6674407 .
- ^ Чо, Ёнмин (2012). «Методы ядра для глубокого обучения» (PDF) : 1–9.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Дэн, Ли; Тур, Гохан; Он, Сяодун; Хаккани-Тюр, Дилек (1 декабря 2012 г.). «Использование глубоких выпуклых сетей ядра и сквозного обучения для понимания разговорной речи» . Исследования Майкрософт .
Библиография
[ редактировать ]- Фукусима, Кунихико (1987). «Иерархическая модель нейронной сети для избирательного внимания». В Экмиллере, Р.; Фон дер Мальсбург, К. (ред.). Нейронные компьютеры . Спрингер-Верлаг. стр. 81–90.
- Фукусима, Кунихико (2007). «Неокогнитрон» . Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F . doi : 10.4249/scholarpedia.1717 .