История искусственных нейронных сетей
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Искусственные нейронные сети (ИНС) — это модели, созданные с помощью машинного обучения для выполнения ряда задач. Их создание было вдохновлено нейронными схемами . [1] [а] Хотя некоторые из вычислительных реализаций ИНС связаны с более ранними открытиями в математике, первая реализация ИНС была осуществлена психологом Фрэнком Розенблаттом , который разработал перцептрон . [1] В 1970-х и 1980-х годах исследования ИНС проводились мало, и AAAI назвала этот период « зимой ИИ ». [2]
Позже достижения в области аппаратного обеспечения и разработка алгоритма обратного распространения ошибки, а также рекуррентных нейронных сетей и сверточных нейронных сетей возобновили интерес к ИНС. В 2010-х годах была разработана глубокая нейронная сеть (многоуровневая нейронная сеть) под названием AlexNet . [3] Она значительно превзошла другие модели распознавания изображений и, как полагают, положила начало продолжающейся весне искусственного интеллекта и дальнейшему росту интереса к ИНС. [4] Архитектура трансформатора была впервые описана в 2017 году как метод обучения грамматическим зависимостям ИНС в языке. [5] и является преобладающей архитектурой, используемой большими языковыми моделями , такими как GPT-4 . Модели диффузии были впервые описаны в 2015 году и начали использоваться в моделях генерации изображений, таких как DALL-E, в 2020-х годах. [ нужна ссылка ]
Линейная нейронная сеть
[ редактировать ]Самый простой вид нейронной сети прямого распространения — это линейная сеть, состоящая из одного слоя выходных узлов; входные данные подаются непосредственно на выходы через ряд весов. Сумма произведений весов и входных данных рассчитывается в каждом узле. Среднеквадратические ошибки между этими рассчитанными выходными данными и заданными целевыми значениями сводятся к минимуму за счет корректировки весов. Этот метод известен уже более двух столетий как метод наименьших квадратов или линейная регрессия . (1795 г.) использовали его как средство нахождения хорошей грубой линейной аппроксимации набора точек Лежандр (1805 г.) и Гаусс для предсказания движения планет. [6] [7] [8] [9] [10]
Перцептроны и другие ранние нейронные сети
[ редактировать ]Уоррен Маккалок и Уолтер Питтс [11] (1943) также рассматривали вычислительную модель нейронных сетей, не требующую обучения. [12] Эта модель проложила путь к разделению исследований на два подхода. Один подход был сосредоточен на биологических процессах, а другой — на применении нейронных сетей в искусственном интеллекте . Эта работа привела к работе над нервными сетями и их связью с конечными автоматами . [13]
В начале 1940-х годов Д.О. Хебб [14] создал гипотезу обучения, основанную на механизме нейронной пластичности , которая стала известна как обучение Хебба . Хеббианское обучение – это обучение без присмотра . Это превратилось в модели долгосрочного потенцирования . Исследователи начали применять эти идеи к вычислительным моделям в 1948 году с помощью машин Тьюринга B-типа . Фарли и Кларк [15] (1954) впервые использовали вычислительные машины, называемые тогда «калькуляторами», для моделирования сети Хебба. Другие вычислительные машины с нейронными сетями были созданы Рочестером , Холландом, Хабитом и Дудой (1956). [16]
Розенблатт [1] (1958) создали персептрон — алгоритм распознавания образов. С помощью математических обозначений Розенблатт описал схемы, отсутствующие в базовом перцептроне, такие как схема «исключающее-или» , которая в то время не могла быть обработана нейронными сетями. В 1959 году биологическая модель, предложенная нобелевскими лауреатами Хьюбелем и Визелем, была основана на открытии ими двух типов клеток первичной зрительной коры : простых клеток и сложных клеток . [17]
Некоторые говорят, что исследования застопорились после Мински и Паперта (1969). [18] который обнаружил, что базовые перцептроны неспособны обрабатывать схему «исключающее-или» и что компьютерам не хватает мощности для обработки полезных нейронных сетей. Однако к моменту выхода этой книги уже были известны методы обучения многослойных перцептронов (MLP) методом глубокого обучения . [9]
Первое глубокое обучение
[ редактировать ]Первая MLP глубокого обучения была опубликована Алексеем Григорьевичем Ивахненко и Валентином Лапой в 1965 году как « Групповой метод обработки данных» . [19] [20] [21] Этот метод использует поэтапное послойное обучение на основе регрессионного анализа , при котором ненужные единицы в скрытых слоях отсекаются с помощью набора проверки.
Первый MLP глубокого обучения , обученный методом стохастического градиентного спуска [22] был опубликован в 1967 году Шуничи Амари . [23] [9] В компьютерных экспериментах, проведенных учеником Амари Сайто, пятислойная MLP с двумя изменяемыми слоями изучила полезные внутренние представления для классификации классов нелинейно разделимых шаблонов. [9]
Обратное распространение ошибки
[ редактировать ]Алгоритм обратного распространения ошибки представляет собой эффективное применение Лейбница цепного правила (1673 г.). [24] к сетям дифференцируемых узлов. [9] Он также известен как обратный режим автоматического дифференцирования или обратного накопления , предложенный Сеппо Линнаинмаа (1970). [25] [26] [27] [28] [9] Термин «ошибки обратного распространения» был введен в 1962 году Фрэнком Розенблаттом . [29] [9] но у него не было реализации этой процедуры, хотя у Генри Дж. Келли был непрерывный предшественник обратного распространения ошибки [30] уже в 1960 году в контексте теории управления . [9] В 1982 году Пол Вербос применил обратное распространение ошибки к MLP способом, который стал стандартным. [31] В 1986 году Дэвид Э. Румельхарт и др. опубликовал экспериментальный анализ метода. [32]
Рекуррентные сетевые архитектуры
[ редактировать ]Вильгельм Ленц и Эрнст Изинг создали и проанализировали модель Изинга (1925 г.). [33] которая по сути представляет собой необучающуюся искусственную рекуррентную нейронную сеть (RNN), состоящую из нейроноподобных пороговых элементов. [9] В 1972 году Шуничи Амари сделал эту архитектуру адаптивной. [34] [9] Его изучение RNN было популяризировано Джоном Хопфилдом в 1982 году. [35]
Самоорганизующиеся карты
[ редактировать ]Самоорганизующиеся карты (СОМ) были описаны Теуво Кохоненом в 1982 году. [36] [37] СОМ основаны на нейрофизиологии [38] искусственные нейронные сети , которые изучают низкоразмерные представления многомерных данных, сохраняя при этом топологическую структуру данных. Они обучаются с использованием конкурсного обучения .
СОМ создают внутренние представления, напоминающие кортикальный гомункулус . [39] искаженное представление человеческого тела , основанное на неврологической «карте» областей и пропорций человеческого мозга, предназначенных для обработки сенсорных функций , для различных частей тела.
Сверточные нейронные сети (CNN)
[ редактировать ]Истоком архитектуры CNN является « неокогнитрон ». [40] введен Кунихико Фукусимой в 1980 году. [41] [42] Он был вдохновлен работой Хьюбела и Визеля в 1950-х и 1960-х годах, которые показали, что зрительная кора кошки содержит нейроны, которые индивидуально реагируют на небольшие области зрительного поля .Неокогнитрон представил два основных типа слоев в CNN: сверточные слои и слои понижающей дискретизации. Сверточный слой содержит блоки, рецептивные поля которых покрывают участок предыдущего слоя. Весовой вектор (набор адаптивных параметров) такого блока часто называют фильтром. Юниты могут использовать общие фильтры. Слои понижающей дискретизации содержат блоки, рецептивные поля которых покрывают участки предыдущих сверточных слоев. Такой модуль обычно вычисляет среднее количество активаций модулей в своем патче. Такое понижение разрешения помогает правильно классифицировать объекты в визуальных сценах, даже если объекты сдвинуты.
В 1969 году Кунихико Фукусима также представил ReLU (выпрямленная линейная единица) функцию активации . [43] [9] Выпрямитель стал самой популярной функцией активации для CNN и глубоких нейронных сетей в целом. [44]
Нейронная сеть с временной задержкой (TDNN) была представлена в 1987 году Алексом Вайбелем и была одной из первых CNN, поскольку она достигла инвариантности к сдвигу. [45] Это было достигнуто за счет использования распределения веса в сочетании с тренировкой обратного распространения ошибки . [46] Таким образом, хотя он также использует пирамидальную структуру, как в неокогнитроне, он выполняет глобальную оптимизацию весов вместо локальной. [45]
В 1988 году Вэй Чжан и др. прикладное обратное распространение ошибки в CNN (упрощенный неокогнитрон со сверточными взаимосвязями между слоями признаков изображения и последним полностью связным слоем) для распознавания алфавита. Они также предложили реализацию CNN с оптической вычислительной системой. [47] [48]
В 1989 году Ян ЛеКун и др. обучил CNN распознаванию рукописных почтовых индексов в почте. Пока алгоритм работал, обучение заняло 3 дня. [49] Обучение было полностью автоматическим, работало лучше, чем ручное проектирование коэффициентов, и подходило для более широкого спектра задач распознавания изображений и типов изображений.Впоследствии Вэй Чжан и др. модифицировали свою модель, удалив последний полностью связанный слой, и применили ее для сегментации объектов медицинских изображений в 1991 году. [50] и обнаружение рака молочной железы с помощью маммографии в 1994 году. [51]
В 1990 году Ямагути и др. представил max-pooling, фиксированную операцию фильтрации, которая вычисляет и распространяет максимальное значение данного региона. Они объединили TDNN с максимальным объединением, чтобы реализовать независимую от говорящего систему распознавания изолированных слов. [52] В варианте неокогнитрона, называемом кресцептроном, вместо использования пространственного усреднения Фукусимы Дж. Венг и др. также используется max-pooling, при котором модуль понижающей дискретизации вычисляет максимум активаций модулей в своем патче. [53] [54] [55] [56] Макс-пулинг часто используется в современных CNN. [57]
LeNet-5, 7-уровневая CNN, созданная Яном ЛеКуном и др. в 1998 году, [58] который классифицирует цифры, был применен несколькими банками для распознавания рукописных чисел на чеках ( британский английский : чеки ), оцифрованных в изображениях размером 32x32 пикселя. Возможность обработки изображений с более высоким разрешением требует все большего количества слоев CNN, поэтому этот метод ограничен доступностью вычислительных ресурсов.
В 2010 году обучение обратному распространению ошибки с помощью максимального пула было ускорено с помощью графических процессоров и оказалось, что оно работает лучше, чем другие варианты пула. [59] Бенке (2003) полагался только на знак градиента ( Rprop ). [60] по таким проблемам, как реконструкция изображения и локализация лица. Rprop — это первого порядка, оптимизации алгоритм созданный Мартином Ридмиллером и Генрихом Брауном в 1992 году. [61]
В 2011 году глубокая CNN на базе графического процессора под названием «DanNet», созданная Дэном Чиресаном, Ули Мейером и Юргеном Шмидхубером , впервые достигла конкурентоспособных результатов в соревнованиях по компьютерному зрению. [62] Впоследствии аналогичный CNN на базе графического процессора, созданный Алексом Крижевским , Ильей Суцкевером и Джеффри Хинтоном , выиграл конкурс ImageNet Large Scale Visual Recognition Challenge 2012. [63] Очень глубокая CNN с более чем 100 слоями, созданная Каймином Хэ, Сянъюем Чжаном, Шаоцином Реном и Цзянь Суном из Microsoft , выиграла конкурс ImageNet 2015. [64]
ИНС смогли гарантировать инвариантность сдвига при работе с маленькими и большими природными объектами в больших загроможденных сценах только тогда, когда инвариантность выходила за пределы сдвига, ко всем изученным с помощью ИНС понятиям, таким как местоположение, тип (метка класса объекта), масштаб, освещение и другие. . Это было реализовано в сетях развития (DN). [65] воплощением которых являются сети «Где-что», WWN-1 (2008) [66] через WWN-7 (2013). [67]
Искусственное любопытство и генеративно-состязательные сети
[ редактировать ]В 1991 году Юрген Шмидхубер опубликовал состязательные нейронные сети , которые соревнуются друг с другом в форме игры с нулевой суммой , где выигрыш одной сети является проигрышем другой сети. [68] [69] [70] Первая сеть представляет собой генеративную модель , которая моделирует распределение вероятностей по шаблонам выходных данных. Вторая сеть учится с помощью градиентного спуска предсказывать реакцию окружающей среды на эти закономерности. Это называлось «искусственным любопытством». Более ранние системы состязательного машинного обучения «не включали неконтролируемые нейронные сети, не занимались моделированием данных и не использовали градиентный спуск». [70]
В 2014 году этот принцип состязательности был использован в генеративно-состязательной сети (GAN) Яном Гудфеллоу и др. [71] Здесь реакция окружающей среды равна 1 или 0 в зависимости от того, входит ли выход первой сети в данный набор. Это можно использовать для создания реалистичных дипфейков . [72]
В 1992 году Шмидхубер также опубликовал другой тип состязательных нейронных сетей на основе градиента, в которых цель игры с нулевой суммой — создать распутанные представления входных шаблонов. Это называлось минимизацией предсказуемости. [73] [74]
Nvidia от StyleGAN (2018) [75] основан на Progressive GAN Теро Карраса, Тимо Айла, Самули Лайне и Яакко Лехтинена. [76] Здесь генератор GAN растет от малого к большому по пирамидальной схеме. StyleGAN улучшают согласованность между мелкими и грубыми деталями в сети генератора.
Трансформаторы и их варианты.
[ редактировать ]Многие современные модели большого языка, такие как ChatGPT , GPT-4 и BERT, используют нейронную сеть прямого распространения под названием Transformer, разработанную Ашишем Васвани и др. ал. в своей статье 2017 года «Внимание — это все, что вам нужно». [77] Трансформаторы все чаще становятся предпочтительной моделью для решения задач обработки естественного языка . [78] замена рекуррентных нейронных сетей (RNN), таких как длинная кратковременная память (LSTM). [79]
Основные идеи для этого уходят далеко в прошлое: в 1992 году Юрген Шмидхубер опубликовал Трансформатор с «линеаризованным самовниманием» (за исключением оператора нормализации), [80] который еще называют «линейным трансформатором». [81] [82] [9] Он рекламировал это как «альтернативу RNN». [80] которые могут научиться «внутренним источникам внимания», [83] и экспериментально применил его к проблемам связывания переменных. [80] Здесь медленная нейронная сеть прямого распространения учится путем градиентного спуска управлять быстрыми весами другой нейронной сети через внешние продукты самогенерируемых шаблонов активации, называемых «ОТ» и «ДО», которые в терминологии Transformer называются «ключом» и «значением» для « самообслуживание ». [82] Это быстрое «отображение внимания» применяется к запросам. Трансформер 2017 года [77] объединяет это с оператором softmax и матрицей проекции. [9]
Глубокое обучение с предварительным обучением без присмотра или с самоконтролем
[ редактировать ]В 1980-х годах обратное распространение ошибки не очень хорошо работало для глубоких FNN и RNN. Здесь слово «глубокий» относится к количеству слоев, посредством которых преобразуются данные. Точнее, системы глубокого обучения имеют значительную глубину пути присвоения кредитов (CAP). [84] CAP — это цепочка преобразований от входа к выходу. CAP описывают потенциально причинно-следственные связи между входом и выходом. Для FNN глубина CAP равна глубине сети и равна количеству скрытых слоев плюс один (поскольку выходной уровень также параметризуется). Для RNN, в которых сигнал может распространяться через слой более одного раза, глубина CAP потенциально не ограничена.
Чтобы преодолеть эту проблему, Юрген Шмидхубер (1992) предложил самоконтролируемую иерархию RNN, предварительно обученных по одному уровню за раз с помощью самоконтролируемого обучения . [85] Этот «компрессор нейронной истории» использует прогнозирующее кодирование для изучения внутренних представлений в нескольких самоорганизующихся временных масштабах. [9] Глубокая архитектура может использоваться для воспроизведения исходных данных из активаций функций верхнего уровня. [85] Иерархия RNN может быть «свернута» в единую RNN путем «перегонки» сети «блокировщиков» более высокого уровня в сеть «автоматизатора» более низкого уровня. [85] [9] В 1993 году чанкёр решил задачу глубокого обучения, глубина CAP которой превысила 1000. [86] Такие компрессоры истории могут существенно облегчить дальнейшее контролируемое глубокое обучение. [9]
Джеффри Хинтон и др. высокого уровня (2006) предложили изучить внутреннее представление с использованием последовательных слоев двоичных или вещественнозначных скрытых переменных с помощью ограниченной машины Больцмана. [87] моделировать каждый слой. Этот RBM представляет собой генеративную стохастическую нейронную сеть прямого распространения , которая может изучать распределение вероятностей по набору входных данных. После изучения достаточного количества слоев глубокую архитектуру можно использовать в качестве генеративной модели путем воспроизведения данных при выборке модели («предковый проход») из активаций функций верхнего уровня. [88] [89] В 2012 году Эндрю Нг и Джефф Дин создали FNN, которая научилась распознавать концепции более высокого уровня, такие как кошки, только при просмотре немаркированных изображений, взятых из видеороликов на YouTube . [90]
Проблема исчезающего градиента и ее решения
[ редактировать ]Зеппа Хохрайтера (1991). Дипломная работа [91] был назван «одним из самых важных документов в истории машинного обучения» его руководителем Юргеном Шмидхубером . [9] Хохрайтер не только протестировал компрессор нейронной истории, [85] но также выявил и проанализировал проблему исчезающего градиента . [91] [92] Для решения этой проблемы он предложил рекуррентные остаточные связи. Это привело к появлению метода глубокого обучения под названием «длинная кратковременная память» (LSTM), опубликованного в 1997 году. [93] LSTM Рекуррентные нейронные сети могут изучать задачи «очень глубокого обучения» [84] с длинными путями присвоения кредитов, требующими воспоминаний о событиях, произошедших за тысячи дискретных шагов времени до этого. «Ванильный LSTM» с затвором забывания был представлен в 1999 году Феликсом Герсом , Шмидхубером и Фредом Камминсом. [94] LSTM стала самой цитируемой нейронной сетью 20 века. [9]
В 2015 году Рупеш Кумар Шривастава, Клаус Грефф и Шмидхубер использовали LSTM принципы для создания сети Highway — нейронной сети прямого распространения с сотнями слоев, гораздо более глубокой, чем предыдущие сети. [95] [96] 7 месяцев спустя Каймин Хэ, Сянъюй Чжан; с открытыми воротами или без ворот сети шоссе Шаоцин Рен и Цзянь Сунь выиграли конкурс ImageNet 2015, предложив вариант под названием Остаточная нейронная сеть . [97] Это самая цитируемая нейронная сеть 21 века. [9]
В 2011 году Ксавье Глоро, Антуан Бордес и Йошуа Бенджио обнаружили, что ReLU [43] Кунихико Фукусима также помогает преодолеть проблему исчезновения градиента, [98] по сравнению с широко используемыми функциями активации до 2011 года.
Аппаратные конструкции
[ редактировать ]Разработка металл-оксид-полупроводник (МОП) сверхкрупномасштабной интеграции (СБИС), объединяющая миллионы или миллиарды на МОП-транзисторов одном чипе в форме дополнительной МОП -технологии (КМОП), позволила разработать практические искусственные нейронные сети. сети в 1980-е годы. [99]
Вычислительные устройства были созданы на КМОП как для биофизического моделирования, так и для нейроморфных вычислений, вдохновленные структурой и функциями человеческого мозга. Наноустройства [100] для очень крупных масштабов основных компонентов анализ и свертка могут создать новый класс нейронных вычислений, поскольку они по своей сути являются аналоговыми , а не цифровыми (хотя в первых реализациях могут использоваться цифровые устройства). [101] Чиресан и коллеги (2010) [102] показали, что, несмотря на исчезновение проблемы градиента, графические процессоры делают возможным обратное распространение ошибки для многослойных нейронных сетей с прямой связью.
Конкурсы
[ редактировать ]В период с 2009 по 2012 год рекуррентные нейронные сети и нейронные сети глубокого прямого распространения, разработанные исследовательской группой Шмидхубера , выиграли восемь международных конкурсов в области распознавания образов и машинного обучения . [103] [104] Например, двунаправленная и многомерная длинная кратковременная память (LSTM). [105] [106] [107] [108] Грейвса и др . выиграл три конкурса по связанному распознаванию рукописного ввода на Международной конференции по анализу и распознаванию документов (ICDAR) 2009 года, не имея каких-либо предварительных знаний о трех языках, которые предстоит изучить. [107] [106]
Чиресан и его коллеги выиграли конкурсы по распознаванию образов , в том числе конкурс IJCNN по распознаванию дорожных знаков 2011 года. [109] конкурс ISBI 2012 «Сегментация нейрональных структур в стеках электронной микроскопии» [110] и другие. Их нейронные сети были первыми распознавателями образов, добившимися производительности, сравнимой с человеческими/сверхчеловеческими. [62] на таких тестах, как распознавание дорожных знаков (IJCNN 2012) или проблема рукописных цифр MNIST .
Исследователи продемонстрировали (2010), что глубокие нейронные сети, взаимодействующие со скрытой марковской моделью с контекстно-зависимыми состояниями, которые определяют выходной слой нейронной сети, могут значительно уменьшить количество ошибок в задачах распознавания речи с большим словарным запасом , таких как голосовой поиск. [ нужна ссылка ]
Реализации на базе графического процессора [111] этот подход выиграл множество конкурсов по распознаванию образов, в том числе конкурс IJCNN 2011 по распознаванию дорожных знаков, [109] ISBI 2012 Сегментация нейрональных структур в задачах ЭМ-стеков, [110] конкурс ImageNet [63] и другие.
Глубокие, сильно нелинейные нейронные архитектуры, похожие на неокогнитрон. [112] и «стандартная архитектура видения», [113] вдохновленные простыми и сложными клетками , были предварительно обучены Хинтоном с помощью неконтролируемых методов. [89] [88] Команда из его лаборатории выиграла в 2012 году конкурс, спонсируемый компанией Merck, на разработку программного обеспечения, помогающего находить молекулы, которые могли бы идентифицировать новые лекарства. [114]
Примечания
[ редактировать ]- ^ Нейроны генерируют потенциал действия — высвобождение нейротрансмиттеров, которые являются химическими входами для других нейронов, — на основе суммы входящих химических входов.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Розенблатт, Ф. (1958). «Персептрон: вероятностная модель хранения и организации информации в мозге». Психологический обзор . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . дои : 10.1037/h0042519 . ПМИД 13602029 . S2CID 12781225 .
- ^ Кревье, Дэниел (1993). ИИ: бурные поиски искусственного интеллекта . Нью-Йорк, штат Нью-Йорк: BasicBooks. ISBN 0-465-02997-3 .
- ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN 0001-0782 . S2CID 195908774 .
- ^ Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир» . Кварц .
- ^ Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
- ^ Мэнсфилд Мерриман, «Список работ, касающихся метода наименьших квадратов»
- ^ Стиглер, Стивен М. (1981). «Гаусс и изобретение метода наименьших квадратов» . Энн. Стат . 9 (3): 465–474. дои : 10.1214/aos/1176345451 .
- ^ Бретшер, Отто (1995). Линейная алгебра с приложениями (3-е изд.). Река Аппер-Седл, Нью-Джерси: Прентис-Холл.
- ^ Jump up to: а б с д и ж г час я дж к л м н тот п д р с Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [ cs.NE ].
- ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж: Гарвард. ISBN 0-674-40340-1 .
- ^ Маккалок, Уоррен; Уолтер Питтс (1943). «Логическое исчисление идей, имманентных нервной деятельности». Вестник математической биофизики . 5 (4): 115–133. дои : 10.1007/BF02478259 .
- ^ Клини, Южная Каролина (1956). «Представление событий в нервных сетях и конечных автоматах» . Анналы математических исследований . № 34. Издательство Принстонского университета. стр. 3–41 . Проверено 17 июня 2017 г.
- ^ Клини, Южная Каролина (1956). «Представление событий в нервных сетях и конечных автоматах» . Анналы математических исследований . № 34. Издательство Принстонского университета. стр. 3–41 . Проверено 17 июня 2017 г.
- ^ Хебб, Дональд (1949). Организация поведения . Нью-Йорк: Уайли. ISBN 978-1-135-63190-1 .
- ^ Фарли, Б.Г.; В.А. Кларк (1954). «Моделирование самоорганизующихся систем с помощью цифрового компьютера». IRE Транзакции по теории информации . 4 (4): 76–84. дои : 10.1109/TIT.1954.1057468 .
- ^ Рочестер, Н.; Дж. Х. Холланд; ЛГ Привычка; В. Л. Дуда (1956). «Испытания теории сборки клеток действия мозга с использованием большого цифрового компьютера». IRE Транзакции по теории информации . 2 (3): 80–93. дои : 10.1109/TIT.1956.1056810 .
- ^ Дэвид Х. Хьюбель и Торстен Н. Визель (2005). Мозг и зрительное восприятие: история 25-летнего сотрудничества . Издательство Оксфордского университета, США. п. 106. ИСБН 978-0-19-517618-6 .
- ^ Мински, Марвин; Паперт, Сеймур (1969). Перцептроны: введение в вычислительную геометрию . МТИ Пресс. ISBN 978-0-262-63022-1 .
- ^ Шмидхубер, Дж. (2015). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . дои : 10.1016/j.neunet.2014.09.003 . ПМИД 25462637 . S2CID 11715509 .
- ^ Ивахненко, А.Г. (1973). Кибернетические предсказывающие устройства . Информационная корпорация CCM.
- ^ Ивахненко А.Г.; Григорьевич Лапа, Валентин (1967). Кибернетика и методы прогнозирования . Американский паб Elsevier. Ко.
- ^ Роббинс, Х .; Монро, С. (1951). «Метод стохастической аппроксимации» . Анналы математической статистики . 22 (3): 400. дои : 10.1214/aoms/1177729586 .
- ^ Амари, Шуничи (1967). «Теория адаптивного классификатора шаблонов». IEEE-транзакции . ЕС (16): 279–307.
- ^ Лейбниц, Готфрид Вильгельм Фрайгер фон (1920). Ранние математические рукописи Лейбница: перевод с латинских текстов, опубликованных Карлом Иммануэлем Герхардтом с критическими и историческими примечаниями (Лейбниц опубликовал цепное правило в мемуарах 1676 года) . Издательство «Открытый суд». ISBN 9780598818461 .
- ^ Линнаинмаа, Сеппо (1970). Представление совокупной ошибки округления алгоритма в виде разложения Тейлора локальных ошибок округления (Мастерс) (на финском языке). Университет Хельсинки. стр. 6–7.
- ^ Линнаинмаа, Сеппо (1976). «Разложение Тейлора накопленной ошибки округления». БИТ Численная математика . 16 (2): 146–160. дои : 10.1007/bf01931367 . S2CID 122357351 .
- ^ Гриванк, Андреас (2012). «Кто изобрел обратный способ дифференциации?». Истории оптимизации . Documenta Matematica, Дополнительный том ISMP. стр. 389–400. S2CID 15568746 .
- ^ Гриванк, Андреас; Вальтер, Андреа (2008). Оценка производных: принципы и методы алгоритмического дифференцирования, второе издание . СИАМ. ISBN 978-0-89871-776-1 .
- ^ Розенблатт, Франк (1962). Принципы нейродинамики . Спартан, Нью-Йорк.
- ^ Келли, Генри Дж. (1960). «Градиентная теория оптимальных траекторий полета». Журнал АРС . 30 (10): 947–954. дои : 10.2514/8.5282 .
- ^ Вербос, Пол (1982). «Применение достижений нелинейного анализа чувствительности» (PDF) . Системное моделирование и оптимизация . Спрингер. стр. 762–770. Архивировано (PDF) из оригинала 14 апреля 2016 года . Проверено 2 июля 2017 г.
- ^ Румельхарт, Дэвид Э., Джеффри Э. Хинтон и Р. Дж. Уильямс. « Изучение внутренних представлений путем распространения ошибок. Архивировано 13 октября 2022 г. в Wayback Machine ». Дэвид Э. Румельхарт, Джеймс Л. Макклелланд и исследовательская группа НДП. (редакторы), Параллельная распределенная обработка: Исследования микроструктуры познания, Том 1: Фонд. Массачусетский технологический институт Пресс, 1986.
- ^ Браш, Стивен Г. (1967). «История модели Ленца-Изинга». Обзоры современной физики . 39 (4): 883–893. Бибкод : 1967РвМП...39..883Б . дои : 10.1103/RevModPhys.39.883 .
- ^ Амари, Сюн-Ичи (1972). «Изучение шаблонов и последовательностей шаблонов с помощью самоорганизующихся сетей пороговых элементов». IEEE-транзакции . С (21): 1197–1206.
- ^ Хопфилд, Джей-Джей (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями» . Труды Национальной академии наук . 79 (8): 2554–2558. Бибкод : 1982PNAS...79.2554H . дои : 10.1073/pnas.79.8.2554 . ПМЦ 346238 . ПМИД 6953413 .
- ^ Кохонен, Теуво; Хонкела, Тимо (2007). «Сеть Кохонена» . Схоларпедия . 2 (1): 1568. Бибкод : 2007SchpJ...2.1568K . doi : 10.4249/scholarpedia.1568 .
- ^ Кохонен, Теуво (1982). «Самоорганизованное формирование топологически правильных карт признаков». Биологическая кибернетика . 43 (1): 59–69. дои : 10.1007/bf00337288 . S2CID 206775459 .
- ^ Фон дер Мальсбург, К. (1973). «Самоорганизация ориентационно-чувствительных клеток в полосатой коре». Кибернетик . 14 (2): 85–100. дои : 10.1007/bf00288907 . ПМИД 4786750 . S2CID 3351573 .
- ^ «Гомункул | Значение и определение в британском английском | Lexico.com» . Лексико-словари | Английский . Архивировано из оригинала 18 мая 2021 года . Проверено 6 февраля 2022 г.
- ^ Фукусима, К. (2007). «Неокогнитрон» . Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F . doi : 10.4249/scholarpedia.1717 .
- ^ Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251 . ПМИД 7370364 . S2CID 206775608 . Проверено 16 ноября 2013 г.
- ^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение» (PDF) . Природа . 521 (7553): 436–444. Бибкод : 2015Natur.521..436L . дои : 10.1038/nature14539 . ПМИД 26017442 . S2CID 3074096 .
- ^ Jump up to: а б Фукусима, К. (1969). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225 .
- ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].
- ^ Jump up to: а б Вайбель, Алекс (декабрь 1987 г.). Распознавание фонем с использованием нейронных сетей с задержкой . Заседание Института инженеров по электротехнике, информатике и связи (IEICE). Токио, Япония.
- ^ Александр Вайбель и др., Распознавание фонем с использованием нейронных сетей с задержкой по времени. Транзакции IEEE по акустике, речи и обработке сигналов, том 37, № 3, стр. 328. - 339, март 1989 г.
- ^ Чжан, Вэй (1988). «Сдвиг-инвариантная нейронная сеть распознавания образов и ее оптическая архитектура» . Материалы ежегодной конференции Японского общества прикладной физики .
- ^ Чжан, Вэй (1990). «Модель параллельной распределенной обработки с локальными пространственно-инвариантными соединениями и ее оптическая архитектура» . Прикладная оптика . 29 (32): 4790–7. Бибкод : 1990ApOpt..29.4790Z . дои : 10.1364/AO.29.004790 . ПМИД 20577468 .
- ^ ЛеКун и др. , «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса», Neural Computation , 1, стр. 541–551, 1989.
- ^ Чжан, Вэй (1991). «Обработка изображений эндотелия роговицы человека на основе обучающей сети» . Прикладная оптика . 30 (29): 4211–7. Бибкод : 1991ApOpt..30.4211Z . дои : 10.1364/AO.30.004211 . ПМИД 20706526 .
- ^ Чжан, Вэй (1994). «Компьютерное обнаружение кластерных микрокальцинатов на цифровых маммограммах с использованием инвариантной к сдвигу искусственной нейронной сети» . Медицинская физика . 21 (4): 517–24. Бибкод : 1994MedPh..21..517Z . дои : 10.1118/1.597177 . ПМИД 8058017 .
- ^ Ямагути, Коичи; Сакамото, Кендзи; Акабане, Тосио; Фудзимото, Ёсидзи (ноябрь 1990 г.). Нейронная сеть для независимого от говорящего распознавания изолированных слов . Первая международная конференция по обработке разговорной речи (ICSLP 90). Кобе, Япония. Архивировано из оригинала 07 марта 2021 г. Проверено 4 сентября 2019 г.
- ^ Дж. Венг, Н. Ахуджа и Т. С. Хуанг, « Кресцептрон: самоорганизующаяся нейронная сеть, которая растет адаптивно », Proc. Международная совместная конференция по нейронным сетям , Балтимор, Мэриленд, том I, стр. 576–581, июнь 1992 г.
- ^ Дж. Венг, Н. Ахуджа и Т. С. Хуанг, « Обучение распознаванию и сегментации трехмерных объектов по двумерным изображениям », Proc. 4-я Международная конференция. Computer Vision , Берлин, Германия, стр. 121–128, май 1993 г.
- ^ Дж. Венг, Н. Ахуджа и Т. С. Хуанг, « Обучение распознаванию и сегментации с использованием кресцептрона », Международный журнал компьютерного зрения , том. 25, нет. 2, стр. 105–139, ноябрь 1997 г.
- ^ Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». 1993 (4-я) Международная конференция по компьютерному зрению . стр. 121–128. дои : 10.1109/ICCV.1993.378228 . ISBN 0-8186-3870-2 . S2CID 8619176 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Шмидхубер, Юрген (2015). «Глубокое обучение» . Схоларпедия . 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД 16764513 . S2CID 2309950 .
- ^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791 . S2CID 14542261 . Проверено 7 октября 2016 г.
- ^ Доминик Шерер, Андреас К. Мюллер и Свен Бенке: « Оценка операций объединения в сверточных архитектурах для распознавания объектов », На 20-й Международной конференции по искусственным нейронным сетям (ICANN) , стр. 92–101, 2010 г. дои : 10.1007/978-3-642-15825-4_10 .
- ^ Свен Бенке (2003). Иерархические нейронные сети для интерпретации изображений (PDF) . Конспекты лекций по информатике. Том. 2766. Спрингер.
- ^ Мартин Ридмиллер и Генрих Браун: Rprop - алгоритм быстрого адаптивного обучения. Материалы Международного симпозиума по компьютерным и информационным наукам VII, 1992 г.
- ^ Jump up to: а б Чиресан, Дэн; Мейер, У.; Шмидхубер, Дж. (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . стр. 3642–3649. arXiv : 1202.2745 . Бибкод : 2012arXiv1202.2745C . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/cvpr.2012.6248110 . ISBN 978-1-4673-1228-8 . S2CID 2161592 .
- ^ Jump up to: а б Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . NIPS 2012: Нейронные системы обработки информации, озеро Тахо, Невада .
- ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений» (PDF) . Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1 . S2CID 206594692 .
- ^ Дж. Венг, « Почему мы прошли тест «Нейронные сети плохо абстрагируют»? », Natural Intelligence: the INNS Magazine , vol. 1, № 1, стр. 13–22, 2011.
- ^ З. Цзи, Дж. Венг и Д. Прохоров, « Сеть «Где-что 1: Где и что помогают друг другу посредством нисходящих связей », Proc. 7-я Международная конференция по развитию и обучению (ICDL'08) , Монтерей, Калифорния, 9–12 августа, стр. 1–6, 2008 г.
- ^ X. Ву, Г. Го и Дж. Венг, « Автономное развитие с закрытым черепом: WWN-7, работа с чешуей », Proc. Международная конференция по мозгу и разуму , 27–28 июля, Ист-Лансинг, Мичиган, стр. 1–9, 2013 г.
- ^ Шмидхубер, Юрген (1991). «Возможность реализовать любопытство и скуку в нейронных контроллерах для построения моделей». Учеб. САБ'1991 . MIT Press/Брэдфорд Букс. стр. 222–227.
- ^ Шмидхубер, Юрген (2010). «Формальная теория творчества, веселья и внутренней мотивации (1990–2010)». Транзакции IEEE по автономному умственному развитию . 2 (3): 230–247. дои : 10.1109/TAMD.2010.2056368 . S2CID 234198 .
- ^ Jump up to: а б Шмидхубер, Юрген (2020). «Генераторно-состязательные сети являются особыми случаями искусственного любопытства (1990), а также тесно связаны с минимизацией предсказуемости (1991)». Нейронные сети . 127 : 58–66. arXiv : 1906.04493 . doi : 10.1016/j.neunet.2020.04.008 . ПМИД 32334341 . S2CID 216056336 .
- ^ Гудфеллоу, Ян; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бин; Вард-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенджио, Йошуа (2014). Генеративно-состязательные сети (PDF) . Материалы Международной конференции по нейронным системам обработки информации (NIPS 2014). стр. 2672–2680. Архивировано (PDF) из оригинала 22 ноября 2019 года . Проверено 20 августа 2019 г.
- ^ «Готовьтесь, не паникуйте: синтетические медиа и дипфейки» . свидетель.орг. Архивировано из оригинала 2 декабря 2020 года . Проверено 25 ноября 2020 г.
- ^ Шмидхубер, Юрген (ноябрь 1992 г.). «Изучение факториальных кодов путем минимизации предсказуемости». Нейронные вычисления . 4 (6): 863–879. дои : 10.1162/neco.1992.4.6.863 . S2CID 42023620 .
- ^ Шмидхубер, Юрген; Эльдрахер, Мартин; Фолтин, Бернхард (1996). «Минимизация полулинейной предсказуемости позволяет получить хорошо известные детекторы признаков». Нейронные вычисления . 8 (4): 773–786. дои : 10.1162/neco.1996.8.4.773 . S2CID 16154391 .
- ^ «GAN 2.0: гиперреалистичный генератор лиц NVIDIA» . SyncedReview.com . 14 декабря 2018 года . Проверено 3 октября 2019 г.
- ^ Каррас, Теро; Айла, Тимо; Лайне, Самули; Лехтинен, Яакко (1 октября 2017 г.). «Прогрессивное развитие GAN для улучшения качества, стабильности и разнообразия» . arXiv : 1710.10196 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Jump up to: а б Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н.; Кайзер, Лукаш; Полосухин, Илья (12 июня 2017 г.). «Внимание — это все, что вам нужно». arXiv : 1706.03762 [ cs.CL ].
- ^ Вольф, Томас; Дебют, Лисандра; Сан, Виктор; Шомон, Жюльен; Деланг, Клеман; Мой, Энтони; Систак, Пьеррик; Раулт, Тим; Луф, Реми; Фунтович, Морган; Дэвисон, Джо; Шлейфер, Сэм; фон Платен, Патрик; Ма, Клара; Джернит, Ясин; Плю, Жюльен; Сюй, Канвен; Ле Скао, Тевен; Гуггер, Сильвен; Драма, Мариама; Лоест, Квентин; Раш, Александр (2020). «Трансформеры: современная обработка естественного языка». Материалы конференции 2020 года по эмпирическим методам обработки естественного языка: системные демонстрации . стр. 38–45. doi : 10.18653/v1/2020.emnlp-demos.6 . S2CID 208117506 .
- ^ Хохрайтер, Зепп ; Шмидхубер, Юрген (1 ноября 1997 г.). «Долгая кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ISSN 0899-7667 . ПМИД 9377276 . S2CID 1915014 .
- ^ Jump up to: а б с Шмидхубер, Юрген (1 ноября 1992 г.). «Научимся контролировать быстрые воспоминания: альтернатива повторяющимся сетям». Нейронные вычисления . 4 (1): 131–139. дои : 10.1162/neco.1992.4.1.131 . S2CID 16683347 .
- ^ Хороманский, Кшиштоф; Лихошерстов Валерий; Дохан, Дэвид; Сун, Синю; Гейн, Андреа; Сарлос, Тамас; Хокинс, Питер; Дэвис, Джаред; Мохиуддин, Афроз; Кайзер, Лукаш; Беланджер, Дэвид; Колвелл, Люси; Веллер, Адриан (2020). «Переосмысление внимания с исполнителями». arXiv : 2009.14794 [ cs.CL ].
- ^ Jump up to: а б Шлаг, Иманол ; Ириэ, Кадзуки; Шмидхубер, Юрген (2021). «Линейные трансформаторы — тайно быстрые программисты веса». ICML 2021 . Спрингер. стр. 9355–9366.
- ^ Шмидхубер, Юрген (1993). «Уменьшение соотношения между сложностью обучения и количеством изменяющихся во времени переменных в полностью рекуррентных сетях». ИКАНН, 1993 год . Спрингер. стр. 460–463.
- ^ Jump up to: а б Шмидхубер, Дж. (2015). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . дои : 10.1016/j.neunet.2014.09.003 . ПМИД 25462637 . S2CID 11715509 .
- ^ Jump up to: а б с д Шмидхубер, Юрген (1992). «Изучение сложных, расширенных последовательностей с использованием принципа сжатия истории» (PDF) . Нейронные вычисления . 4 (2): 234–242. дои : 10.1162/neco.1992.4.2.234 . S2CID 18271205 . [ постоянная мертвая ссылка ]
- ^ Шмидхубер, Юрген (1993). Кандидатская диссертация (PDF) . [ постоянная мертвая ссылка ]
- ^ Смоленский, П. (1986). «Обработка информации в динамических системах: основы теории гармонии». . В DE Румельхарте; Дж. Л. Макклелланд; Исследовательская группа НДП (ред.). Параллельная распределенная обработка: исследования микроструктуры познания . Том. 1. стр. 194–281 . ISBN 9780262680530 .
- ^ Jump up to: а б Хинтон, Джорджия ; Осиндеро, С.; Тех, Ю. (2006). «Алгоритм быстрого обучения для сетей глубокого доверия» (PDF) . Нейронные вычисления . 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД 16764513 . S2CID 2309950 .
- ^ Jump up to: а б Хинтон, Джеффри (31 мая 2009 г.). «Сети глубоких убеждений» . Схоларпедия . 4 (5): 5947. Бибкод : 2009SchpJ...4.5947H . doi : 10.4249/scholarpedia.5947 . ISSN 1941-6016 .
- ^ Нг, Эндрю; Дин, Джефф (2012). «Создание функций высокого уровня с использованием крупномасштабного обучения без учителя». arXiv : 1112.6209 [ cs.LG ].
- ^ Jump up to: а б С. Хохрайтер, « Исследования динамических нейронных сетей. Архивировано 6 марта 2015 г. в Wayback Machine », Дипломная работа. Институт компьютерных наук Технического университета Мюнхен. Советник: Дж. Шмидхубер , 1991 г.
- ^ Хохрейтер, С.; и др. (15 января 2001 г.). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей» . В Колене, Джон Ф.; Кремер, Стефан К. (ред.). Полевое руководство по динамическим рекуррентным сетям . Джон Уайли и сыновья. ISBN 978-0-7803-5369-5 .
- ^ Хохрейтер, Зепп; Шмидхубер, Юрген (1 ноября 1997 г.). «Долгая кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ISSN 0899-7667 . ПМИД 9377276 . S2CID 1915014 .
- ^ Герс, Феликс; Шмидхубер, Юрген; Камминс, Фред (1999). «Учимся забывать: постоянное предсказание с помощью LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том. 1999. стр. 850–855. дои : 10.1049/cp:19991218 . ISBN 0-85296-721-7 .
- ^ Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [ cs.LG ].
- ^ Шривастава, Рупеш К; Грефф, Клаус; Шмидхубер, Юрген (2015). «Обучение очень глубоких сетей» . Достижения в области нейронных систем обработки информации . 28 . Curran Associates, Inc.: 2377–2385.
- ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). Глубокое остаточное обучение для распознавания изображений . Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1 .
- ^ Ксавье Глорот; Антуан Борд; Йошуа Бенджио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АЙСТАТС. Архивировано из оригинала (PDF) 13 декабря 2016 г. Проверено 14 апреля 2023 г.
Функции активации выпрямителя и softplus. Второй вариант является более гладкой версией первого.
- ^ Мид, Карвер А .; Исмаил, Мохаммед (8 мая 1989 г.). Аналоговая реализация нейронных систем СБИС (PDF) . Международная серия Kluwer по инженерным наукам и информатике. Том. 80. Норвелл, Массачусетс: Kluwer Academic Publishers . дои : 10.1007/978-1-4613-1639-8 . ISBN 978-1-4613-1639-8 .
- ^ Ян, Джей-Джей; Пикетт, доктор медицины; Ли, XM; Ольберг, DAA; Стюарт, доктор медицинских наук; Уильямс, Р.С. (2008). «Мемристивный механизм переключения для наноустройств металл/оксид/металл». Нат. Нанотехнологии . 3 (7): 429–433. дои : 10.1038/nnano.2008.160 . ПМИД 18654568 .
- ^ Струков, Д.Б.; Снайдер, Г.С.; Стюарт, доктор медицинских наук; Уильямс, Р.С. (2008). «Найден пропавший мемристор». Природа . 453 (7191): 80–83. Бибкод : 2008Natur.453...80S . дои : 10.1038/nature06932 . ПМИД 18451858 . S2CID 4367148 .
- ^ Чирешан, Дэн Клаудиу; Мейер, Ули; Гамбарделла, Лука Мария; Шмидхубер, Юрген (21 сентября 2010 г.). «Глубокие, большие и простые нейронные сети для распознавания рукописных цифр». Нейронные вычисления . 22 (12): 3207–3220. arXiv : 1003.0358 . дои : 10.1162/neco_a_00052 . ISSN 0899-7667 . ПМИД 20858131 . S2CID 1918673 .
- ^ Интервью Kurzweil AI 2012. Архивировано 31 августа 2018 г. в Wayback Machine с Юргеном Шмидхубером о восьми соревнованиях, выигранных его командой глубокого обучения в 2009–2012 гг.
- ^ «Как глубокое обучение на основе биотехнологий продолжает побеждать в соревнованиях | KurzweilAI» . www.kurzweilai.net . Архивировано из оригинала 31 августа 2018 г. Проверено 16 июня 2017 г.
- ^ Грейвс, Алекс; и Шмидхубер, Юрген; Автономное распознавание рукописного текста с помощью многомерных рекуррентных нейронных сетей , в журнале «Достижения в области нейронных систем обработки информации», 22 (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия , Фонд систем нейронной обработки информации (NIPS), 2009, стр. 545–552.
- ^ Jump up to: а б Грейвс, А.; Ливицкий, М.; Фернандес, С.; Бертолами, Р.; Бунке, Х.; Шмидхубер, Дж. (2009). «Новая коннекционистская система для улучшения неограниченного распознавания рукописного текста» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . дои : 10.1109/tpami.2008.137 . ПМИД 19299860 . S2CID 14635907 .
- ^ Jump up to: а б Грейвс, Алекс; Шмидхубер, Юрген (2009). Бенджио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис; Кулотта, Арон (ред.). «Офлайн-распознавание рукописного текста с помощью многомерных рекуррентных нейронных сетей» . Фонд систем нейронной обработки информации (NIPS) . 21 . Curran Associates, Inc: 545–552.
- ^ Грейвс, А.; Ливицкий, М.; Фернандес, С.; Бертолами, Р.; Бунке, Х.; Шмидхубер, Дж. (май 2009 г.). «Новая коннекционистская система для неограниченного распознавания рукописного текста». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . дои : 10.1109/tpami.2008.137 . ISSN 0162-8828 . ПМИД 19299860 . S2CID 14635907 .
- ^ Jump up to: а б Чирешан, Дэн; Мейер, Ули; Маски, Джонатан; Шмидхубер, Юрген (август 2012 г.). «Многостолбцовая глубокая нейронная сеть для классификации дорожных знаков». Нейронные сети . Избранные статьи IJCNN 2011. 32 : 333–338. CiteSeerX 10.1.1.226.8219 . дои : 10.1016/j.neunet.2012.02.023 . ПМИД 22386783 .
- ^ Jump up to: а б Чиресан, Дэн; Джусти, Алессандро; Гамбарделла, Лука М.; Шмидхубер, Юрген (2012). Перейра, Ф.; Берджес, CJC; Ботту, Л.; Вайнбергер, KQ (ред.). Достижения в области нейронных систем обработки информации 25 (PDF) . Curran Associates, Inc., стр. 2843–2851.
- ^ Чиресан, округ Колумбия; Мейер, У.; Маски, Дж.; Гамбарделла, LM; Шмидхубер, Дж. (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Международная совместная конференция по искусственному интеллекту . дои : 10.5591/978-1-57735-516-8/ijcai11-210 .
- ^ Фукусима, К. (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения». Биологическая кибернетика . 36 (4): 93–202. дои : 10.1007/BF00344251 . ПМИД 7370364 . S2CID 206775608 .
- ^ Ризенхубер, М; Поджо, Т. (1999). «Иерархические модели распознавания объектов в коре». Природная неврология . 2 (11): 1019–1025. дои : 10.1038/14819 . ПМИД 10526343 . S2CID 8920227 .
- ^ Маркофф, Джон (23 ноября 2012 г.). «Ученые видят многообещающие перспективы в программах глубокого обучения» . Нью-Йорк Таймс .
Внешние ссылки
[ редактировать ]- «Lecun 11 июля 2019 г. Технический разговор ACM» . Гугл Документы . Проверено 13 февраля 2020 г.