Jump to content

Сверточная нейронная сеть

(Перенаправлено из пула Max )

Сверточная нейронная сеть ( CNN ) — это регуляризованный тип нейронной сети с прямой связью изучает функции , которая самостоятельно посредством оптимизации фильтра (или ядра). Исчезающие и взрывные градиенты, наблюдаемые во время обратного распространения ошибки в более ранних нейронных сетях, предотвращаются за счет использования регуляризованных весов для меньшего количества соединений. [1] [2] Например, для каждого нейрона полносвязного слоя потребуется 10 000 весов для обработки изображения размером 100 × 100 пикселей. Однако, применяя ядра каскадной свертки (или взаимной корреляции), [3] [4] для обработки плиток размером 5x5 требуется всего 25 нейронов. [5] [6] Функции более высокого уровня извлекаются из более широких контекстных окон по сравнению с функциями более низкого уровня.

У них есть приложения:

CNN также известны как инвариантные к сдвигу или пространственно-инвариантные искусственные нейронные сети ( SIANN ), основанные на архитектуре с общим весом ядер или фильтров свертки , которые скользят вдоль входных признаков и обеспечивают трансляционно- эквивариантные ответы, известные как карты признаков. [12] [13] Как ни странно, большинство сверточных нейронных сетей не инвариантны к трансляции из-за операции понижения дискретизации, которую они применяют к входным данным. [14]

Нейронные сети прямого распространения обычно представляют собой полносвязные сети, то есть каждый нейрон в одном слое связан со всеми нейронами в следующем слое . «Полная связность» этих сетей делает их склонными к переобучению данных. Типичные способы регуляризации или предотвращения переобучения включают в себя: наложение штрафов на параметры во время обучения (например, снижение веса) или обрезку связности (пропущенные соединения, выпадение и т. д.). Надежные наборы данных также увеличивают вероятность того, что CNN изучат обобщенные принципы, которые характеризуют заданный набор данных, а не предвзятость плохо заполненного набора. [15]

Сверточные сети были вдохновлены биологическими . процессами [16] [17] [18] [19] в том, что структура связей между нейронами напоминает организацию зрительной коры животных . Отдельные кортикальные нейроны реагируют на стимулы только в ограниченной области поля зрения, известной как рецептивное поле . Рецептивные поля разных нейронов частично перекрываются и охватывают все поле зрения.

CNN используют относительно небольшую предварительную обработку по сравнению с другими алгоритмами классификации изображений . Это означает, что сеть учится оптимизировать фильтры (или ядра) посредством автоматического обучения, тогда как в традиционных алгоритмах эти фильтры разрабатываются вручную . Эта независимость от предварительных знаний и вмешательства человека в извлечение признаков является основным преимуществом. [ кому? ]

Архитектура

[ редактировать ]
Сравнение свертки LeNet и AlexNet , объединения и плотных слоев
(Размер изображения AlexNet должен быть 227×227×3, а не 224×224×3, чтобы математические расчеты были верными. В исходной статье были указаны другие цифры, но Андрей Карпати, руководитель отдела компьютерного зрения в Tesla, сказал, что так и должно быть. быть 227×227×3 (он сказал, что Алекс не объяснил, почему он поставил 224×224×3. Следующая свертка должна быть 11×11 с шагом 4: 55×55×96 (вместо 54×54×96). Оно будет рассчитываться, например, как: [(входная ширина 227 - ширина ядра 11) / шаг 4] + 1 = [(227 - 11) / 4] + 1 = 55. Поскольку выходные данные ядра имеют ту же длину, что и ширина, его площадь 55×55.)

Сверточная нейронная сеть состоит из входного слоя, скрытых слоев и выходного слоя. В сверточной нейронной сети скрытые слои включают один или несколько слоев, выполняющих свертки. Обычно это включает в себя слой, который выполняет скалярное произведение ядра свертки с входной матрицей слоя. Этот продукт обычно является внутренним продуктом Фробениуса , а его функция активации обычно ReLU . Когда ядро ​​свертки скользит по входной матрице слоя, операция свертки генерирует карту объектов, которая, в свою очередь, вносит вклад во входные данные следующего слоя. За этим следуют другие уровни, такие как слои пула, полностью связанные слои и слои нормализации.Здесь следует отметить, насколько близка сверточная нейронная сеть к согласованному фильтру . [20]

Сверточные слои

[ редактировать ]

В CNN входные данные представляют собой тензор формы:

(количество входов) × (высота входа) × (ширина входа) × (входные каналы )

После прохождения сверточного слоя изображение абстрагируется на карту объектов, также называемую картой активации, с формой:

карты функций (количество входов) × (высота карты объектов) × (ширина карты объектов) × ( каналы ).

Сверточные слои свертывают входные данные и передают результат на следующий слой. Это похоже на реакцию нейрона зрительной коры на определенный стимул. [21] Каждый сверточный нейрон обрабатывает данные только для своего рецептивного поля .

Пример одномерной сверточной нейронной сети с прямой связью

Хотя полностью связанные нейронные сети прямого распространения могут использоваться для изучения функций и классификации данных, эта архитектура, как правило, непрактична для больших входных данных (например, изображений с высоким разрешением), для которых потребуется огромное количество нейронов, поскольку каждый пиксель является значимым входным признаком. Полносвязный слой для изображения размером 100×100 имеет 10 000 весов для каждого нейрона второго слоя. Свертка уменьшает количество свободных параметров, позволяя сделать сеть более глубокой. [5] Например, для использования области мозаики 5 × 5, каждая из которых имеет одинаковый общий вес, требуется всего 25 нейронов. Использование регуляризованных весов с меньшим количеством параметров позволяет избежать проблем с исчезновением и взрывом градиентов, которые наблюдались во время обратного распространения ошибки в более ранних нейронных сетях. [1] [2]

Для ускорения обработки стандартные сверточные слои можно заменить сверточными слоями, разделяемыми по глубине. [22] которые основаны на глубинной свертке, за которой следует точечная свертка. Глубинная свертка — это пространственная свертка, применяемая независимо к каждому каналу входного тензора, тогда как точечная свертка — это стандартная свертка, ограниченная использованием ядра.

Объединение слоев

[ редактировать ]

Сверточные сети могут включать в себя локальные и/или глобальные уровни пула наряду с традиционными сверточными уровнями. Слои объединения уменьшают размеры данных за счет объединения выходных данных кластеров нейронов одного слоя в один нейрон следующего слоя. Локальный пул объединяет небольшие кластеры, обычно используются тайлы размером 2 × 2. Глобальное объединение действует на все нейроны карты объектов. [23] [24] Существует два распространенных типа объединения: максимальное и среднее. При максимальном пуле используется максимальное значение каждого локального кластера нейронов на карте объектов. [25] [26] в то время как средний пул принимает среднее значение.

Полностью связанные слои

[ редактировать ]

Полностью связанные слои соединяют каждый нейрон одного слоя с каждым нейроном другого слоя. Это то же самое, что и традиционная многослойная нейронная сеть перцептрона (MLP). Сплющенная матрица проходит через полностью связный слой для классификации изображений.

Рецептивное поле

[ редактировать ]

В нейронных сетях каждый нейрон получает входные данные из некоторого количества мест предыдущего слоя. нейрона В сверточном слое каждый нейрон получает входные данные только из ограниченной области предыдущего слоя, называемой рецептивным полем . Обычно область представляет собой квадрат (например, 5 на 5 нейронов). Тогда как в полносвязном слое рецептивное поле — это весь предыдущий слой . Таким образом, в каждом сверточном слое каждый нейрон получает входные данные из большей области входных данных, чем предыдущие слои. Это происходит из-за многократного применения свертки, которая учитывает значение пикселя, а также окружающих его пикселей. При использовании расширенных слоев количество пикселей в рецептивном поле остается постоянным, однако поле становится более разреженным, поскольку его размеры растут при объединении эффекта нескольких слоев.

Чтобы манипулировать размером рецептивного поля по желанию, существует несколько альтернатив стандартному сверточному слою. Например, атральная или расширенная извилина. [27] [28] расширяет размер рецептивного поля без увеличения количества параметров за счет чередования видимых и слепых областей. Более того, один расширенный сверточный слой может содержать фильтры с несколькими коэффициентами расширения. [29] таким образом, имея переменный размер рецептивного поля.

Каждый нейрон в нейронной сети вычисляет выходное значение, применяя определенную функцию к входным значениям, полученным из рецептивного поля на предыдущем слое. Функция, которая применяется к входным значениям, определяется вектором весов и смещением (обычно действительными числами). Обучение состоит из итеративной корректировки этих предубеждений и весов.

Векторы весов и смещений называются фильтрами и представляют собой определенные характеристики входных данных (например, определенную форму). Отличительной особенностью CNN является то, что многие нейроны могут использовать один и тот же фильтр. Это уменьшает объем памяти , поскольку для всех рецептивных полей, которые используют этот фильтр, используется одно смещение и один вектор весов, в отличие от того, что каждое рецептивное поле имеет свое собственное смещение и векторное взвешивание. [30]

CNN часто сравнивают с тем, как мозг обрабатывает зрение в живых организмах . [31]

Рецептивные поля зрительной коры

[ редактировать ]

Работа Хьюбела и Визеля в 1950-х и 1960-х годах показала, что зрительная кора кошки содержит нейроны, которые индивидуально реагируют на небольшие области зрительного поля . При условии, что глаза неподвижны, область зрительного пространства, в которой зрительные стимулы влияют на срабатывание одного нейрона, называется его рецептивным полем . [32] Соседние клетки имеют схожие и перекрывающиеся рецептивные поля. Размер и расположение рецептивного поля систематически варьируются по всей коре, образуя полную карту зрительного пространства. [ нужна ссылка ] Кора в каждом полушарии представляет контралатеральное поле зрения . [ нужна ссылка ]

Их статья 1968 года определила два основных типа зрительных клеток в мозге: [17]

  • простые клетки , выходная мощность которых максимизируется за счет прямых краев, имеющих определенную ориентацию внутри их рецептивного поля.
  • сложные клетки , которые имеют более крупные рецептивные поля , выходные данные которых нечувствительны к точному положению краев поля.

Хьюбел и Визель также предложили каскадную модель этих двух типов клеток для использования в задачах распознавания образов. [33] [32]

Неокогнитрон, происхождение архитектуры CNN

[ редактировать ]

« Неокогнитрон » [16] был введен Кунихико Фукусимой в 1980 году. [18] [26] [34] Он был вдохновлен вышеупомянутой работой Хубела и Визеля. Неокогнитрон представил два основных типа слоев:

  • «S-уровень»: слой рецептивных полей с общими весами, позже известный как сверточный уровень, который содержит блоки, рецептивные поля которых покрывают участок предыдущего слоя. Группу рецептивных полей с общими весами («плоскость» в терминологии неокогнитрона) часто называют фильтром, и слой обычно имеет несколько таких фильтров.
  • «С-слой»: слой понижающей дискретизации, содержащий блоки, рецептивные поля которых покрывают участки предыдущих сверточных слоев. Такой блок обычно вычисляет средневзвешенное значение активаций блоков в своем патче и применяет ингибирование (разделяющую нормализацию), собранное из несколько большего патча и по различным фильтрам в слое, а также применяет насыщающую функцию активации. Веса патчей неотрицательны и не поддаются обучению в оригинальном неокогнитроне. Понижение дискретизации и конкурентное подавление помогают классифицировать особенности и объекты в визуальных сценах, даже если объекты сдвинуты.

В 1969 году на Фукусиме была введена ReLU (выпрямленная линейная единица) функция активации . [35] [36] В его неокогнитроне он не использовался, поскольку все веса были неотрицательными; Вместо этого использовалось боковое торможение. Выпрямитель стал самой популярной функцией активации для CNN и глубоких нейронных сетей в целом. [37]

В варианте неокогнитрона, называемом кресцептроном, вместо использования пространственного усреднения Фукусимы с торможением и насыщением J. Weng et al. в 1993 году был представлен метод под названием max-pooling, при котором модуль понижающей дискретизации вычисляет максимальное количество активаций модулей в своем патче. [38] Макс-пулинг часто используется в современных CNN. [39]

несколько с учителем и без него. алгоритмов обучения На протяжении десятилетий для тренировки весов неокогнитрона было предложено [16] Однако сегодня архитектура CNN обычно обучается посредством обратного распространения ошибки .

Неокогнитрон . — это первая ИНС, которая требует, чтобы единицы, расположенные в нескольких позициях сети, имели общий вес, что является отличительной чертой СНС

Свертка во времени

[ редактировать ]

Термин «свертка» впервые появляется в нейронных сетях в статье Тошитеру Хоммы, Леса Атласа и Роберта Маркса II на первой конференции по нейронным системам обработки информации в 1987 году. Их статья заменила умножение сверткой во времени, что по своей сути обеспечивает инвариантность к сдвигу. мотивирован и более непосредственно связан с концепцией обработки сигналов фильтра и продемонстрировал ее на задаче распознавания речи. [6] Они также отметили, что в качестве системы, обучаемой на данных, свертка по существу эквивалентна корреляции, поскольку обращение весов не влияет на окончательную изученную функцию («Для удобства мы обозначаем * как корреляцию вместо свертки. Обратите внимание, что свертка a(t ) с b(t) эквивалентно соотнесению a(-t) с b(t)."). [6] Современные реализации CNN обычно выполняют корреляцию и для удобства называют ее сверткой, как и здесь.

Нейронные сети с задержкой времени

[ редактировать ]

Нейронная сеть с временной задержкой (TDNN) была представлена ​​в 1987 году Алексом Вайбелем и др. для распознавания фонем и была одной из первых сверточных сетей, поскольку она достигла инвариантности к сдвигу. [40] TDNN — это одномерная сверточная нейронная сеть, в которой свертка выполняется вдоль оси времени данных. Это первая CNN, использующая распределение веса в сочетании с обучением градиентным спуском с использованием обратного распространения ошибки . [41] Таким образом, хотя он также использует пирамидальную структуру, как в неокогнитроне, он выполняет глобальную оптимизацию весов вместо локальной. [40]

TDNN — это сверточные сети, которые имеют общие веса во временном измерении. [42] Они позволяют обрабатывать речевые сигналы неизменно во времени. В 1990 году Хэмпшир и Вайбель представили вариант, выполняющий двумерную свертку. [43] Поскольку эти TDNN работали на основе спектрограмм, полученная система распознавания фонем была инвариантной как к временным, так и к частотным сдвигам, как и в случае с изображениями, обработанными неокогнитроном.

TDNN улучшили производительность распознавания речи на большом расстоянии. [44]

Распознавание изображений с помощью CNN, обученных градиентным спуском

[ редактировать ]

Денкер и др. (1989) разработали двумерную систему CNN для распознавания рукописных номеров почтовых индексов . [45] Однако отсутствие эффективного метода обучения для определения коэффициентов ядра участвующих сверток означало, что все коэффициенты приходилось кропотливо разрабатывать вручную. [46]

Следуя достижениям в обучении 1-D CNN Waibel et al. (1987), Янн ЛеКун и др. (1989) [46] использовал обратное распространение ошибки для изучения коэффициентов ядра свертки непосредственно из изображений рукописных чисел. Таким образом, обучение было полностью автоматическим, работало лучше, чем ручное проектирование коэффициентов, и подходило для более широкого спектра задач распознавания изображений и типов изображений. Вэй Чжан и др. (1988) [12] [13] использовал обратное распространение ошибки для обучения ядер свертки CNN распознаванию алфавитов. Модель называлась нейронной сетью распознавания образов, инвариантной к сдвигу, до того, как позже, в начале 1990-х годов, было придумано название CNN. Вэй Чжан и др. также применил ту же CNN без последнего полностью связанного слоя для сегментации объектов медицинских изображений (1991). [47] и выявление рака молочной железы с помощью маммографии (1994). [48]

Этот подход стал основой современного компьютерного зрения .

Максимальное объединение

[ редактировать ]

В 1990 году Ямагути и др. представил концепцию максимального пула, фиксированной операции фильтрации, которая вычисляет и распространяет максимальное значение данного региона. Они сделали это, объединив TDNN с максимальным объединением, чтобы реализовать независимую от говорящего систему распознавания изолированных слов. [25] В своей системе они использовали несколько TDNN на слово, по одному на каждый слог . Результаты каждого TDNN по входному сигналу объединялись с использованием максимального пула, а выходные данные слоев пула затем передавались в сети, выполняющие фактическую классификацию слов.

LeNet-5, новаторская 7-уровневая сверточная сеть, разработанная LeCun et al. в 1995 году, [49] классифицирует рукописные цифры на чеках ( британский английский : checks ), оцифрованные в изображениях размером 32x32 пикселя. Способность обрабатывать изображения с более высоким разрешением требует все большего и большего количества слоев сверточных нейронных сетей, поэтому этот метод ограничен доступностью вычислительных ресурсов.

Она превосходила другие коммерческие системы считывания суммы вознаграждения (по состоянию на 1995 год). Система была интегрирована в системы считывания чеков NCR и с июня 1996 года используется в нескольких американских банках, считывая миллионы чеков в день. [50]

Инвариантная к сдвигу нейронная сеть

[ редактировать ]

Нейронная сеть, инвариантная к сдвигу, была предложена Вэй Чжан и др. для распознавания символов изображений в 1988 году. [12] [13] Это модифицированный неокогнитрон, сохраняющий только сверточные связи между слоями признаков изображения и последним полностью связанным слоем. Модель была обучена с помощью обратного распространения ошибки. Алгоритм обучения был усовершенствован в 1991 году. [51] улучшить его способность к обобщению. Архитектура модели была изменена путем удаления последнего полностью связанного слоя и применена для сегментации медицинских изображений (1991 г.). [47] и автоматическое обнаружение рака молочной железы при маммограммах (1994) . [48]

В 1988 году была предложена другая конструкция, основанная на свертке. [52] для применения для разложения одномерных свернутых сигналов электромиографии посредством обратной свертки. Эта конструкция была изменена в 1989 году на другие конструкции, основанные на деконволюции. [53] [54]

Пирамида нейронной абстракции

[ редактировать ]
Пирамида нейронной абстракции
Пирамида нейронной абстракции

Архитектура сверточных нейронных сетей с прямой связью была расширена в пирамиде нейронной абстракции. [55] боковыми и обратными связями. Получающаяся в результате рекуррентная сверточная сеть позволяет гибко включать контекстную информацию для итеративного разрешения локальных неоднозначностей. В отличие от предыдущих моделей, выходные данные, подобные изображениям, были созданы с самым высоким разрешением, например, для задач семантической сегментации, реконструкции изображений и локализации объектов.

Реализации графического процессора

[ редактировать ]

Хотя CNN были изобретены в 1980-х годах, их прорыв в 2000-х потребовал быстрого внедрения графических процессоров (GPU).

В 2004 году К.С. Ох и К. Юнг показали, что стандартные нейронные сети можно значительно ускорить на графических процессорах. Их реализация была в 20 раз быстрее, чем эквивалентная реализация на CPU . [56] [39] В 2005 году в другой статье также подчеркивалась ценность GPGPU для машинного обучения . [57]

Первая реализация CNN на графическом процессоре была описана в 2006 году К. Челлапилла и др. Их реализация была в 4 раза быстрее, чем эквивалентная реализация на ЦП. [58] В последующих работах также использовались графические процессоры, первоначально для других типов нейронных сетей (отличных от CNN), особенно для нейронных сетей без учителя. [59] [60] [61] [62]

В 2010 году Дэн Чиресан и др. в IDSIA показали, что даже глубокие стандартные нейронные сети с множеством слоев можно быстро обучить на графическом процессоре с помощью контролируемого обучения с помощью старого метода, известного как обратное распространение ошибки . Их сеть превзошла предыдущие методы машинного обучения в тесте рукописных цифр MNIST . [63] В 2011 году они распространили этот подход на основе графических процессоров на CNN, достигнув коэффициента ускорения 60 и получив впечатляющие результаты. [23] В 2011 году они использовали такие CNN на графическом процессоре, чтобы выиграть конкурс по распознаванию изображений, где они впервые достигли сверхчеловеческой производительности. [64] В период с 15 мая 2011 г. по 30 сентября 2012 г. их телеканалы CNN выиграли не менее четырех имиджевых конкурсов. [65] [39] В 2012 году они также значительно улучшили лучшую в литературе производительность для нескольких баз данных изображений , включая базу данных MNIST , базу данных NORB, набор данных HWDB1.0 (китайские иероглифы) и набор данных CIFAR10 (набор данных из 60 000 изображений размером 32x32, помеченных RGB ). . [26]

Впоследствии аналогичный CNN на базе графического процессора, разработанный Алексом Крижевским и др. выиграл конкурс ImageNet по крупномасштабному визуальному распознаванию 2012. [66] Очень глубокая CNN с более чем 100 слоями от Microsoft выиграла конкурс ImageNet 2015. [67]

Реализации Intel Xeon Phi

[ редактировать ]

По сравнению с обучением CNN с использованием графических процессоров уделялось мало внимания Intel Xeon Phi , сопроцессору . [68] Заметной разработкой является метод распараллеливания для обучения сверточных нейронных сетей на Intel Xeon Phi, получивший название Controlled Hogwild с произвольным порядком синхронизации (CHAOS). [69] CHAOS использует параллелизм на уровне потоков и SIMD , доступный в Intel Xeon Phi.

Отличительные особенности

[ редактировать ]

Раньше многослойного перцептрона (MLP). для распознавания изображений использовались традиционные модели [ нужен пример ] Однако полная связь между узлами вызвала проклятие размерности и была вычислительно неразрешима для изображений с более высоким разрешением. Изображение размером 1000×1000 пикселей с цветовыми каналами RGB имеет 3 миллиона весов на полностью связанный нейрон, что слишком много для эффективной обработки в масштабе.

Слои CNN расположены в трех измерениях

Например, в CIFAR-10 изображения имеют размер всего 32×32×3 (32 в ширину, 32 в высоту, 3 цветовых канала), поэтому один полностью связанный нейрон в первом скрытом слое обычной нейронной сети будет иметь 32* 32*3 = 3072 веса. Однако изображение размером 200×200 приведет к тому, что нейроны будут иметь веса 200*200*3 = 120 000.

Кроме того, такая сетевая архитектура не учитывает пространственную структуру данных, обрабатывая входные пиксели, находящиеся далеко друг от друга, так же, как и пиксели, находящиеся близко друг к другу. При этом игнорируется локальность ссылки в данных с топологией сетки (например, изображениях) как в вычислительном, так и в семантическом плане. Таким образом, полная связность нейронов является расточительной для таких целей, как распознавание изображений, в которых доминируют пространственно-локальные входные шаблоны.

Сверточные нейронные сети — это варианты многослойных перцептронов, предназначенные для эмуляции поведения зрительной коры . Эти модели смягчают проблемы, связанные с архитектурой MLP, используя сильную пространственно-локальную корреляцию, присутствующую в естественных изображениях. В отличие от MLP, CNN имеют следующие отличительные особенности:

  • 3D-объемы нейронов. В слоях CNN нейроны расположены в трех измерениях : по ширине, высоте и глубине. [70] Каждый нейрон внутри сверточного слоя связан лишь с небольшой областью слоя перед ним, называемой рецептивным полем. Различные типы слоев, как локально, так и полностью связанные, складываются друг в друга, образуя архитектуру CNN.
  • Локальная связность: следуя концепции рецептивных полей, CNN используют пространственную локальность, обеспечивая паттерн локальной связи между нейронами соседних слоев. Таким образом, архитектура гарантирует, что изученные « фильтры » производят самый сильный ответ на пространственно-локальный входной шаблон. Объединение множества таких слоев приводит к нелинейным фильтрам , которые становятся все более глобальными (т.е. реагирующими на большую область пиксельного пространства), так что сеть сначала создает представления небольших частей входных данных, а затем из них собирает представления более крупных областей.
  • Общие веса: в CNN каждый фильтр реплицируется по всему полю зрения. Эти реплицированные единицы имеют одну и ту же параметризацию (вектор веса и смещение) и образуют карту признаков. Это означает, что все нейроны в данном сверточном слое реагируют на одну и ту же функцию в своем конкретном поле ответа. Репликация единиц таким способом позволяет результирующей карте активации быть эквивариантной при сдвигах расположения входных объектов в поле зрения, т.е. они обеспечивают трансляционную эквивариантность - при условии, что шаг слоя равен единице. [71]
  • Объединение в пулы. В слоях объединения CNN карты объектов делятся на прямоугольные подобласти, и объекты в каждом прямоугольнике независимо подвергаются субдискретизации до одного значения, обычно путем взятия их среднего или максимального значения. Помимо уменьшения размеров карт объектов, операция объединения обеспечивает определенную степень локальной трансляционной инвариантности для содержащихся в них объектов, что позволяет CNN быть более устойчивой к изменениям в их положениях. [14]

Вместе эти свойства позволяют CNN добиться лучшего обобщения проблем со зрением . Распределение веса значительно сокращает количество изучаемых свободных параметров , тем самым снижая требования к памяти для работы сети и позволяя обучать более крупные и мощные сети.

Строительные блоки

[ редактировать ]

Архитектура CNN формируется стеком отдельных слоев, которые преобразуют входной объем в выходной объем (например, сохраняя оценки классов) с помощью дифференцируемой функции. Обычно используются несколько различных типов слоев. Они обсуждаются ниже.

Нейроны сверточного слоя (синий), связанные со своим рецептивным полем (красный)

Сверточный слой

[ редактировать ]
Проработанный пример выполнения свертки. Свертка имеет шаг 1, заполнение нулями, с размером ядра 3х3. Ядро свертки представляет собой дискретный оператор Лапласа .

Сверточный слой является основным строительным блоком CNN. Параметры слоя состоят из набора обучаемых фильтров (или ядер ), которые имеют небольшое восприимчивое поле, но простираются на всю глубину входного объема. Во время прямого прохода каждый фильтр свертывается по ширине и высоте входного объема, вычисляя скалярное произведение между записями фильтра и входными данными, создавая двумерную карту активации этого фильтра. В результате сеть изучает фильтры, которые активируются, когда она обнаруживает какой-то конкретный тип объекта в некоторой пространственной позиции во входных данных. [72] [номер 1]

Сложение карт активации для всех фильтров по измерению глубины формирует полный выходной объем слоя свертки. Таким образом, каждую запись в выходном объеме можно интерпретировать как выходной сигнал нейрона, который просматривает небольшую область входных данных. Каждая запись в карте активации использует один и тот же набор параметров, которые определяют фильтр.

Самоконтролируемое обучение было адаптировано для использования в сверточных слоях за счет использования разреженных патчей с высоким коэффициентом маски и слоя нормализации глобального ответа. [ нужна ссылка ]

Локальное подключение

[ редактировать ]
Типичная архитектура CNN

При работе с многомерными входными данными, такими как изображения, непрактично соединять нейроны со всеми нейронами в предыдущем томе, поскольку такая сетевая архитектура не учитывает пространственную структуру данных. Сверточные сети используют пространственно-локальную корреляцию, обеспечивая разреженный шаблон локальной связи между нейронами соседних слоев: каждый нейрон связан только с небольшой областью входного объема.

Степень этой связи определяется гиперпараметром, называемым рецептивным полем нейрона. Связи локальны в пространстве (по ширине и высоте), но всегда распространяются по всей глубине входного объема. Такая архитектура гарантирует, что изученные ( британский английский : выученные ) фильтры производят самый сильный ответ на пространственно-локальный входной шаблон.

Пространственное расположение

[ редактировать ]

Три гиперпараметра управляют размером выходного объема сверточного слоя: глубина, шаг и размер заполнения:

  • Глубина . выходного объема контролирует количество нейронов в слое, которые подключаются к одной и той же области входного объема Эти нейроны учатся активироваться для различных функций входных данных. Например, если первый сверточный слой принимает необработанное изображение в качестве входных данных, то разные нейроны по измерению глубины могут активироваться при наличии различных ориентированных краев или цветных пятен.
  • Stride управляет распределением столбцов глубины по ширине и высоте. Если шаг равен 1, мы перемещаем фильтры по одному пикселю за раз. Это приводит к сильному перекрытию рецептивных полей между столбцами и к большим объемам вывода. Для любого целого числа шаг S означает, что фильтр преобразует S единиц за раз для каждого выхода. На практике, встречается редко. Больший шаг означает меньшее перекрытие рецептивных полей и меньшие пространственные размеры выходного объема. [73]
  • Иногда удобно дополнять входные данные нулями (или другими значениями, например средним значением региона) на границе входного объема. Размер этого заполнения является третьим гиперпараметром. Заполнение обеспечивает контроль пространственного размера выходного тома. В частности, иногда желательно точно сохранить пространственный размер входного тома, это обычно называется «одинаковым» заполнением.
Три примера условий заполнения. Условие репликации означает, что пиксель снаружи дополняется ближайшим пикселем внутри. Заполнение отражения — это когда пиксель снаружи дополняется пикселем внутри, отражаясь от границы изображения. Круговое заполнение — это место, где пиксель снаружи оборачивается на другую сторону изображения.

Пространственный размер выходного тома является функцией размера входного тома. , размер поля ядра нейронов сверточного слоя, шаг и количество заполнения нулями на границе. Тогда количество нейронов, «помещающихся» в данном объеме, равно:

Если это число не является целым числом , то шаги неверны, и нейроны не могут быть выложены плиткой, чтобы симметрично разместиться во входном объеме . В общем, установка нулевого заполнения будет когда шаг гарантирует, что входной и выходной том будут иметь одинаковый пространственный размер. Однако не всегда полностью необходимо задействовать все нейроны предыдущего слоя. Например, разработчик нейронной сети может решить использовать только часть заполнения.

Совместное использование параметров

[ редактировать ]

Схема совместного использования параметров используется в сверточных слоях для управления количеством свободных параметров. Он основан на предположении, что если объект-заплатку полезно вычислить в какой-то пространственной позиции, то его также будет полезно вычислить и в других позициях. Обозначая один двумерный срез глубины как срез глубины , нейроны в каждом срезе глубины ограничены использованием одних и тех же весов и смещений.

Поскольку все нейроны в одном срезе глубины имеют одни и те же параметры, прямой проход в каждом срезе глубины сверточного слоя можно вычислить как свертку весов нейронов с входным объемом. [номер 2] Поэтому наборы весов принято называть фильтром (или ядром ) , который свернут с входными данными. Результатом этой свертки является карта активации , а набор карт активации для каждого отдельного фильтра складываются вместе по измерению глубины для получения выходного объема. Совместное использование параметров способствует трансляционной инвариантности архитектуры CNN. [14]

Иногда предположение о совместном использовании параметров может не иметь смысла. Это особенно актуально, когда входные изображения в CNN имеют определенную центрированную структуру; для которого мы ожидаем, что в разных пространственных точках будут изучены совершенно разные функции. Одним из практических примеров является случай, когда входными данными являются лица, которые были центрированы на изображении: мы могли бы ожидать, что в разных частях изображения будут изучены разные особенности глаз или волос. В этом случае принято ослаблять схему совместного использования параметров и вместо этого просто называть уровень «локально подключенным уровнем».

Слой объединения

[ редактировать ]
Рабочий пример макспулинга 2х2 с шагом 2.
Максимальное объединение с фильтром 2x2 и шагом = 2

Другой важной концепцией CNN является объединение, которое представляет собой форму нелинейной понижающей выборки . Существует несколько нелинейных функций для реализации пула, максимальный пул наиболее распространенной из которых является . Он разбивает входное изображение на набор прямоугольников и для каждой такой подобласти выводит максимум.

Интуитивно понятно, что точное местоположение объекта менее важно, чем его приблизительное расположение относительно других объектов. В этом заключается идея использования пула в сверточных нейронных сетях. Уровень объединения служит для постепенного уменьшения пространственного размера представления, уменьшения количества параметров, объема памяти и объема вычислений в сети и, следовательно, для контроля переобучения . Это известно как понижающая выборка. Обычно периодически вставляют слой пула между последовательными сверточными уровнями (за каждым из которых обычно следует функция активации, такая как уровень ReLU ). в архитектуре CNN [72] : 460–461  Хотя уровни объединения способствуют локальной трансляционной инвариантности, они не обеспечивают глобальную трансляционную инвариантность в CNN, если не используется форма глобального пула. [14] [71] Слой объединения обычно работает независимо на каждой глубине или срезе входных данных и изменяет их пространственный размер. Очень распространенной формой максимального пула является слой с фильтрами размера 2×2, применяемыми с шагом 2, который субдискретизирует каждый срез глубины во входных данных на 2 как по ширине, так и по высоте, отбрасывая 75% активаций: В этом случае каждая максимальная операция превышает 4 числа. Размер глубины остается неизменным (это справедливо и для других форм объединения).

В дополнение к максимальному объединению, объединяющие единицы могут использовать другие функции, такие как среднее объединение или 2 -нормы объединение . Исторически часто использовалось среднее объединение, но в последнее время оно вышло из моды по сравнению с максимальным объединением, которое на практике обычно работает лучше. [74]

Из-за эффектов быстрого пространственного уменьшения размера представления, [ который? ] в последнее время наблюдается тенденция к использованию фильтров меньшего размера. [75] или вообще отказаться от слоев объединения. [76]

Объединение ROI до размера 2x2. В этом примере предложение региона (входной параметр) имеет размер 7x5.

Объединение « области интереса » (также известное как объединение областей интереса) — это вариант максимального объединения, при котором выходной размер фиксирован, а входной прямоугольник является параметром. [ нужна ссылка ]

Пул — это метод понижающей дискретизации и важный компонент сверточных нейронных сетей для обнаружения объектов на основе Fast R-CNN. [77] архитектура.

Максимальное объединение каналов

[ редактировать ]

Уровень операции максимального объединения каналов (CMP) выполняет операцию MP вдоль стороны канала среди соответствующих позиций последовательных карт признаков с целью устранения избыточной информации. CMP позволяет собрать важные функции в меньшем количестве каналов, что важно для более детальной классификации изображений, требующей большего количества различающих функций. Между тем, еще одним преимуществом операции CMP является уменьшение количества каналов карт объектов перед их подключением к первому полносвязному (FC) уровню. Подобно операции MP, мы обозначаем входные карты признаков и выходные карты признаков слоя CMP как F ∈ R(C×M×N) и C ∈ R(c×M×N) соответственно, где C и c — номера каналов входных и выходных карт объектов, M и N — это ширина и высота карт объектов соответственно. Обратите внимание, что операция CMP изменяет только номер канала карт объектов. Ширина и высота карт объектов не изменяются, в отличие от операции MP. [78]

ReLU — это аббревиатура выпрямленной линейной единицы, введенная Кунихико Фукусимой в 1969 году. [35] [36] без насыщения ReLU применяет функцию активации . [66] Он эффективно удаляет отрицательные значения из карты активации, устанавливая их равными нулю. [79] Он вносит нелинейность в функцию принятия решения и в сеть в целом, не затрагивая рецептивные поля слоев свертки.В 2011 году Ксавье Глоро, Антуан Бордес и Йошуа Бенжио обнаружили, что ReLU позволяет лучше обучать более глубокие сети. [80] по сравнению с широко используемыми функциями активации до 2011 года.

Для увеличения нелинейности также можно использовать другие функции, например насыщающий гиперболический тангенс. , и сигмовидная функция . ReLU часто предпочтительнее других функций, поскольку он обучает нейронную сеть в несколько раз быстрее без значительного снижения точности обобщения . [81]

Полностью связный слой

[ редактировать ]

После нескольких сверточных слоев и слоев максимального пула окончательная классификация выполняется через полностью связанные слои. Нейроны в полностью связном слое имеют связи со всеми активациями предыдущего слоя, как это видно в обычных (несверточных) искусственных нейронных сетях . Таким образом, их активации можно вычислить как аффинное преобразование с умножением матрицы , за которым следует смещение смещения ( векторное сложение изученного или фиксированного термина смещения).

Слой потерь

[ редактировать ]

«Уровень потерь» или « функция потерь » определяет, как обучение наказывает за отклонение между прогнозируемыми выходными данными сети и истинными метками данных (во время контролируемого обучения). различные функции потерь В зависимости от конкретной задачи могут использоваться .

Функция потерь Softmax используется для прогнозирования одного класса из K взаимоисключающих классов. [номер 3] Сигмовидная кросс-энтропийная потеря используется для прогнозирования K независимых значений вероятности в . Евклидова потеря используется для регрессии к с действительным значением. меткам .

Гиперпараметры

[ редактировать ]

Гиперпараметры — это различные настройки, которые используются для управления процессом обучения. CNN используют больше гиперпараметров , чем стандартный многослойный перцептрон (MLP).

Размер ядра

[ редактировать ]

Ядро — это количество пикселей, обработанных вместе. Обычно это выражается в размерах ядра, например, 2x2 или 3x3.

Заполнение

[ редактировать ]

Заполнение — это добавление (обычно) пикселей со значением 0 на границах изображения. Это делается для того, чтобы граничные пиксели не были занижены (не потеряны) в выходных данных, поскольку обычно они участвуют только в одном экземпляре рецептивного поля. Применяемое дополнение обычно на единицу меньше соответствующего размера ядра. Например, сверточный слой, использующий ядра 3x3, получит 2-пиксельную площадку, то есть по 1 пикселю с каждой стороны изображения. [ нужна ссылка ]

Шаг — это количество пикселей, на которое окно анализа перемещается на каждой итерации. Шаг 2 означает, что каждое ядро ​​смещено на 2 пикселя относительно своего предшественника.

Количество фильтров

[ редактировать ]

Поскольку размер карты объектов уменьшается с глубиной, слои рядом с входным слоем, как правило, имеют меньше фильтров, а более высокие слои могут иметь больше. Чтобы уравнять вычисления на каждом слое, произведение значений признаков v a на положение пикселя поддерживается примерно постоянным на всех слоях. Для сохранения большего количества информации о входных данных потребуется, чтобы общее количество активаций (количество карт объектов, умноженное на количество позиций пикселей) не уменьшалось от одного слоя к другому.

Количество карт признаков напрямую влияет на емкость и зависит от количества доступных примеров и сложности задачи.

Размер фильтра

[ редактировать ]

Общие размеры фильтров, встречающиеся в литературе, сильно различаются и обычно выбираются на основе набора данных. Типичные размеры фильтров варьируются от 1x1 до 7x7. В качестве двух известных примеров AlexNet использовал 3x3, 5x5 и 11x11. Inceptionv3 использовал 1x1, 3x3 и 5x5.

Задача состоит в том, чтобы найти правильный уровень детализации, чтобы создавать абстракции в нужном масштабе с учетом конкретного набора данных и без переобучения .

Тип и размер пула

[ редактировать ]

Обычно используется максимальное объединение , часто с размером 2x2. Это означает, что входные данные значительно уменьшаются , что снижает затраты на обработку.

Увеличение пула уменьшает размерность сигнала и может привести к неприемлемой потере информации . Зачастую лучше всего работают непересекающиеся окна пула. [74]

Расширение

[ редактировать ]

Расширение предполагает игнорирование пикселей внутри ядра. Это потенциально уменьшает обработку/память без значительной потери сигнала. Расширение 2 в ядре 3x3 расширяет ядро ​​до 5x5, при этом все еще обрабатывается 9 (равномерно расположенных) пикселей. Соответственно, расширение 4 расширяет ядро ​​до 7x7. [ нужна ссылка ]

Эквивариантность перевода и псевдонимы

[ редактировать ]

Обычно предполагается, что CNN инвариантны к сдвигам входных данных. Слои свертки или объединения внутри CNN, шаг которых не превышает единицы, действительно эквивалентны переводам входных данных. [71] Однако слои с шагом больше единицы игнорируют теорему выборки Найквиста-Шеннона и могут привести к искажению входного сигнала. [71] Хотя в принципе CNN способны реализовывать фильтры сглаживания, было замечено, что на практике этого не происходит. [82] и дают модели, которые не эквивариантны переводам.Более того, если CNN использует полносвязные слои, трансляционная эквивалентность не подразумевает трансляционную инвариантность, поскольку полносвязные слои не инвариантны к сдвигам входных данных. [83] [14] Одним из решений для полной инвариантности трансляции является отказ от понижающей выборки по всей сети и применение глобального среднего пула на последнем уровне. [71] Кроме того, было предложено несколько других частичных решений, таких как сглаживание перед операциями понижения разрешения. [84] пространственные трансформаторные сети, [85] увеличение данных , подвыборка в сочетании с объединением в пулы, [14] и капсульные нейронные сети . [86]

Точность окончательной модели основана на части набора данных, выделенной в начале и часто называемой тестовым набором. такие методы, как k -кратная перекрестная проверка В других случаях применяются . Другие стратегии включают использование конформного предсказания . [87] [88]

Методы регуляризации

[ редактировать ]

Регуляризация — это процесс введения дополнительной информации для решения некорректной задачи или предотвращения переобучения . CNN используют различные типы регуляризации.

Эмпирический

[ редактировать ]

Выбывать

[ редактировать ]

Поскольку полносвязный слой занимает большую часть параметров, он склонен к переобучению. Одним из методов уменьшения переобучения является дропаут , представленный в 2014 году. [89] На каждом этапе обучения отдельные узлы либо «выпадают» из сети (игнорируются) с вероятностью или сохраняется с вероятностью , так что остается уменьшенная сеть; входящие и исходящие ребра к выпавшему узлу также удаляются. На этом этапе на данных обучается только сокращенная сеть. Удаленные узлы затем повторно вставляются в сеть с их первоначальными весами.

На этапах обучения, обычно составляет 0,5; для входных узлов оно обычно намного выше, поскольку информация напрямую теряется, когда входные узлы игнорируются.

Во время тестирования после завершения обучения нам в идеале хотелось бы найти выборочное среднее всех возможных значений. выпавшие сети; к сожалению, это невозможно для больших значений . Однако мы можем найти приближение, используя полную сеть, в которой выход каждого узла взвешивается с коэффициентом , поэтому ожидаемое значение вывода любого узла такое же, как и на этапах обучения. Это самый большой вклад метода отсева: хотя он эффективно генерирует нейронных сетей и, как таковые, позволяют комбинировать модели, во время тестирования необходимо тестировать только одну сеть.

Избегая обучения всех узлов на всех обучающих данных, отсев уменьшает переобучение. Метод также значительно повышает скорость обучения. Это делает комбинацию моделей практичной даже для глубоких нейронных сетей . Кажется, что этот метод уменьшает взаимодействие узлов, что позволяет им изучать более надежные функции. [ нужны разъяснения ] лучше обобщить на новые данные.

DropConnect — это обобщение исключения, при котором с вероятностью может быть отброшено каждое соединение, а не каждый выходной блок. . Таким образом, каждый блок получает входные данные от случайного подмножества блоков на предыдущем уровне. [90]

DropConnect аналогичен исключению, поскольку он вводит динамическую разреженность в модели, но отличается тем, что разреженность связана с весами, а не с выходными векторами слоя. Другими словами, полностью связанный уровень с DropConnect становится разреженным слоем, в котором соединения выбираются случайным образом на этапе обучения.

Стохастическое объединение

[ редактировать ]

Основным недостатком Dropout является то, что он не дает тех же преимуществ для сверточных слоев, где нейроны не полностью связаны.

Еще до Dropout, в 2013 году, была использована техника под названием стохастический пул. [91] обычные детерминированные операции объединения были заменены стохастической процедурой, в которой активация в каждой области объединения выбирается случайным образом в соответствии с полиномиальным распределением , заданным действиями в пределах региона объединения. Этот подход не содержит гиперпараметров и может сочетаться с другими подходами к регуляризации, такими как исключение и увеличение данных .

Альтернативный взгляд на стохастическое объединение состоит в том, что оно эквивалентно стандартному максимальному объединению, но со многими копиями входного изображения, каждая из которых имеет небольшие локальные деформации . Это похоже на явные упругие деформации входных изображений: [92] который обеспечивает превосходную производительность при работе с набором данных MNIST . [92] Использование стохастического объединения в многослойной модели приводит к экспоненциальному числу деформаций, поскольку выборка в более высоких слоях не зависит от выборки в нижних слоях.

Искусственные данные

[ редактировать ]

Поскольку степень переобучения модели определяется как ее мощностью, так и объемом обучения, которое она получает, предоставление сверточной сети большего количества обучающих примеров может уменьшить переобучение. Поскольку доступных данных для обучения зачастую недостаточно, особенно если учесть, что некоторую часть следует сохранить для последующего тестирования, есть два подхода: либо сгенерировать новые данные с нуля (если это возможно), либо изменить существующие данные для создания новых. Последний используется с середины 1990-х годов. [49] Например, входные изображения можно обрезать, вращать или масштабировать для создания новых примеров с теми же метками, что и исходный обучающий набор. [93]

Ранняя остановка

[ редактировать ]

Один из самых простых способов предотвратить переобучение сети — просто остановить обучение до того, как произойдет переобучение. Недостатком является то, что процесс обучения останавливается.

Количество параметров

[ редактировать ]

Еще один простой способ предотвратить переоснащение — ограничить количество параметров, обычно путем ограничения количества скрытых модулей в каждом слое или ограничения глубины сети. Для сверточных сетей размер фильтра также влияет на количество параметров. Ограничение количества параметров напрямую ограничивает прогнозирующую способность сети, уменьшая сложность функции, которую она может выполнять с данными, и, таким образом, ограничивает количество переобучения. Это эквивалентно « нулевой норме ».

Снижение веса

[ редактировать ]

Простая форма добавленного регуляризатора — это затухание веса, которое просто добавляет дополнительную ошибку, пропорциональную сумме весов ( норма L1 ) или квадрату величины ( норма L2 ) весового вектора, к ошибке в каждом узле. Уровень приемлемой сложности модели можно снизить, увеличив константу пропорциональности (гиперпараметр «альфа»), тем самым увеличив штраф за большие весовые векторы.

Регуляризация L2 — наиболее распространенная форма регуляризации. Это можно реализовать путем штрафования квадратов всех параметров непосредственно в цели. Регуляризация L2 имеет интуитивную интерпретацию, заключающуюся в строгом наказании пиковых весовых векторов и предпочтении диффузных весовых векторов. Из-за мультипликативного взаимодействия между весами и входными данными это имеет полезное свойство, побуждающее сеть использовать все свои входные данные понемногу, а не часто использовать некоторые из своих входных данных.

Регуляризация L1 также распространена. Это делает весовые векторы разреженными во время оптимизации. Другими словами, нейроны с регуляризацией L1 в конечном итоге используют только редкое подмножество своих наиболее важных входных данных и становятся почти инвариантными к зашумленным входным сигналам. Регуляризацию L1 и L2 можно комбинировать; это называется эластичной сетевой регуляризацией .

Максимальные ограничения нормы

[ редактировать ]

Другая форма регуляризации — установить абсолютную верхнюю границу величины весового вектора для каждого нейрона и использовать прогнозируемый градиентный спуск для обеспечения соблюдения ограничения. На практике это соответствует обычному обновлению параметров, а затем обеспечению соблюдения ограничения путем фиксации весового вектора. каждого нейрона для удовлетворения . Типичные значения имеют порядок 3–4. В некоторых статьях сообщается об улучшениях [94] при использовании этой формы регуляризации.

Иерархические системы координат

[ редактировать ]

При объединении теряются точные пространственные отношения между частями высокого уровня (такими как нос и рот на изображении лица). Эти отношения необходимы для распознавания личности. Перекрытие пулов, так что каждый объект встречается в нескольких пулах, помогает сохранить информацию. Сам по себе перевод не может экстраполировать понимание геометрических отношений на радикально новую точку зрения, например, на другую ориентацию или масштаб. С другой стороны, люди очень хорошо умеют экстраполировать; увидев новую форму, они смогут распознать ее с другой точки зрения. [95]

Более ранний распространенный способ решения этой проблемы — обучение сети на преобразованных данных в разных ориентациях, масштабах, освещении и т. д., чтобы сеть могла справиться с этими изменениями. Это требует больших вычислительных ресурсов для больших наборов данных. Альтернативой является использование иерархии систем координат и использование группы нейронов для представления сочетания формы объекта и его положения относительно сетчатки . Поза относительно сетчатки — это взаимосвязь между системой координат сетчатки и системой координат внутренних особенностей. [96]

Таким образом, один из способов представить что-либо — это встроить в него систему координат. Это позволяет распознавать крупные черты лица, используя согласованность поз их частей (например, позы носа и рта позволяют последовательно прогнозировать позу всего лица). Этот подход гарантирует, что объект более высокого уровня (например, лицо) присутствует, когда объект более низкого уровня (например, нос и рот) соглашается с прогнозом позы. Векторы активности нейронов, представляющие позу («векторы позы»), позволяют осуществлять пространственные преобразования, моделируемые как линейные операции, которые облегчают сети изучение иерархии визуальных объектов и обобщение точек зрения. Это похоже на то, как зрительная система человека накладывает рамки координат для представления фигур. [97]

Приложения

[ редактировать ]

Распознавание изображений

[ редактировать ]

CNN часто используются в системах распознавания изображений . В 2012 году о частоте ошибок 0,23% . в базе данных MNIST сообщалось [26] В другой статье об использовании CNN для классификации изображений сообщается, что процесс обучения был «на удивление быстрым»; в той же статье лучшие опубликованные результаты по состоянию на 2011 год были достигнуты в базе данных MNIST и базе данных NORB. [23] Впоследствии аналогичный CNN под названием AlexNet [98] выиграл конкурс ImageNet по крупномасштабному визуальному распознаванию 2012.

Применительно к распознаванию лиц CNN добились значительного снижения частоты ошибок. [99] В другой статье сообщалось о 97,6% распознавании «5600 неподвижных изображений более 10 предметов». [19] CNN использовались для оценки качества видео объективной после ручного обучения; полученная система имела очень низкую среднеквадратическую ошибку . [100]

Масштабный конкурс визуального распознавания ImageNet это эталон в классификации и обнаружении объектов, в котором участвуют миллионы изображений и сотни классов объектов. На ILSVRC 2014 г. [101] В рамках масштабной задачи визуального распознавания почти каждая команда с высоким рейтингом использовала CNN в качестве базовой структуры. Победитель ГуглЛеНет [102] (основа DeepDream ) увеличил среднюю точность обнаружения объектов до 0,439329 и снизил ошибку классификации до 0,06656, что является лучшим результатом на сегодняшний день. В его сети применено более 30 слоев. Производительность сверточных нейронных сетей в тестах ImageNet была близка к показателям людей. [103] Лучшие алгоритмы по-прежнему борются с маленькими или тонкими объектами, такими как маленький муравей на стебле цветка или человек, держащий в руке перо. У них также возникают проблемы с изображениями, искаженными фильтрами, что является все более распространенным явлением в современных цифровых камерах. Напротив, подобные изображения редко беспокоят людей. Однако у людей, как правило, возникают проблемы с другими проблемами. Например, они не умеют классифицировать объекты по детальным категориям, таким как конкретная порода собаки или вид птицы, тогда как сверточные нейронные сети справляются с этим. [ нужна ссылка ]

В 2015 году многослойная CNN продемонстрировала способность распознавать лица под разными углами, в том числе перевернутыми, даже при частичном закрытии, с конкурентоспособными характеристиками. Сеть была обучена на базе данных из 200 000 изображений, включающих лица под разными углами и ориентациями, а также еще 20 миллионов изображений без лиц. Они использовали пакеты по 128 изображений в течение 50 000 итераций. [104]

Видео анализ

[ редактировать ]

По сравнению с доменами данных изображений, работы по применению CNN для классификации видео относительно мало. Видео сложнее изображений, поскольку оно имеет другое (временное) измерение. Тем не менее, были изучены некоторые расширения CNN в область видео. Один из подходов состоит в том, чтобы рассматривать пространство и время как эквивалентные измерения входных данных и выполнять свертки как во времени, так и в пространстве. [105] [106] Другой способ — объединить функции двух сверточных нейронных сетей: одной для пространственного, а другой для временного потока. [107] [108] [109] единицы долгосрочной краткосрочной памяти (LSTM) Рекуррентные обычно включаются после CNN для учета зависимостей между кадрами или между клипами. [110] [111] неконтролируемого обучения Были представлены схемы для обучения пространственно-временных функций, основанные на сверточных вентилируемых ограниченных машинах Больцмана. [112] и независимый анализ подпространства. [113] Его применение можно увидеть в модели преобразования текста в видео . [ нужна ссылка ]

Обработка естественного языка

[ редактировать ]

CNN также использовались для обработки естественного языка . Модели CNN эффективны для решения различных задач НЛП и достигли отличных результатов в семантическом анализе . [114] получение поисковых запросов, [115] моделирование предложений, [116] классификация, [117] прогноз [118] и другие традиционные задачи НЛП. [119] По сравнению с традиционными методами языковой обработки, такими как рекуррентные нейронные сети , CNN могут представлять различные контекстуальные реалии языка, которые не полагаются на предположение о последовательностях рядов, в то время как RNN лучше подходят, когда требуется классическое моделирование временных рядов. [120] [121] [122] [123]

Обнаружение аномалий

[ редактировать ]

CNN с одномерными свертками использовалась во временных рядах в частотной области (спектральный остаток) с помощью неконтролируемой модели для обнаружения аномалий во временной области. [124]

Открытие лекарств

[ редактировать ]

CNN использовались при открытии лекарств . Прогнозирование взаимодействия между молекулами и биологическими белками может определить потенциальные методы лечения. В 2015 году Atomwise представила AtomNet, первую нейронную сеть глубокого обучения для разработки лекарств на основе структуры . [125] Система обучается непосредственно на трехмерных представлениях химических взаимодействий. Подобно тому, как сети распознавания изображений учатся объединять меньшие, пространственно близкие объекты в более крупные и сложные структуры. [126] AtomNet обнаруживает химические свойства, такие как ароматичность , sp. 3 углерода и водородной связи . Впоследствии AtomNet использовалась для прогнозирования новых биомолекул- кандидатов для лечения множества заболеваний, в первую очередь для лечения вируса Эбола. [127] и рассеянный склероз . [128]

игра в шашки

[ редактировать ]

CNN использовались в игре в шашки . С 1999 по 2001 год Фогель и Челлапилла опубликовали статьи, показывающие, как сверточная нейронная сеть может научиться играть в шашку , используя коэволюцию. В процессе обучения не использовались предыдущие человеческие профессиональные игры, а, скорее, основное внимание уделялось минимальному набору информации, содержащейся в шахматной доске: расположению и типу фигур, а также разнице в количестве фигур на двух сторонах. В конечном итоге программа ( Blondie24 ) была протестирована на 165 играх против игроков и заняла высшие 0,4%. [129] [130] Он также одержал победу над программой Chinook на ее «экспертном» уровне игры. [131]

CNN использовались в компьютерном Go . В декабре 2014 года Кларк и Сторки опубликовали статью, показывающую, что CNN, обученная контролируемым обучением на основе базы данных профессиональных игр людей, может превзойти GNU Go и выиграть несколько игр против поиска по дереву Монте-Карло Fuego 1.1 за долю времени, которое потребовалось Fuego играть. [132] Позже было объявлено, что большая 12-слойная сверточная нейронная сеть правильно предсказала профессиональный ход в 55% позиций, что соответствует точности игрока-человека с 6 даном . Когда обученная сверточная сеть использовалась непосредственно для игр в Го, без какого-либо поиска, она превзошла традиционную программу поиска GNU Go в 97% игр и сравнялась по производительности с программой поиска по дереву Монте-Карло Fuego, имитирующей десять тысяч игр (около миллион позиций) за ход. [133]

Пара CNN для выбора ходов («политическая сеть») и оценки позиций («сеть ценности»), управляющих MCTS, использовалась AlphaGo , первой, кто обыграл лучшего игрока-человека того времени. [134]

Прогнозирование временных рядов

[ редактировать ]

Рекуррентные нейронные сети обычно считаются лучшими архитектурами нейронных сетей для прогнозирования временных рядов (и моделирования последовательностей в целом), но недавние исследования показывают, что сверточные сети могут работать сопоставимо или даже лучше. [135] [11] Расширенные извилины [136] может позволить одномерным сверточным нейронным сетям эффективно изучать зависимости временных рядов. [137] Свертки могут быть реализованы более эффективно, чем решения на основе RNN, и они не страдают от исчезновения (или взрыва) градиентов. [138] Сверточные сети могут обеспечить повышенную эффективность прогнозирования, когда имеется несколько похожих временных рядов, на которых можно учиться. [139] CNN также можно применять для дальнейших задач анализа временных рядов (например, классификации временных рядов). [140] или квантильное прогнозирование [141] ).

Культурное наследие и наборы 3D-данных

[ редактировать ]

Поскольку археологические находки, такие как глиняные таблички с клинописью, все чаще приобретаются с помощью 3D-сканеров , становятся доступными наборы эталонных данных, включая HeiCuBeDa. [142] предоставление почти 2000 нормализованных наборов 2-D и 3-D данных, подготовленных с помощью GigaMesh Software Framework . [143] Таким образом, измерения на основе кривизны используются в сочетании с геометрическими нейронными сетями (GNN), например, для классификации периода тех глиняных табличек, которые являются одними из древнейших документов истории человечества. [144] [145]

Тонкая настройка

[ редактировать ]

Для многих приложений данные обучения не очень доступны. Сверточные нейронные сети обычно требуют большого объема обучающих данных, чтобы избежать переобучения . Распространенным методом является обучение сети на большем наборе данных из связанной области. После того, как параметры сети сошлись, выполняется дополнительный этап обучения с использованием внутридоменных данных для точной настройки весов сети. Это называется трансферным обучением . Более того, этот метод позволяет успешно применять сверточные сетевые архитектуры для решения задач с крошечными обучающими наборами. [146]

Человеческие интерпретируемые объяснения

[ редактировать ]

Сквозное обучение и прогнозирование — обычная практика в компьютерном зрении . , требуются понятные человеку объяснения Однако для таких критически важных систем , как беспилотные автомобили . [147] Благодаря недавним достижениям в области визуальной значимости , пространственного и временного внимания , наиболее важные пространственные области/временные моменты могут быть визуализированы, чтобы оправдать предсказания CNN. [148] [149]

[ редактировать ]

Глубокие Q-сети

[ редактировать ]

Глубокая Q-сеть (DQN) — это тип модели глубокого обучения, которая сочетает в себе глубокую нейронную сеть с Q-обучением , формой обучения с подкреплением . В отличие от более ранних агентов обучения с подкреплением, DQN, использующие CNN, могут учиться непосредственно на многомерных сенсорных входных данных посредством обучения с подкреплением. [150]

Предварительные результаты были представлены в 2014 году, а сопроводительный документ — в феврале 2015 года. [151] В исследовании описано применение игр для Atari 2600 . Этому предшествовали другие модели глубокого обучения с подкреплением. [152]

Сети глубоких убеждений

[ редактировать ]

Сверточные сети глубокого убеждения (CDBN) имеют структуру, очень похожую на сверточные нейронные сети, и обучаются аналогично сетям глубокого убеждения. Поэтому они используют двумерную структуру изображений, как это делают CNN, и используют предварительное обучение, например, сети глубокого убеждения . Они предоставляют общую структуру, которую можно использовать во многих задачах обработки изображений и сигналов. Результаты сравнительного анализа стандартных наборов данных изображений, таких как CIFAR. [153] были получены с использованием CDBN. [154]

Известные библиотеки

[ редактировать ]
  • Caffe : библиотека для сверточных нейронных сетей. Создано Центром видения и обучения Беркли (BVLC). Он поддерживает как процессор, так и графический процессор. Разработан на C++ и имеет Python и MATLAB . оболочки
  • Deeplearning4j : глубокое обучение Java и Scala с поддержкой нескольких графических процессоров в Spark . Библиотека глубокого обучения общего назначения для производственного стека JVM, работающая на движке научных вычислений C++. Позволяет создавать собственные слои. Интегрируется с Hadoop и Kafka.
  • Dlib : набор инструментов для создания реальных приложений машинного обучения и анализа данных на C++.
  • Microsoft Cognitive Toolkit : набор инструментов глубокого обучения, написанный Microsoft, с несколькими уникальными функциями, улучшающими масштабируемость на нескольких узлах. Он поддерживает полноценные интерфейсы для обучения C++ и Python, а также дополнительную поддержку вывода моделей на C# и Java.
  • TensorFlow : Theano-подобная библиотека под лицензией Apache 2.0 Google с поддержкой CPU, GPU, собственного тензорного процессора (TPU), [155] и мобильные устройства.
  • Theano : эталонная библиотека глубокого обучения для Python с API, в значительной степени совместимым с популярной библиотекой NumPy . Позволяет пользователю писать символические математические выражения, а затем автоматически генерирует их производные, избавляя пользователя от необходимости кодировать градиенты или обратное распространение ошибки. Эти символические выражения автоматически компилируются в код CUDA для быстрой реализации на графическом процессоре .
  • Torch : среда научных вычислений с широкой поддержкой алгоритмов машинного обучения, написанная на C и Lua .

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Применительно к другим типам данных, кроме данных изображения, например звуковым данным, «пространственное положение» может по-разному соответствовать разным точкам во временной области , частотной области или других математических пространствах .
  2. ^ отсюда и название «сверточный слой».
  3. ^ Так называемые категориальные данные .
  1. ^ Перейти обратно: а б Венкатесан, Рагав; Ли, Баоксин (23 октября 2017 г.). Сверточные нейронные сети в визуальных вычислениях: краткое руководство . ЦРК Пресс. ISBN  978-1-351-65032-8 . Архивировано из оригинала 16 октября 2023 г. Проверено 13 декабря 2020 г.
  2. ^ Перейти обратно: а б Балас Валентина Евгеньевна; Кумар, Рагвендра; Шривастава, Раджшри (19 ноября 2019 г.). Последние тенденции и достижения в области искусственного интеллекта и Интернета вещей . Спрингер Природа. ISBN  978-3-030-32644-9 . Архивировано из оригинала 16 октября 2023 г. Проверено 13 декабря 2020 г.
  3. ^ Чжан, Инцзе; Скоро, Хон Геок; Йе, Донсен; Фу, Джерри Ин Си; Чжу, Куньпэн (сентябрь 2020 г.). «Мониторинг процесса плавления в порошковом слое с помощью машинного зрения с помощью гибридных сверточных нейронных сетей» . Транзакции IEEE по промышленной информатике . 16 (9): 5769–5779. дои : 10.1109/TII.2019.2956078 . ISSN   1941-0050 . S2CID   213010088 . Архивировано из оригинала 31 июля 2023 г. Проверено 12 августа 2023 г.
  4. ^ Червяков Н.И.; Ляхов, П.А.; Дерябин, М.А.; Нагорнов Н.Н.; Валуева, М.В.; Валуев, Г.В. (сентябрь 2020 г.). «Решение на основе системы остаточных чисел для снижения стоимости оборудования сверточной нейронной сети» . Нейрокомпьютинг . 407 : 439–453. doi : 10.1016/j.neucom.2020.04.018 . S2CID   219470398 . Архивировано из оригинала 29 июня 2023 г. Проверено 12 августа 2023 г. Сверточные нейронные сети представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, обнаружение вредоносных программ, анализ временных рядов в финансах и многие другие.
  5. ^ Перейти обратно: а б Хабиби, Агдам, Хамед (30 мая 2017 г.). Руководство по сверточным нейронным сетям: практическое применение для обнаружения и классификации дорожных знаков . Херави, Эльназ Джахани. Чам, Швейцария. ISBN  9783319575490 . OCLC   987790957 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка ) CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ Перейти обратно: а б с Хомма, Тоситеру; Лес Атлас; Роберт Маркс II (1987). «Искусственная нейронная сеть для пространственно-временных биполярных паттернов: применение к классификации фонем» (PDF) . Достижения в области нейронных систем обработки информации . 1 : 31–40. Архивировано (PDF) из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г. Понятие свертки или корреляции, используемое в представленных моделях, популярно в инженерных дисциплинах и широко применяется при проектировании фильтров, систем управления и т. д.
  7. ^ Валуева, М.В.; Нагорнов Н.Н.; Ляхов, П.А.; Валуев Г.В.; Червяков Н.И. (2020). «Применение системы остаточных чисел для снижения затрат на оборудование при реализации сверточной нейронной сети». Математика и компьютеры в моделировании . 177 . Эльзевир Б.В.: 232–243. дои : 10.1016/j.matcom.2020.04.031 . ISSN   0378-4754 . S2CID   218955622 . Сверточные нейронные сети являются перспективным инструментом решения задачи распознавания образов.
  8. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Шраувен, Бенджамин (01 января 2013 г.). Берджес, CJC; Ботту, Л.; Веллинг, М.; Гахрамани, З.; Вайнбергер, KQ (ред.). Глубокие рекомендации по музыке на основе контента (PDF) . Curran Associates, Inc., стр. 2643–2651. Архивировано (PDF) из оригинала 7 марта 2022 г. Проверено 31 марта 2022 г.
  9. ^ Коллобер, Ронан; Уэстон, Джейсон (1 января 2008 г.). «Единая архитектура обработки естественного языка». Материалы 25-й международной конференции по машинному обучению ICML '08 . Нью-Йорк, штат Нью-Йорк, США: ACM. стр. 160–167. дои : 10.1145/1390156.1390177 . ISBN  978-1-60558-205-4 . S2CID   2617020 .
  10. ^ Авилов, Алексей; Римбер, Себастьян; Попов, Антон; Буген, Лоран (июль 2020 г.). «Методы глубокого обучения для улучшения интраоперационного обнаружения осведомленности по электроэнцефалографическим сигналам» . 42-я ежегодная международная конференция Общества инженерии в медицине и биологии IEEE (EMBC), 2020 г. (PDF) . Том. 2020. Монреаль, Квебек, Канада: IEEE. стр. 142–145. дои : 10.1109/EMBC44109.2020.9176228 . ISBN  978-1-7281-1990-8 . ПМИД   33017950 . S2CID   221386616 . Архивировано (PDF) из оригинала 19 мая 2022 г. Проверено 21 июля 2023 г.
  11. ^ Перейти обратно: а б Цантекидис, Авраам; Пассалис, Николаос; Тефас, Анастасиос; Канниайнен, Юхо; Габбуж, Монсеф; Иосифидис, Александрос (июль 2017 г.). «Прогнозирование цен на акции из книги лимитных ордеров с использованием сверточных нейронных сетей». 19-я конференция IEEE по бизнес-информатике (CBI) , 2017 г. Салоники, Греция: IEEE. стр. 7–12. дои : 10.1109/CBI.2017.23 . ISBN  978-1-5386-3035-8 . S2CID   4950757 .
  12. ^ Перейти обратно: а б с Чжан, Вэй (1988). «Сдвиг-инвариантная нейронная сеть распознавания образов и ее оптическая архитектура» . Материалы ежегодной конференции Японского общества прикладной физики . Архивировано из оригинала 23 июня 2020 г. Проверено 22 июня 2020 г.
  13. ^ Перейти обратно: а б с Чжан, Вэй (1990). «Модель параллельной распределенной обработки с локальными пространственно-инвариантными соединениями и ее оптическая архитектура» . Прикладная оптика . 29 (32): 4790–7. Бибкод : 1990ApOpt..29.4790Z . дои : 10.1364/AO.29.004790 . ПМИД   20577468 . Архивировано из оригинала 6 февраля 2017 г. Проверено 22 сентября 2016 г.
  14. ^ Перейти обратно: а б с д и ж Мутон, Коэнраад; Майбург, Йоханнес К.; Давел, Марели Х. (2020). «Шаг и инвариантность трансляции в CNN» . В Гербере, Аурона (ред.). Исследования искусственного интеллекта . Коммуникации в компьютерной и информатике. Том. 1342. Чам: Springer International Publishing. стр. 267–281. arXiv : 2103.10097 . дои : 10.1007/978-3-030-66151-9_17 . ISBN  978-3-030-66151-9 . S2CID   232269854 . Архивировано из оригинала 27 июня 2021 г. Проверено 26 марта 2021 г.
  15. ^ Курцман, Томас (20 августа 2019 г.). «Скрытая предвзятость в наборе данных DUD-E приводит к вводящей в заблуждение эффективности глубокого обучения при виртуальном скрининге на основе структур» . ПЛОС ОДИН . 14 (8): e0220113. Бибкод : 2019PLoSO..1420113C . дои : 10.1371/journal.pone.0220113 . ПМК   6701836 . ПМИД   31430292 .
  16. ^ Перейти обратно: а б с Фукусима, К. (2007). «Неокогнитрон» . Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F . doi : 10.4249/scholarpedia.1717 .
  17. ^ Перейти обратно: а б Хьюбель, Д.Х.; Визель, Теннесси (1 марта 1968 г.). «Рецептивные поля и функциональная архитектура полосатой коры обезьян» . Журнал физиологии . 195 (1): 215–243. doi : 10.1113/jphysicalol.1968.sp008455 . ISSN   0022-3751 . ПМЦ   1557912 . ПМИД   4966457 .
  18. ^ Перейти обратно: а б Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251 . ПМИД   7370364 . S2CID   206775608 . Архивировано (PDF) из оригинала 3 июня 2014 года . Проверено 16 ноября 2013 г.
  19. ^ Перейти обратно: а б Матусугу, Масакадзу; Кацухико Мори; Юсуке Митари; Юджи Канеда (2003). «Субъектное независимое распознавание выражения лица с надежным обнаружением лиц с использованием сверточной нейронной сети» (PDF) . Нейронные сети . 16 (5): 555–559. дои : 10.1016/S0893-6080(03)00115-1 . ПМИД   12850007 . Архивировано (PDF) из оригинала 13 декабря 2013 года . Проверено 17 ноября 2013 г.
  20. ^ Демистификация сверточных нейронных сетей: учебное пособие на основе перспективы согласованной фильтрации https://arxiv.org/abs/2108.11663v3
  21. ^ «Сверточные нейронные сети (LeNet) — документация DeepLearning 0.1» . Глубокое обучение 0.1 . ЛИЗА Лаборатория. Архивировано из оригинала 28 декабря 2017 года . Проверено 31 августа 2013 г.
  22. ^ Шолле, Франсуа (04 апреля 2017 г.). «Xception: глубокое обучение с глубоко разделяемыми извилинами». arXiv : 1610.02357 [ cs.CV ].
  23. ^ Перейти обратно: а б с Чиресан, Дэн; Ули Мейер; Джонатан Маски; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242. Архивировано (PDF) из оригинала 5 апреля 2022 года . Проверено 17 ноября 2013 г.
  24. ^ Крижевский , Алекс. «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Архивировано (PDF) из оригинала 25 апреля 2021 года . Проверено 17 ноября 2013 г.
  25. ^ Перейти обратно: а б Ямагути, Коичи; Сакамото, Кендзи; Акабане, Тосио; Фудзимото, Ёсидзи (ноябрь 1990 г.). Нейронная сеть для независимого от говорящего распознавания изолированных слов . Первая международная конференция по обработке разговорной речи (ICSLP 90). Кобе, Япония. Архивировано из оригинала 07 марта 2021 г. Проверено 4 сентября 2019 г.
  26. ^ Перейти обратно: а б с д Чиресан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX   10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110 . ISBN  978-1-4673-1226-4 . OCLC   812295155 . S2CID   2161592 .
  27. ^ Ю, Фишер; Колтун, Владлен (30 апреля 2016 г.). «Многомасштабная агрегация контекста с помощью расширенных сверток». arXiv : 1511.07122 [ cs.CV ].
  28. ^ Чен, Лян-Чье; Папандреу, Джордж; Шрофф, Флориан; Адам, Хартвиг ​​(05 декабря 2017 г.). «Переосмысление агрессивной свертки для семантической сегментации изображений». arXiv : 1706.05587 [ cs.CV ].
  29. ^ Дута, Ионут Космин; Георгеску, Мариана Юлиана; Ионеску, Раду Тудор (16 августа 2021 г.). «Контекстные сверточные нейронные сети». arXiv : 2108.07387 [ cs.CV ].
  30. ^ ЛеКун, Янн. «LeNet-5, сверточные нейронные сети» . Архивировано из оригинала 24 февраля 2021 года . Проверено 16 ноября 2013 г.
  31. ^ ван Дейк, Леонард Элиа; Квитт, Роланд; Денцлер, Себастьян Йохен; Грубер, Вальтер Роланд (2021). «Сравнение распознавания объектов у людей и глубоких сверточных нейронных сетей — исследование слежения за движениями глаз» . Границы в неврологии . 15 : 750639. дои : 10.3389/fnins.2021.750639 . ISSN   1662-453X . ПМЦ   8526843 . ПМИД   34690686 .
  32. ^ Перейти обратно: а б Хьюбель, Д.Х.; Визель, Теннесси (октябрь 1959 г.). «Рецептивные поля отдельных нейронов полосатой коры головного мозга кошки» . Дж. Физиол . 148 (3): 574–91. doi : 10.1113/jphysicalol.1959.sp006308 . ПМЦ   1363130 . ПМИД   14403679 .
  33. ^ Дэвид Х. Хьюбель и Торстен Н. Визель (2005). Мозг и зрительное восприятие: история 25-летнего сотрудничества . Издательство Оксфордского университета, США. п. 106. ИСБН  978-0-19-517618-6 . Архивировано из оригинала 16 октября 2023 г. Проверено 18 января 2019 г.
  34. ^ ЛеКун, Янн; Бенджио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение» (PDF) . Природа . 521 (7553): 436–444. Бибкод : 2015Natur.521..436L . дои : 10.1038/nature14539 . ПМИД   26017442 . S2CID   3074096 .
  35. ^ Перейти обратно: а б Фукусима, К. (1969). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225 .
  36. ^ Перейти обратно: а б Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [ cs.NE ].
  37. ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [ cs.NE ].
  38. ^ Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений» . 1993 (4-я) Международная конференция по компьютерному зрению . IEEE. стр. 121–128. дои : 10.1109/ICCV.1993.378228 . ISBN  0-8186-3870-2 . S2CID   8619176 .
  39. ^ Перейти обратно: а б с Шмидхубер, Юрген (2015). «Глубокое обучение» . Схоларпедия . 10 (11): 1527–54. CiteSeerX   10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД   16764513 . S2CID   2309950 . Архивировано из оригинала 19 апреля 2016 г. Проверено 20 января 2019 г.
  40. ^ Перейти обратно: а б Вайбель, Алекс (декабрь 1987 г.). Распознавание фонем с использованием нейронных сетей с задержкой (PDF) . Заседание Института инженеров по электротехнике, информатике и связи (IEICE). Токио, Япония.
  41. ^ Александр Вайбель и др., Распознавание фонем с использованием нейронных сетей с временной задержкой. Архивировано 25 февраля 2021 г. в Wayback Machine. Транзакции IEEE по акустике, речи и обработке сигналов, том 37, № 3, стр. 328. - 339 марта. 1989.
  42. ^ ЛеКун, Янн; Бенджио, Йошуа (1995). «Сверточные сети для изображений, речи и временных рядов» . В Арбибе, Майкл А. (ред.). Справочник по теории мозга и нейронным сетям (второе изд.). Пресса МТИ. стр. 276–278. Архивировано из оригинала 28 июля 2020 г. Проверено 3 декабря 2019 г.
  43. ^ Джон Б. Хэмпшир и Александр Вайбель, Коннекционистские архитектуры для распознавания фонем нескольких говорящих. Архивировано 31 марта 2022 г. в Wayback Machine , Достижения в области нейронных систем обработки информации, 1990, Морган Кауфманн.
  44. ^ Ко, Том; Педдинти, Виджаядитья; Пови, Дэниел; Зельцер, Майкл Л.; Худанпур, Санджив (март 2018 г.). Исследование увеличения данных реверберирующей речи для надежного распознавания речи (PDF) . 42-я Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP 2017). Новый Орлеан, Лос-Анджелес, США. Архивировано (PDF) из оригинала 8 июля 2018 г. Проверено 4 сентября 2019 г.
  45. ^ Денкер, Дж.С., Гарднер, В.Р., Граф, Х.П., Хендерсон, Д., Ховард, Р.Э., Хаббард, В., Джекель, Л.Д., Бэйрд, Х.С. и Гайон (1989). Распознаватель нейронной сети для рукописных цифр почтового индекса . Архивировано 4 августа 2018 г. в Wayback Machine , AT&T Bell Laboratories.
  46. ^ Перейти обратно: а б Ю. ЛеКан, Б. Бозер, Дж. С. Денкер, Д. Хендерсон, Р. Э. Ховард, В. Хаббард, Л. Д. Джекел, Обратное распространение ошибки, применяемое к распознаванию рукописного почтового индекса. Архивировано 10 января 2020 г. в Wayback Machine ; AT&T Bell Laboratories
  47. ^ Перейти обратно: а б Чжан, Вэй (1991). «Обработка изображений эндотелия роговицы человека на основе обучающей сети» . Прикладная оптика . 30 (29): 4211–7. Бибкод : 1991ApOpt..30.4211Z . дои : 10.1364/AO.30.004211 . ПМИД   20706526 . Архивировано из оригинала 6 февраля 2017 г. Проверено 22 сентября 2016 г.
  48. ^ Перейти обратно: а б Чжан, Вэй (1994). «Компьютерное обнаружение кластерных микрокальцинатов на цифровых маммограммах с использованием инвариантной к сдвигу искусственной нейронной сети» . Медицинская физика . 21 (4): 517–24. Бибкод : 1994MedPh..21..517Z . дои : 10.1118/1.597177 . ПМИД   8058017 . Архивировано из оригинала 6 февраля 2017 г. Проверено 22 сентября 2016 г.
  49. ^ Перейти обратно: а б Лекун, Ю.; Джекель, LD; Ботту, Л.; Кортес, К.; Денкер, Дж.С.; Друкер, Х.; Гийон, И.; Мюллер, Украина; Сакингер, Э.; Симард, П.; Вапник, В. (август 1995 г.). Алгоритмы обучения классификации: сравнение распознавания рукописных цифр (PDF) . Всемирная научная. стр. 261–276. дои : 10.1142/2808 . ISBN  978-981-02-2324-3 . Архивировано (PDF) из оригинала 2 мая 2023 года.
  50. ^ Лекун, Ю.; Ботту, Л.; Бенджио, Ю.; Хаффнер, П. (ноябрь 1998 г.). «Градиентное обучение применительно к распознаванию документов» . Труды IEEE . 86 (11): 2278–2324. дои : 10.1109/5.726791 .
  51. ^ Чжан, Вэй (1991). «Обратное распространение ошибок с весами с минимальной энтропией: метод лучшего обобщения двумерных нейронных сетей, инвариантных к сдвигу» . Материалы Международной совместной конференции по нейронным сетям . Архивировано из оригинала 6 февраля 2017 г. Проверено 22 сентября 2016 г.
  52. ^ Дэниел Граупе, Руи Вэнь Лю, Джордж С. Мошиц. « Применение нейронных сетей для обработки медицинских сигналов. Архивировано 28 июля 2020 г. в Wayback Machine ». В Proc. 27-я конференция IEEE по принятию решений и управлению, стр. 343–347, 1988 г.
  53. ^ Дэниел Граупе, Борис Верн, Г. Грюнер, Аарон Филд и Цю Хуан. « Разложение поверхностных сигналов ЭМГ на потенциалы действия отдельных волокон с помощью нейронной сети . Архивировано 4 сентября 2019 г. в Wayback Machine ». Учеб. Международный симпозиум IEEE. по схемам и системам, стр. 1008–1011, 1989.
  54. ^ Цю Хуан, Даниэль Граупе, И Фан Хуан, Жюй Вэнь Лю». Идентификация паттернов возбуждения нейрональных сигналов [ мертвая ссылка ] В материалах 28-й конференции IEEE Decision and Control Conf., стр. 266–271, 1989. https://ieeexplore.ieee.org/document/70115. Архивировано 31 марта 2022 г. в Wayback Machine.
  55. ^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений (PDF) . Конспекты лекций по информатике. Том. 2766. Спрингер. дои : 10.1007/b11963 . ISBN  978-3-540-40722-5 . S2CID   1304548 . Архивировано (PDF) из оригинала 10 августа 2017 г. Проверено 28 декабря 2016 г.
  56. ^ Ох, КС; Юнг, К. (2004). «ГПУ-реализация нейронных сетей». Распознавание образов . 37 (6): 1311–1314. Бибкод : 2004PatRe..37.1311O . дои : 10.1016/j.patcog.2004.01.013 .
  57. ^ Дэйв Стейнкраус; Патрис Симар; Ян Бак (2005). «Использование графических процессоров для алгоритмов машинного обучения» . 12-я Международная конференция по анализу и распознаванию документов (ICDAR 2005) . стр. 1115–1119. дои : 10.1109/ICDAR.2005.251 . Архивировано из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г.
  58. ^ Кумар Челлапилья; Сид Пури; Патрис Симар (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов» . В Лоретте, Гай (ред.). Десятый международный семинар «Границы в распознавании рукописного текста» . Сувисофт. Архивировано из оригинала 18 мая 2020 г. Проверено 14 марта 2016 г.
  59. ^ Хинтон, GE; Осиндеро, С; Тех, YW (июль 2006 г.). «Алгоритм быстрого обучения для глубоких сетей доверия». Нейронные вычисления . 18 (7): 1527–54. CiteSeerX   10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД   16764513 . S2CID   2309950 .
  60. ^ Бенджио, Йошуа; Ламблин, Паскаль; Поповичи, Дэн; Ларошель, Хьюго (2007). «Жадное послойное обучение глубоких сетей» (PDF) . Достижения в области нейронных систем обработки информации : 153–160. Архивировано (PDF) из оригинала 02 июня 2022 г. Проверено 31 марта 2022 г.
  61. ^ Ранзато, Марк Аурелио; Поултни, Кристофер; Чопра, Сумит; ЛеКун, Янн (2007). «Эффективное изучение разреженных представлений с помощью энергетической модели» (PDF) . Достижения в области нейронных систем обработки информации . Архивировано (PDF) из оригинала 22 марта 2016 г. Проверено 26 июня 2014 г.
  62. ^ Райна, Р; Мадхаван, А; Нг, Эндрю (14 июня 2009 г.). «Крупномасштабное глубокое обучение без учителя с использованием графических процессоров» (PDF) . Материалы 26-й ежегодной международной конференции по машинному обучению . ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению. стр. 873–880. дои : 10.1145/1553374.1553486 . ISBN  9781605585161 . S2CID   392458 . Архивировано (PDF) из оригинала 8 декабря 2020 г. Проверено 22 декабря 2023 г.
  63. ^ Чиресан, Дэн; Мейер, Ули; Гамбарделла, Лука; Шмидхубер, Юрген (2010). «Глубокие большие простые нейронные сети для распознавания рукописных цифр». Нейронные вычисления . 22 (12): 3207–3220. arXiv : 1003.0358 . дои : 10.1162/NECO_a_00052 . ПМИД   20858131 . S2CID   1918673 .
  64. ^ «Таблица результатов конкурса IJCNN 2011» . ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010. Архивировано из оригинала 17 января 2021 г. Проверено 14 января 2019 г.
  65. ^ Шмидхубер, Юрген (17 марта 2017 г.). «История конкурсов компьютерного зрения, выигранных глубокими CNN на GPU» . Архивировано из оригинала 19 декабря 2018 года . Проверено 14 января 2019 г.
  66. ^ Перейти обратно: а б Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN   0001-0782 . S2CID   195908774 . Архивировано (PDF) из оригинала 16 мая 2017 г. Проверено 4 декабря 2018 г.
  67. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений» (PDF) . Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN  978-1-4673-8851-1 . S2CID   206594692 . Архивировано (PDF) из оригинала 5 апреля 2022 г. Проверено 31 марта 2022 г.
  68. ^ Вибке, Андре; Планана, Сабри (2015). «Потенциал Intel (R) Xeon Phi для контролируемого глубокого обучения» . 17-я Международная конференция IEEE по высокопроизводительным вычислениям и коммуникациям (2015 г.), 7-й Международный симпозиум IEEE по безопасности и защите киберпространства (2015 г.) и 12-я Международная конференция IEEE по встраиваемому программному обеспечению и системам (2015 г.) . IEEE Эксплор . IEEE 2015. стр. 758–765. doi : 10.1109/HPCC-CSS-ICES.2015.45 . ISBN  978-1-4799-8937-9 . S2CID   15411954 . Архивировано из оригинала 06 марта 2023 г. Проверено 31 марта 2022 г.
  69. ^ Вибке, Андре; Мемети, Суэйб; Планана, Сабри; Авраам, Аджит (2019). «ХАОС: схема распараллеливания для обучения сверточных нейронных сетей на Intel Xeon Phi». Журнал суперкомпьютеров . 75 (1): 197–227. arXiv : 1702.07908 . дои : 10.1007/s11227-017-1994-x . S2CID   14135321 .
  70. ^ Хинтон, Джеффри (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» . NIPS'12: Материалы 25-й Международной конференции по нейронным системам обработки информации — Том 1 . 1 : 1097–1105. Архивировано из оригинала 20 декабря 2019 г. Проверено 26 марта 2021 г. - через ACM.
  71. ^ Перейти обратно: а б с д и Азулай, Аарон; Вайс, Яир (2019). «Почему глубокие сверточные сети так плохо обобщают небольшие преобразования изображений?» . Журнал исследований машинного обучения . 20 (184): 1–25. ISSN   1533-7928 . Архивировано из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г.
  72. ^ Перейти обратно: а б Жерон, Орельен (2019). Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow . Севастополь, Калифорния: O'Reilly Media. ISBN  978-1-492-03264-9 . , стр. 448
  73. ^ «Сверточные нейронные сети CS231n для визуального распознавания» . cs231n.github.io . Архивировано из оригинала 23 октября 2019 г. Проверено 25 апреля 2017 г.
  74. ^ Перейти обратно: а б Шерер, Доминик; Мюллер, Андреас К.; Бенке, Свен (2010). «Оценка операций объединения в сверточных архитектурах для распознавания объектов» (PDF) . Искусственные нейронные сети (ICANN), 20-я Международная конференция по . Салоники, Греция: Springer. стр. 92–101. Архивировано (PDF) из оригинала 3 апреля 2018 г. Проверено 28 декабря 2016 г.
  75. ^ Грэм, Бенджамин (18 декабря 2014 г.). «Дробный максимальный пул». arXiv : 1412.6071 [ cs.CV ].
  76. ^ Спрингенберг, Йост Тобиас; Досовицкий, Алексей; Брокс, Томас; Ридмиллер, Мартин (21 декабря 2014 г.). «Стремление к простоте: вся сверточная сеть». arXiv : 1412.6806 [ cs.LG ].
  77. ^ Гиршик, Росс (27 сентября 2015 г.). «Быстрый R-CNN». arXiv : 1504.08083 [ cs.CV ].
  78. ^ Ма, Жаньюй; Чанг, Дунлян; Се, Цзиянь; Дин, Ифэн; Вэнь, Шаого; Ли, Сяосюй; Си, Чжунвэй; Го, Цзюнь (2019). «Детальная классификация транспортных средств с модифицированными CNN с максимальным объединением каналов». Транзакции IEEE по автомобильным технологиям . 68 (4). Институт инженеров по электротехнике и электронике (IEEE): 3224–3233. дои : 10.1109/tvt.2019.2899972 . ISSN   0018-9545 . S2CID   86674074 .
  79. ^ Романуке, Вадим (2017). «Подходящее количество и размещение ReLU в сверточных нейронных сетях» . Научно-исследовательский вестник НТУУ «Киевский политехнический институт» . 1 (1): 69–78. дои : 10.20535/1810-0546.2017.1.88156 .
  80. ^ Ксавье Глорот; Антуан Борд; Йошуа Бенджио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АЙСТАТС. Архивировано из оригинала (PDF) 13 декабря 2016 г. Проверено 10 апреля 2023 г. Функции активации выпрямителя и softplus. Второй вариант является более гладкой версией первого.
  81. ^ Крижевский А.; Суцкевер И.; Хинтон, GE (2012). «Классификация Imagenet с глубокими сверточными нейронными сетями» (PDF) . Достижения в области нейронных систем обработки информации . 1 : 1097–1105. Архивировано (PDF) из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г.
  82. ^ Рибейро, Антонио Х.; Шен, Томас Б. (2021). «Как сверточные нейронные сети справляются с псевдонимами». ICASSP 2021–2021 Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) . стр. 2755–2759. arXiv : 2102.07757 . дои : 10.1109/ICASSP39728.2021.9414627 . ISBN  978-1-7281-7605-5 . S2CID   231925012 .
  83. ^ Майбург, Йоханнес К.; Мутон, Коэнраад; Давел, Марели Х. (2020). «Отслеживание инвариантности трансляции в CNNS» . В Гербере, Аурона (ред.). Исследования искусственного интеллекта . Коммуникации в компьютерной и информатике. Том. 1342. Чам: Springer International Publishing. стр. 282–295. arXiv : 2104.05997 . дои : 10.1007/978-3-030-66151-9_18 . ISBN  978-3-030-66151-9 . S2CID   233219976 . Архивировано из оригинала 22 января 2022 г. Проверено 26 марта 2021 г.
  84. ^ Ричард, Чжан (25 апреля 2019 г.). Снова делаем сверточные сети сдвигово-инвариантными . OCLC   1106340711 .
  85. ^ Ядеберг, Симонян, Зиссерман, Кавукчуоглу, Макс, Карен, Андрей, Корай (2015). «Пространственные трансформаторные сети» (PDF) . Достижения в области нейронных систем обработки информации . 28 . Архивировано (PDF) из оригинала 25 июля 2021 г. Проверено 26 марта 2021 г. - через NIPS. {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  86. ^ Э, Сабур, Сара Фрост, Николас Хинтон, Джеффри (26 октября 2017 г.). Динамическая маршрутизация между капсулами . OCLC   1106278545 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  87. ^ Матиз, Серхио; Барнер, Кеннет Э. (01 июня 2019 г.). «Индуктивный конформный предиктор для сверточных нейронных сетей: приложения к активному обучению классификации изображений» . Распознавание образов . 90 : 172–182. Бибкод : 2019PatRe..90..172M . дои : 10.1016/j.patcog.2019.01.035 . ISSN   0031-3203 . S2CID   127253432 . Архивировано из оригинала 29 сентября 2021 г. Проверено 29 сентября 2021 г.
  88. ^ Вислендер, Хокан; Харрисон, Филип Дж.; Скогберг, Габриэль; Джексон, Соня; Фриден, Маркус; Карлссон, Йохан; Спьют, Ола; Уолби, Каролина (февраль 2021 г.). «Глубокое обучение с конформным прогнозированием для иерархического анализа крупномасштабных изображений тканей на целых предметных стеклах» . Журнал IEEE по биомедицинской и медицинской информатике . 25 (2): 371–380. дои : 10.1109/JBHI.2020.2996300 . ISSN   2168-2208 . ПМИД   32750907 . S2CID   219885788 .
  89. ^ Шривастава, Нитиш; К. Джеффри Хинтон; Алексей Крижевский; Илья Суцкевер; Руслан Салахутдинов (2014). «Отсев: простой способ предотвратить переобучение нейронных сетей» (PDF) . Журнал исследований машинного обучения . 15 (1): 1929–1958. Архивировано (PDF) из оригинала 19 января 2016 г. Проверено 3 января 2015 г.
  90. ^ «Регуляризация нейронных сетей с использованием DropConnect | ICML 2013 | JMLR W&CP» . jmlr.org : 1058–1066. 13 февраля 2013 г. Архивировано из оригинала 12 августа 2017 г. Проверено 17 декабря 2015 г.
  91. ^ Зейлер, Мэтью Д.; Фергус, Роб (15 января 2013 г.). «Стохастическое объединение для регуляризации глубоких сверточных нейронных сетей». arXiv : 1301.3557 [ cs.LG ].
  92. ^ Перейти обратно: а б Платт, Джон; Стейнкраус, Дэйв; Симард, Патрис Ю. (август 2003 г.). «Лучшие практики использования сверточных нейронных сетей применительно к визуальному анализу документов – исследования Microsoft» . Исследования Майкрософт . Архивировано из оригинала 07.11.2017 . Проверено 17 декабря 2015 г.
  93. ^ Хинтон, Джеффри Э.; Шривастава, Нитиш; Крижевский, Алекс; Суцкевер, Илья; Салахутдинов, Руслан Р. (2012). «Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков». arXiv : 1207.0580 [ cs.NE ].
  94. ^ «Отсев: простой способ предотвратить переобучение нейронных сетей» . jmlr.org . Архивировано из оригинала 05 марта 2016 г. Проверено 17 декабря 2015 г.
  95. ^ Хинтон, Джеффри (1979). «Некоторые демонстрации эффектов структурных описаний в мысленных образах». Когнитивная наука . 3 (3): 231–250. дои : 10.1016/s0364-0213(79)80008-7 .
  96. ^ Рок, Ирвин. «Система отсчета». Наследие Соломона Аша: Очерки познания и социальной психологии (1990): 243–268.
  97. ^ Дж. Хинтон, Лекции Coursera по нейронным сетям, 2012 г., URL: https://www.coursera.org/learn/neural-networks. Архивировано 31 декабря 2016 г. в Wayback Machine.
  98. ^ Дэйв Гершгорн (18 июня 2018 г.). «Внутренняя история того, как искусственный интеллект стал достаточно хорош, чтобы доминировать в Кремниевой долине» . Кварц . Архивировано из оригинала 12 декабря 2019 года . Проверено 5 октября 2018 г.
  99. ^ Лоуренс, Стив; К. Ли Джайлз; А Чунг Цой; Эндрю Д. Бэк (1997). «Распознавание лиц: подход сверточной нейронной сети». Транзакции IEEE в нейронных сетях . 8 (1): 98–113. CiteSeerX   10.1.1.92.5813 . дои : 10.1109/72.554195 . ПМИД   18255614 . S2CID   2883848 .
  100. ^ Ле Калле, Патрик; Кристиан Виар-Годэн; Доминик Барба (2006). «Подход сверточных нейронных сетей для объективной оценки качества видео» (PDF) . Транзакции IEEE в нейронных сетях . 17 (5): 1316–1327. дои : 10.1109/ТНН.2006.879766 . ПМИД   17001990 . S2CID   221185563 . Архивировано (PDF) из оригинала 24 февраля 2021 года . Проверено 17 ноября 2013 г.
  101. ^ «Масштабный конкурс визуального распознавания ImageNet 2014 (ILSVRC2014)» . Архивировано из оригинала 5 февраля 2016 года . Проверено 30 января 2016 г.
  102. ^ Сегеди, Кристиан; Лю, Вэй; Цзя, Янцин; Сермане, Пьер; Рид, Скотт Э.; Ангелов, Драгомир; Эрхан, Дмитрий; Ванхук, Винсент; Рабинович, Андрей (2015). «Углубляемся с извилинами». Конференция IEEE по компьютерному зрению и распознаванию образов, CVPR 2015, Бостон, Массачусетс, США, 7–12 июня 2015 г. Компьютерное общество IEEE. стр. 1–9. arXiv : 1409.4842 . дои : 10.1109/CVPR.2015.7298594 . ISBN  978-1-4673-6964-0 .
  103. ^ Русаковский, Ольга ; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуан, Чжихэн; Карпаты, Андрей ; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр К.; Фей-Фей, Ли (2014). Image Net « Крупномасштабная задача визуального распознавания ». arXiv : 1409.0575 [ cs.CV ].
  104. ^ «Алгоритм распознавания лиц совершит революцию в поиске изображений» . Обзор технологий . 16 февраля 2015 г. Архивировано из оригинала 20 сентября 2020 г. . Проверено 27 октября 2017 г.
  105. ^ Баккуш, Моэз; Мамалет, Франк; Вольф, Кристиан; Гарсия, Кристоф; Баскурт, Атилла (16 ноября 2011 г.). «Последовательное глубокое обучение для распознавания действий человека». В Салахе Альберт Али; Лепри, Бруно (ред.). Понимание человеческого поведения . Конспекты лекций по информатике. Том. 7065. Шпрингер Берлин Гейдельберг. стр. 29–39. CiteSeerX   10.1.1.385.4740 . дои : 10.1007/978-3-642-25446-8_4 . ISBN  978-3-642-25445-1 .
  106. ^ Цзи, Шуйван; Сюй, Вэй; Ян, Мин; Ю, Кай (01 января 2013 г.). «3D-сверточные нейронные сети для распознавания действий человека». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 35 (1): 221–231. CiteSeerX   10.1.1.169.4046 . дои : 10.1109/TPAMI.2012.59 . ISSN   0162-8828 . ПМИД   22392705 . S2CID   1923924 .
  107. ^ Хуан, Цзе; Чжанг, Цилинь; Ли, Хоуцян; Ли ( , 2018 Вэйпин ) .
  108. ^ Карпати, Андрей и др. « Крупномасштабная классификация видео с помощью сверточных нейронных сетей. Архивировано 6 августа 2019 г. в Wayback Machine ». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). 2014.
  109. ^ Симонян, Карен; Зиссерман, Эндрю (2014). «Двухпотоковые сверточные сети для распознавания действий в видео». arXiv : 1406.2199 [ cs.CV ]. (2014).
  110. ^ Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (22 мая 2018 г.). «Segment-Tube: локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. Бибкод : 2018Senso..18.1657W . дои : 10.3390/s18051657 . ISSN   1424-8220 . ПМЦ   5982167 . ПМИД   29789447 . Архивировано (PDF) из оригинала 1 марта 2021 г. Проверено 14 сентября 2018 г.
  111. ^ Дуань, Сюйхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда (2018). «Совместная локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией». 2018 25-я Международная конференция IEEE по обработке изображений (ICIP) . 25-я Международная конференция IEEE по обработке изображений (ICIP). стр. 918–922. дои : 10.1109/icip.2018.8451692 . ISBN  978-1-4799-7061-2 .
  112. ^ Тейлор, Грэм В.; Фергюс, Роб; ЛеКун, Янн; Бреглер, Кристоф (1 января 2010 г.). Сверточное обучение пространственно-временных характеристик . Материалы 11-й Европейской конференции по компьютерному зрению: Часть VI. ECCV'10. Берлин, Гейдельберг: Springer-Verlag. стр. 140–153. ISBN  978-3-642-15566-6 . Архивировано из оригинала 31 марта 2022 г. Проверено 31 марта 2022 г.
  113. ^ Ле, QV; Цзоу, Вайоминг; Юнг, С.Ю.; Нг, АЮ (01 января 2011 г.). «Изучение иерархических инвариантных пространственно-временных особенностей для распознавания действий с независимым анализом подпространства». ЦВПР 2011 . ЦВПР '11. Вашингтон, округ Колумбия, США: Компьютерное общество IEEE. стр. 3361–3368. CiteSeerX   10.1.1.294.5948 . дои : 10.1109/CVPR.2011.5995496 . ISBN  978-1-4577-0394-2 . S2CID   6006618 .
  114. ^ Грефенштетт, Эдвард; Блансом, Фил; де Фрейтас, Нандо; Германн, Карл Мориц (29 апреля 2014 г.). «Глубокая архитектура для семантического анализа». arXiv : 1404.7296 [ cs.CL ].
  115. ^ Мениль, Грегуар; Дэн, Ли; Гао, Цзяньфэн; Он, Сяодун; Шен, Йелун (апрель 2014 г.). «Изучение семантических представлений с использованием сверточных нейронных сетей для веб-поиска – исследования Microsoft» . Исследования Майкрософт . Архивировано из оригинала 15 сентября 2017 г. Проверено 17 декабря 2015 г.
  116. ^ Кальхбреннер, Нал; Грефенштетт, Эдвард; Блансом, Фил (08 апреля 2014 г.). «Сверточная нейронная сеть для моделирования предложений». arXiv : 1404.2188 [ cs.CL ].
  117. ^ Ким, Юн (25 августа 2014 г.). «Сверточные нейронные сети для классификации предложений». arXiv : 1408.5882 [ cs.CL ].
  118. ^ Коллоберт, Ронан и Джейсон Уэстон. « Единая архитектура для обработки естественного языка: глубокие нейронные сети с многозадачным обучением. Архивировано 4 сентября 2019 г. в Wayback Machine ». Материалы 25-й международной конференции по машинному обучению. АКМ, 2008.
  119. ^ Коллобер, Ронан; Уэстон, Джейсон; Ботту, Леон; Карлен, Майкл; Кавукчуоглу, Корай; Кукса, Павел (2 марта 2011 г.). «Обработка естественного языка (почти) с нуля». arXiv : 1103.0398 [ cs.LG ].
  120. ^ Инь, Вт; Канн, К; Ю, М; Шютце, Х (2 марта 2017 г.). «Сравнительное исследование CNN и RNN для обработки естественного языка». arXiv : 1702.01923 [ cs.LG ].
  121. ^ Бай, С.; Колтер, Дж.С.; Колтун, В. (2018). «Эмпирическая оценка общих сверточных и рекуррентных сетей для моделирования последовательностей». arXiv : 1803.01271 [ cs.LG ].
  122. ^ Грубер, Н. (2021). «Обнаружение динамики действия в тексте с помощью рекуррентной нейронной сети». Нейронные вычисления и их приложения . 33 (12): 15709–15718. дои : 10.1007/S00521-021-06190-5 . S2CID   236307579 .
  123. ^ Хаотянь, Дж.; Чжун, Ли; Цяньсяо, Ли (2021). «Теория аппроксимации сверточных архитектур для моделирования временных рядов». Международная конференция по машинному обучению . arXiv : 2107.09355 .
  124. ^ Рен, Ханьшэн; Сюй, Бисюн; Ван, Юйцзин; Йи, Чао; Хуан, Конгруй; Коу, Сяоюй; Син, Тони; Ян, Мао; Тонг, Цзе; Чжан, Ци (2019). Служба обнаружения аномалий временных рядов в Microsoft | Материалы 25-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . arXiv : 1906.03821 . дои : 10.1145/3292500.3330680 . S2CID   182952311 .
  125. ^ Валлах, Ижар; Дзамба, Майкл; Хейфец, Авраам (9 октября 2015 г.). «AtomNet: глубокая сверточная нейронная сеть для прогнозирования биологической активности при открытии лекарств на основе структуры». arXiv : 1510.02855 [ cs.LG ].
  126. ^ Йосински, Джейсон; Клюн, Джефф; Нгуен, Ань; Фукс, Томас; Липсон, Ход (22 июня 2015 г.). «Понимание нейронных сетей посредством глубокой визуализации». arXiv : 1506.06579 [ cs.CV ].
  127. ^ «У стартапа из Торонто есть более быстрый способ найти эффективные лекарства» . Глобус и почта . Архивировано из оригинала 20 октября 2015 г. Проверено 9 ноября 2015 г.
  128. ^ «Стартап использует суперкомпьютеры для поиска лекарств» . KQED Ваше будущее . 27 мая 2015 г. Архивировано из оригинала 6 декабря 2018 г. Проверено 9 ноября 2015 г.
  129. ^ Челлапилла, К; Фогель, Д.Б. (1999). «Развитие нейронных сетей для игры в шашки, не полагаясь на экспертные знания». IEEE Транснейронная сеть . 10 (6): 1382–91. дои : 10.1109/72.809083 . ПМИД   18252639 .
  130. ^ Челлапилла, К.; Фогель, Д.Б. (2001). «Развитие экспертной программы игры в шашки без использования человеческого опыта». Транзакции IEEE в эволюционных вычислениях . 5 (4): 422–428. дои : 10.1109/4235.942536 .
  131. ^ Фогель, Дэвид (2001). Blondie24: Игра на грани искусственного интеллекта . Сан-Франциско, Калифорния: Морган Кауфманн. ISBN  978-1558607835 .
  132. ^ Кларк, Кристофер; Сторки, Амос (2014). «Обучение глубоких сверточных нейронных сетей игре в го». arXiv : 1412.3409 [ cs.AI ].
  133. ^ Мэддисон, Крис Дж.; Хуанг, Аджа; Суцкевер, Илья; Сильвер, Дэвид (2014). «Перемещение оценки в Go с использованием глубоких сверточных нейронных сетей». arXiv : 1412.6564 [ cs.LG ].
  134. ^ «АльфаГо – Google DeepMind» . Архивировано из оригинала 30 января 2016 года . Проверено 30 января 2016 г.
  135. ^ Бай, Шаоцзе; Колтер, Дж. Зико; Колтун, Владлен (19 апреля 2018 г.). «Эмпирическая оценка общих сверточных и рекуррентных сетей для моделирования последовательностей». arXiv : 1803.01271 [ cs.LG ].
  136. ^ Ю, Фишер; Колтун, Владлен (30 апреля 2016 г.). «Многомасштабная агрегация контекста с помощью расширенных сверток». arXiv : 1511.07122 [ cs.CV ].
  137. ^ Боровых, Анастасия; Бохте, Сандер; Остерли, Корнелис В. (17 сентября 2018 г.). «Условное прогнозирование временных рядов с помощью сверточных нейронных сетей». arXiv : 1703.04691 [ stat.ML ].
  138. ^ Миттельман, Рони (3 августа 2015 г.). «Моделирование временных рядов с использованием непрореженных полностью сверточных нейронных сетей». arXiv : 1508.00317 [ stat.ML ].
  139. ^ Чен, Итянь; Канг, Янфэй; Чен, Исюн; Ван, Цзычжоу (11 июня 2019 г.). «Вероятностное прогнозирование с помощью временной сверточной нейронной сети». arXiv : 1906.04397 [ stat.ML ].
  140. ^ Чжао, Бендонг; Лу, Хуаньчжан; Чен, Шанфэн; Лю, Цзюньлян; У, Донгья (01 февраля 2017 г.). «Сверточные нейронные сети для классов временных рядов». Журнал системной инженерии и электроники . 28 (1): 162–169. дои : 10.21629/JSEE.2017.01.18 .
  141. ^ Петнехази, Габор (21 августа 2019 г.). «QCNN: Квантильная сверточная нейронная сеть». arXiv : 1908.07978 [ cs.LG ].
  142. ^ Хуберт Мара (07.06.2019), HeiCuBeDa Hilprecht - Набор эталонных данных Heidelberg Cuneiform для коллекции Hilprecht (на немецком языке), heiDATA - институциональный репозиторий исследовательских данных Гейдельбергского университета, doi : 10.11588/data/IE8CCN
  143. ^ Хуберт Мара и Бартош Богач (2019), «Взлом кода сломанных планшетов: задача обучения аннотированному клинописному письму в нормализованных наборах 2D и 3D данных», Материалы 15-й Международной конференции по анализу и распознаванию документов (ICDAR) (на немецком языке) , Сидней, Австралия, стр. 148–153, номер документа : 10.1109/ICDAR.2019.00032 , ISBN.  978-1-7281-3014-9 , S2CID   211026941
  144. ^ Богач, Бартош; Мара, Хуберт (2020), «Периодическая классификация трехмерных клинописных табличек с геометрическими нейронными сетями», Материалы 17-й Международной конференции по границам распознавания рукописного текста (ICFHR) , Дортмунд, Германия
  145. ^ Презентация документа ICFHR о периодической классификации трехмерных клинописных табличек с геометрическими нейронными сетями на YouTube
  146. ^ Дурджой Сен Майтра; Уджвал Бхаттачарья; С.К. Паруи, «Общий подход к распознаванию рукописных символов в нескольких сценариях на основе CNN». Архивировано 16 октября 2023 г. в Wayback Machine , в «Анализ и распознавание документов» (ICDAR), 13-я Международная конференция 2015 г., том, №, стр. 1021–1025, 23–26 августа 2015 г.
  147. ^ «НИПС 2017» . Симпозиум по интерпретируемому машинному обучению . 20 октября 2017 г. Архивировано из оригинала 07 сентября 2019 г. Проверено 12 сентября 2018 г.
  148. ^ Цзан, Цзиньлян; Ван, Ле; Лю, Цзыи; Чжан, Цилинь; Хуа, Банда; Чжэн, Наньнин (2018). «Временно-взвешенная сверточная нейронная сеть, основанная на внимании, для распознавания действий». Приложения и инновации искусственного интеллекта . ИФИП: Достижения в области информационных и коммуникационных технологий. Том. 519. Чам: Springer International Publishing. стр. 97–108. arXiv : 1803.07179 . дои : 10.1007/978-3-319-92007-8_9 . ISBN  978-3-319-92006-1 . ISSN   1868-4238 . S2CID   4058889 .
  149. ^ Ван, Ле; Цзан, Цзиньлян; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда; Чжэн, Наньнин (21 июня 2018 г.). «Распознавание действий с помощью временной взвешенной сверточной нейронной сети, учитывающей внимание» (PDF) . Датчики . 18 (7): 1979. Бибкод : 2018Senso..18.1979W . дои : 10.3390/s18071979 . ISSN   1424-8220 . ПМК   6069475 . ПМИД   29933555 . Архивировано (PDF) из оригинала 13 сентября 2018 г. Проверено 14 сентября 2018 г.
  150. ^ Онг, Хао И; Чавес, Кевин; Хонг, Август (18 августа 2015 г.). «Распределенное глубокое Q-обучение». arXiv : 1508.04186v2 [ cs.LG ].
  151. ^ Мних, Владимир; и др. (2015). «Контроль на человеческом уровне посредством глубокого обучения с подкреплением». Природа . 518 (7540): 529–533. Бибкод : 2015Natur.518..529M . дои : 10.1038/nature14236 . ПМИД   25719670 . S2CID   205242740 .
  152. ^ Сан, Р.; Сешнс, К. (июнь 2000 г.). «Самосегментация последовательностей: автоматическое формирование иерархий последовательного поведения». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 30 (3): 403–418. CiteSeerX   10.1.1.11.226 . дои : 10.1109/3477.846230 . ISSN   1083-4419 . ПМИД   18252373 .
  153. ^ «Сверточные сети глубоких убеждений на CIFAR-10» (PDF) . Архивировано (PDF) из оригинала 30 августа 2017 г. Проверено 18 августа 2017 г.
  154. ^ Ли, Хонглак; Гросс, Роджер; Ранганатх, Раджеш; Нг, Эндрю Ю. (1 января 2009 г.). «Сверточные сети глубокого убеждения для масштабируемого неконтролируемого обучения иерархических представлений». Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ. стр. 609–616. CiteSeerX   10.1.1.149.6800 . дои : 10.1145/1553374.1553453 . ISBN  9781605585161 . S2CID   12008458 .
  155. ^ Кейд Мец (18 мая 2016 г.). «Google создала собственные чипы для работы своих ботов с искусственным интеллектом» . Проводной . Архивировано из оригинала 13 января 2018 года . Проверено 6 марта 2017 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 214f53c6c40fc72069791a06e61ef96a__1721964480
URL1:https://arc.ask3.ru/arc/aa/21/6a/214f53c6c40fc72069791a06e61ef96a.html
Заголовок, (Title) документа по адресу, URL1:
Convolutional neural network - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)