Ленет

LeNet — это структура сверточной нейронной сети, предложенная ЛеКуном и др. в 1998 году. ^[1] В целом LeNet относится к LeNet-5 и представляет собой простую сверточную нейронную сеть . Сверточные нейронные сети — это своего рода нейронная сеть прямого распространения , искусственные нейроны которой могут реагировать на часть окружающих ячеек в диапазоне покрытия и хорошо работать при крупномасштабной обработке изображений.

История развития

LeNet-5 была одной из первых сверточных нейронных сетей и способствовала развитию глубокого обучения . С 1988 года, после многих лет исследований и множества успешных итераций, новаторская работа получила название LeNet-5.

В 1989 году Ян ЛеКун и др. в Bell Labs впервые применили алгоритм обратного распространения ошибки к практическим приложениям и полагали, что способность к обучению обобщению сети можно значительно улучшить, предоставив ограничения из предметной области задачи. Он объединил сверточную нейронную сеть, обученную алгоритмами обратного распространения ошибки для чтения рукописных чисел, и успешно применил ее для идентификации рукописных номеров почтовых индексов, предоставленных Почтовой службой США . Это был прототип того, что позже стало называться LeNet. ^[2] В том же году ЛеКун описал небольшую проблему распознавания рукописных цифр в другой статье и показал, что, хотя проблема линейно разделима, однослойные сети демонстрируют плохие возможности обобщения. При использовании детекторов признаков, инвариантных к сдвигу, в многослойной сети с ограничениями модель может работать очень хорошо. Он считал, что эти результаты доказывают, что минимизация количества свободных параметров в нейронной сети может повысить способность нейронной сети к обобщению. ^[3]

В 1990 году в их статье снова было описано применение сетей обратного распространения ошибки для распознавания рукописных цифр. Они выполнили лишь минимальную предварительную обработку данных, а модель была тщательно разработана для этой задачи и имела строгие ограничения. Входные данные состояли из изображений, каждое из которых содержало число, а результаты тестирования цифровых данных почтового индекса, предоставленные Почтовой службой США, показали, что уровень ошибок модели составлял всего 1%, а уровень отклонения — около 9%. ^[4]

Их исследования продолжались следующие четыре года, и в 1994 году была разработана база данных MNIST , для которой LeNet-1 была слишком мала, поэтому на ней была обучена новая NN LeNet-4. ^[5] Год спустя коллектив AT&T Bell Labs представил LeNet-5 и рассмотрел различные методы распознавания рукописных символов на бумаге, используя стандартные рукописные цифры для определения эталонных задач. Эти модели были сравнены, и результаты показали, что последняя сеть превзошла другие модели. ^[6] К 1998 году Ян ЛеКун, Леон Ботту , Йошуа Бенджио и Патрик Хаффнер смогли предоставить примеры практического применения нейронных сетей, такие как две системы для распознавания рукописных символов в Интернете и модели, способные считывать миллионы чеков в день. ^[1]

Исследования достигли больших успехов и вызвали интерес учёных к изучению нейронных сетей. Хотя архитектура наиболее эффективных сегодня нейронных сетей не такая же, как у LeNet, сеть стала отправной точкой для большого количества архитектур нейронных сетей, а также вдохновила эту область.

Хронология
1989	Янн ЛеКун и др. предложил первоначальную форму LeNet	ЛеКун, Ю.; Бозер, Б.; Денкер, Дж.С.; Хендерсон, Д.; Ховард, RE; Хаббард, В. и Джекель, Л.Д. (1989). Обратное распространение применяется к распознаванию рукописного почтового индекса. Нейронные вычисления, 1(4):541-551. ^[2]
1989	Ян ЛеКун доказывает, что минимизация количества свободных параметров в нейронных сетях может повысить способность нейронных сетей к обобщению.	ЛеКун, Ю. (1989). Стратегии обобщения и сетевого проектирования. Технический отчет CRG-TR-89-4, факультет компьютерных наук, Университет Торонто. ^[3]
1990	В их статье еще раз описывается применение сетей обратного распространения ошибки в распознавании рукописных цифр.	ЛеКун, Ю.; Бозер, Б.; Денкер, Дж.С.; Хендерсон, Д.; Ховард, RE; Хаббард, В. и Джекель, Л.Д. (1990). Распознавание рукописных цифр с помощью сети обратного распространения ошибки. Достижения в области нейронных систем обработки информации 2 (NIPS * 89). ^[4]
1994	Разработана база данных MNIST и LeNet-4.
1995	Разработан LeNet-5, различные методы, применяемые для распознавания рукописных символов, рассмотрены и сравнены со стандартными тестами распознавания рукописных цифр. Результаты показывают, что сверточные нейронные сети превосходят все другие модели.
1998	Практическое применение	ЛеКун, Ю.; Ботту, Л.; Бенджио Ю. и Хаффнер П. (1998). Градиентное обучение применительно к распознаванию документов. Труды IEEE. 86(11): 2278-2324. ^[1]

Структура

Как представитель ранней сверточной нейронной сети, LeNet обладает основными модулями сверточной нейронной сети, такими как сверточный слой, слой пула и уровень полного соединения, что закладывает основу для будущего развития сверточной нейронной сети. Как показано на рисунке (входные данные изображения размером 32*32 пикселя): LeNet-5 состоит из семи слоев. Помимо ввода, каждый второй уровень может обучать параметры . На рисунке Cx представляет уровень свертки, Sx представляет уровень подвыборки, Fx представляет собой полный уровень соединения, а x представляет индекс слоя. ^[2]^[7]^[8]

Слой C1 представляет собой слой свертки с шестью ядрами свертки размером 5x5 и размером отображения объектов 28x28, что может предотвратить выпадение информации входного изображения за границу ядра свертки.

Слой S2 — это слой подвыборки/объединения, который выводит 6 графиков объектов размером 14x14. Каждая ячейка на каждой карте объектов соединена с окрестностями 2x2 на соответствующей карте объектов в C1.

Слой C3 представляет собой слой свертки с 16 ядрами свертки 5-5. Ввод первых шести карт признаков C3 представляет собой каждое непрерывное подмножество трех карт признаков в S2, вход следующих шести карт признаков поступает из входных данных четырех непрерывных подмножеств, а вход следующих трех карт признаков поступает из четыре разрывных подмножества. Наконец, входные данные для последнего графа признаков поступают из всех графов признаков S2.

Слой S4 аналогичен S2, имеет размер 2x2 и выводит 16 графиков функций 5x5.

Слой C5 — это слой свертки со 120 ядрами свертки размером 5x5. Каждая ячейка соединена с окрестностью 5*5 на всех 16 графах признаков S4. Здесь, поскольку размер графа функций S4 также равен 5x5, выходной размер C5 равен 1*1. Итак, S4 и C5 полностью связаны. C5 помечен как сверточный слой, а не как полностью связный слой, потому что, если входные данные LeNet-5 станут больше, а его структура останется неизменной, его выходной размер будет больше 1x1, т. е. не будет полностью связным слоем.

Слой F6 полностью подключен к C5, и выводятся 84 графа объектов.

Функции

Каждый сверточный слой состоит из трех частей: функции свертки, объединения и нелинейной активации.
Использование свертки для извлечения пространственных объектов (первоначально свертка называлась рецептивными полями)
Средний слой подвыборки подвыборки
Тана функция активации
Использование MLP в качестве последнего классификатора
Разреженные соединения между слоями для уменьшения сложности вычислений.

Приложение

Распознавание простых цифровых изображений — самое классическое приложение LeNet, поскольку оно было создано именно для этого.

Янн ЛеКун и др. создал первоначальную форму LeNet в 1989 году. Статья « Обратное распространение ошибки, примененная к распознаванию рукописного почтового индекса». ^[2] демонстрирует, как такие ограничения могут быть интегрированы в сеть обратного распространения ошибки через архитектуру сети. И он был успешно применен для распознавания рукописных цифр почтового индекса, предоставленных Почтовой службой США. ^[2]

Анализ развития

LeNet-5 означает появление CNN и определяет основные компоненты CNN . ^[1] Но в то время он не был популярен из-за отсутствия аппаратного обеспечения, особенно графических процессоров и других алгоритмов, таких как SVM, которые могли достичь аналогичных эффектов или даже превзойти LeNet.

После успеха AlexNet в 2012 году CNN стала лучшим выбором для приложений компьютерного зрения, и было создано множество различных типов CNN , например серия R- CNN . Сегодня модели CNN сильно отличаются от LeNet, но все они разработаны на основе LeNet.

Трехуровневая древовидная архитектура, имитирующая LeNet-5 и состоящая только из одного сверточного слоя, достигла аналогичного уровня успеха в наборе данных CIFAR-10. ^[9]

Увеличение количества фильтров для архитектуры LeNet приводит к степенному уменьшению частоты ошибок. Эти результаты показывают, что мелкая сеть может достичь той же производительности, что и архитектуры глубокого обучения. ^[10]

Ссылки

^ Перейти обратно: ^а ^б ^с ^д Лекун, Ю.; Ботту, Л.; Бенджио, Ю.; Хаффнер, П. (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. дои : 10.1109/5.726791 . S2CID 14542261 .
^ Перейти обратно: ^а ^б ^с ^д ^и ЛеКун, Ю.; Бозер, Б.; Денкер, Дж.С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекель, LD (декабрь 1989 г.). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса». Нейронные вычисления . 1 (4): 541–551. дои : 10.1162/neco.1989.1.4.541 . ISSN 0899-7667 . S2CID 41312633 .
^ Перейти обратно: ^а ^б Лекун, Янн (июнь 1989 г.). «Стратегии обобщения и сетевого проектирования» (PDF) . Технический отчет CRG-TR-89-4 . Департамент компьютерных наук Университета Торонто.
^ Перейти обратно: ^а ^б ЛеКун, Ю.; Бозер, Б.; Денкер, Дж.С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекер, LD (июнь 1990 г.). «Распознавание рукописных цифр с помощью сети обратного распространения ошибки» (PDF) . Достижения в области нейронных систем обработки информации . 2 : 396–404.
^ http://yann.lecun.com/exdb/publis/pdf/bottou-94.pdf
^ https://www.eecis.udel.edu/~shatkay/Course/papers/NetworksAndCNNClasifiersIntroVapnik95.pdf
^ «LeNet of Convolutional Neural Network — Brook_icv — Blog Park» . www.cnblogs.com (на китайском языке (Китай)) Проверено 16 ноября 2019 г ..
^ «Подробное объяснение сверточной нейронной сети CNN глубокого обучения LeNet-5» . blog.csdn.net (на китайском языке (Китай)) . Проверено 16 ноября 2019 г.
^ Меир, Юваль; Бен-Ноам, Итамар; Цах, Ярден; Ходассман, Шири; Кантер, Идо (30 января 2023 г.). «Обучение древовидной архитектуре превосходит сверточную сеть прямого распространения» . Научные отчеты . 13 (1): 962. Бибкод : 2023НатСР..13..962М . дои : 10.1038/s41598-023-27986-6 . ISSN 2045-2322 . ПМЦ 9886946 . ПМИД 36717568 .
^ Меир, Юваль; Тевет, Офек; Цах, Ярден; Ходассман, Шири; Гросс, Ронит Д.; Кантер, Идо (20 апреля 2023 г.). «Эффективное поверхностное обучение как альтернатива глубокому обучению» . Научные отчеты . 13 (1): 5423. arXiv : 2211.11106 . Бибкод : 2023НатСР..13.5423М . дои : 10.1038/s41598-023-32559-8 . ISSN 2045-2322 . ПМЦ 10119101 . ПМИД 37080998 .

[:1-1] Перейти обратно: ^а ^б ^с ^д Лекун, Ю.; Ботту, Л.; Бенджио, Ю.; Хаффнер, П. (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. дои : 10.1109/5.726791 . S2CID 14542261 .

[:0-2] Перейти обратно: ^а ^б ^с ^д ^и ЛеКун, Ю.; Бозер, Б.; Денкер, Дж.С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекель, LD (декабрь 1989 г.). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса». Нейронные вычисления . 1 (4): 541–551. дои : 10.1162/neco.1989.1.4.541 . ISSN 0899-7667 . S2CID 41312633 .

[:2-3] Перейти обратно: ^а ^б Лекун, Янн (июнь 1989 г.). «Стратегии обобщения и сетевого проектирования» (PDF) . Технический отчет CRG-TR-89-4 . Департамент компьютерных наук Университета Торонто.

[:3-4] Перейти обратно: ^а ^б ЛеКун, Ю.; Бозер, Б.; Денкер, Дж.С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекер, LD (июнь 1990 г.). «Распознавание рукописных цифр с помощью сети обратного распространения ошибки» (PDF) . Достижения в области нейронных систем обработки информации . 2 : 396–404.

[5] ttp://yann.lecun.com/exdb/publis/pdf/bottou-94.pdf

[6] ttps://www.eecis.udel.edu/~shatkay/Course/papers/NetworksAndCNNClasifiersIntroVapnik95.pdf

[7] «LeNet of Convolutional Neural Network — Brook_icv — Blog Park» . www.cnblogs.com (на китайском языке (Китай)) Проверено 16 ноября 2019 г ..

[8] «Подробное объяснение сверточной нейронной сети CNN глубокого обучения LeNet-5» . blog.csdn.net (на китайском языке (Китай)) . Проверено 16 ноября 2019 г.

[9] Меир, Юваль; Бен-Ноам, Итамар; Цах, Ярден; Ходассман, Шири; Кантер, Идо (30 января 2023 г.). «Обучение древовидной архитектуре превосходит сверточную сеть прямого распространения» . Научные отчеты . 13 (1): 962. Бибкод : 2023НатСР..13..962М . дои : 10.1038/s41598-023-27986-6 . ISSN 2045-2322 . ПМЦ 9886946 . ПМИД 36717568 .

[10] Меир, Юваль; Тевет, Офек; Цах, Ярден; Ходассман, Шири; Гросс, Ронит Д.; Кантер, Идо (20 апреля 2023 г.). «Эффективное поверхностное обучение как альтернатива глубокому обучению» . Научные отчеты . 13 (1): 5423. arXiv : 2211.11106 . Бибкод : 2023НатСР..13.5423М . дои : 10.1038/s41598-023-32559-8 . ISSN 2045-2322 . ПМЦ 10119101 . ПМИД 37080998 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]