АлексНет
AlexNet — это название архитектуры сверточной нейронной сети (CNN), разработанной Алексом Крижевским в сотрудничестве с Ильей Суцкевером и Джеффри Хинтоном , который был доктором философии Крижевского. советник Университета Торонто. [1] [2]
AlexNet участвовал в конкурсе ImageNet Large Scale Visual Recognition Challenge 30 сентября 2012 года. [3] Сеть достигла ошибки топ-5 в 15,3%, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Основной результат исходной статьи заключался в том, что глубина модели была важна для ее высокой производительности, что было дорогостоящим в вычислительном отношении, но стало возможным благодаря использованию графических процессоров (GPU) во время обучения. [2]
Исторический контекст [ править ]
AlexNet был не первой быстрой реализацией CNN на графическом процессоре, выигравшей конкурс по распознаванию изображений. CNN на GPU, автор: К. Челлапилла и др. (2006) было в 4 раза быстрее, чем эквивалентная реализация на ЦП. [4] Глубокий CNN Дэна Чирешана и др. (2011) в IDSIA было уже в 60 раз быстрее [5] и превзошли своих предшественников в августе 2011 года. [6] С 15 мая 2011 г. по 10 сентября 2012 г. их канал CNN выиграл не менее четырех имиджевых конкурсов. [7] [8] Они также значительно улучшили лучшую производительность, описанную в литературе, для баз данных с несколькими изображениями . [9]
По данным статьи AlexNet, [2] Более ранние ворота Чирешана «в чем-то похожи». Оба изначально были написаны с использованием CUDA для работы с поддержкой графического процессора . Фактически, оба на самом деле являются просто вариантами конструкций CNN, представленными Яном ЛеКуном и др. (1989) [10] [11] который применил алгоритм обратного распространения ошибки к варианту Кунихико Фукусимы оригинальной архитектуры CNN , названному « неокогнитрон ». [12] [13] Позднее архитектура была модифицирована методом Дж. Венга под названием max-pooling . [14] [8]
В 2015 году AlexNet уступил проекту Microsoft Research Asia с более чем 100 слоями , который выиграл конкурс ImageNet 2015. [15]
Сетевой дизайн [ править ]
AlexNet содержит восемь слоев: первые пять являются сверточными слоями, за некоторыми из них следуют слои максимального пула , а последние три являются полносвязными слоями. Сеть, за исключением последнего слоя, разделена на две копии, каждая из которых работает на одном графическом процессоре. [2] Всю структуру можно записать так:
- CNN = сверточный слой (с активацией ReLU)
- RN = нормализация местного ответа
- MP = максимальное объединение
- FC = полносвязный уровень (с активацией ReLU)
- Линейный = полностью связный слой (без активации)
- ДО = отсев
Он использовал ненасыщающую функцию активации ReLU , которая показала улучшенную эффективность тренировки по сравнению с tanh и сигмовидной мышцей . [2]
Влияние [ править ]
AlexNet считается одной из самых влиятельных статей, опубликованных в области компьютерного зрения, что послужило толчком к публикации многих других статей, в которых используются CNN и графические процессоры для ускорения глубокого обучения . [16] По данным Google Scholar, по состоянию на начало 2023 года статья AlexNet цитировалась более 120 000 раз. [17]
Ссылки [ править ]
- ^ Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир» . Кварц .
- ↑ Перейти обратно: Перейти обратно: а б с д и Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN 0001-0782 . S2CID 195908774 .
- ^ «Масштабный конкурс визуального распознавания ImageNet 2012 (ILSVRC2012)» . image-net.org .
- ^ Кумар Челлапилья; Сидд Пури; Патрис Симар (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов» . В Лоретте, Гай (ред.). Десятый международный семинар «Границы в распознавании рукописного текста» . Сувисофт.
- ^ Чирешан, Дэн; Ули Мейер; Джонатан Маски; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242 . Проверено 17 ноября 2013 г.
- ^ «Таблица результатов конкурса IJCNN 2011» . ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010 . Проверено 14 января 2019 г.
- ^ Шмидхубер, Юрген (17 марта 2017 г.). «История конкурсов компьютерного зрения, выигранных глубокими CNN на GPU» . Проверено 14 января 2019 г.
- ↑ Перейти обратно: Перейти обратно: а б Шмидхубер, Юрген (2015). «Глубокое обучение» . Схоларпедия . 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД 16764513 . S2CID 2309950 .
- ^ Чирешан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110 . ISBN 978-1-4673-1226-4 . OCLC 812295155 . S2CID 2161592 .
- ^ ЛеКун, Ю.; Бозер, Б.; Денкер, Дж. С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекель, Л.Д. (1989). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса» (PDF) . Нейронные вычисления . 1 (4). MIT Press – Журналы: 541–551. дои : 10.1162/neco.1989.1.4.541 . ISSN 0899-7667 . OCLC 364746139 .
- ^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791 . S2CID 14542261 . Проверено 7 октября 2016 г.
- ^ Фукусима, К. (2007). «Неокогнитрон» . Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F . doi : 10.4249/scholarpedia.1717 .
- ^ Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251 . ПМИД 7370364 . S2CID 206775608 . Проверено 16 ноября 2013 г.
- ^ Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». Учеб. 4-я Международная конференция. Компьютерное зрение : 121–128.
- ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1 . S2CID 206594692 .
- ^ Дешпанде, Адит. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)» . adeshpande3.github.io . Проверено 4 декабря 2018 г.
- ^ Статья AlexNet в Google Scholar