АлексНет

AlexNet — это название архитектуры сверточной нейронной сети (CNN), разработанной Алексом Крижевским в сотрудничестве с Ильей Суцкевером и Джеффри Хинтоном , который был доктором философии Крижевского. советник Университета Торонто. ^[1]^[2]

AlexNet участвовал в конкурсе ImageNet Large Scale Visual Recognition Challenge 30 сентября 2012 года. ^[3] Сеть достигла ошибки топ-5 в 15,3%, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Основной результат исходной статьи заключался в том, что глубина модели была важна для ее высокой производительности, что было дорогостоящим в вычислительном отношении, но стало возможным благодаря использованию графических процессоров (GPU) во время обучения. ^[2]

Исторический контекст [ править ]

AlexNet был не первой быстрой реализацией CNN на графическом процессоре, выигравшей конкурс по распознаванию изображений. CNN на GPU, автор: К. Челлапилла и др. (2006) было в 4 раза быстрее, чем эквивалентная реализация на ЦП. ^[4] Глубокий CNN Дэна Чирешана и др. (2011) в IDSIA было уже в 60 раз быстрее ^[5] и превзошли своих предшественников в августе 2011 года. ^[6] С 15 мая 2011 г. по 10 сентября 2012 г. их канал CNN выиграл не менее четырех имиджевых конкурсов. ^[7]^[8] Они также значительно улучшили лучшую производительность, описанную в литературе, для баз данных с несколькими изображениями . ^[9]

По данным статьи AlexNet, ^[2] Более ранние ворота Чирешана «в чем-то похожи». Оба изначально были написаны с использованием CUDA для работы с поддержкой графического процессора . Фактически, оба на самом деле являются просто вариантами конструкций CNN, представленными Яном ЛеКуном и др. (1989) ^[10]^[11] который применил алгоритм обратного распространения ошибки к варианту Кунихико Фукусимы оригинальной архитектуры CNN , названному « неокогнитрон ». ^[12]^[13] Позднее архитектура была модифицирована методом Дж. Венга под названием max-pooling . ^[14]^[8]

В 2015 году AlexNet уступил проекту Microsoft Research Asia с более чем 100 слоями , который выиграл конкурс ImageNet 2015. ^[15]

Сетевой дизайн [ править ]

AlexNet содержит восемь слоев: первые пять являются сверточными слоями, за некоторыми из них следуют слои максимального пула , а последние три являются полносвязными слоями. Сеть, за исключением последнего слоя, разделена на две копии, каждая из которых работает на одном графическом процессоре. ^[2] Всю структуру можно записать так:

(CNN\to RN\to MP)^{2}\to (CNN^{3}\to MP)\to (FC\to DO)^{2}\to Linear\to softmax

где

CNN = сверточный слой (с активацией ReLU)
RN = нормализация местного ответа
MP = максимальное объединение
FC = полносвязный уровень (с активацией ReLU)
Линейный = полностью связный слой (без активации)
ДО = отсев

Он использовал ненасыщающую функцию активации ReLU , которая показала улучшенную эффективность тренировки по сравнению с tanh и сигмовидной мышцей . ^[2]

Влияние [ править ]

AlexNet считается одной из самых влиятельных статей, опубликованных в области компьютерного зрения, что послужило толчком к публикации многих других статей, в которых используются CNN и графические процессоры для ускорения глубокого обучения . ^[16] По данным Google Scholar, по состоянию на начало 2023 года статья AlexNet цитировалась более 120 000 раз. ^[17]

Ссылки [ править ]

^ Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир» . Кварц .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN 0001-0782 . S2CID 195908774 .
^ «Масштабный конкурс визуального распознавания ImageNet 2012 (ILSVRC2012)» . image-net.org .
^ Кумар Челлапилья; Сидд Пури; Патрис Симар (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов» . В Лоретте, Гай (ред.). Десятый международный семинар «Границы в распознавании рукописного текста» . Сувисофт.
^ Чирешан, Дэн; Ули Мейер; Джонатан Маски; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242 . Проверено 17 ноября 2013 г.
^ «Таблица результатов конкурса IJCNN 2011» . ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010 . Проверено 14 января 2019 г.
^ Шмидхубер, Юрген (17 марта 2017 г.). «История конкурсов компьютерного зрения, выигранных глубокими CNN на GPU» . Проверено 14 января 2019 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Шмидхубер, Юрген (2015). «Глубокое обучение» . Схоларпедия . 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД 16764513 . S2CID 2309950 .
^ Чирешан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110 . ISBN 978-1-4673-1226-4 . OCLC 812295155 . S2CID 2161592 .
^ ЛеКун, Ю.; Бозер, Б.; Денкер, Дж. С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекель, Л.Д. (1989). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса» (PDF) . Нейронные вычисления . 1 (4). MIT Press – Журналы: 541–551. дои : 10.1162/neco.1989.1.4.541 . ISSN 0899-7667 . OCLC 364746139 .
^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791 . S2CID 14542261 . Проверено 7 октября 2016 г.
^ Фукусима, К. (2007). «Неокогнитрон» . Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F . doi : 10.4249/scholarpedia.1717 .
^ Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251 . ПМИД 7370364 . S2CID 206775608 . Проверено 16 ноября 2013 г.
^ Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». Учеб. 4-я Международная конференция. Компьютерное зрение : 121–128.
^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1 . S2CID 206594692 .
^ Дешпанде, Адит. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)» . adeshpande3.github.io . Проверено 4 декабря 2018 г.
^ Статья AlexNet в Google Scholar

[:1-1] Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир» . Кварц .

[:0-2] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN 0001-0782 . S2CID 195908774 .

[:2-3] «Масштабный конкурс визуального распознавания ImageNet 2012 (ILSVRC2012)» . image-net.org .

[4] Кумар Челлапилья; Сидд Пури; Патрис Симар (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов» . В Лоретте, Гай (ред.). Десятый международный семинар «Границы в распознавании рукописного текста» . Сувисофт.

[flexible-5] Чирешан, Дэн; Ули Мейер; Джонатан Маски; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242 . Проверено 17 ноября 2013 г.

[6] «Таблица результатов конкурса IJCNN 2011» . ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010 . Проверено 14 января 2019 г.

[7] Шмидхубер, Юрген (17 марта 2017 г.). «История конкурсов компьютерного зрения, выигранных глубокими CNN на GPU» . Проверено 14 января 2019 г.

[schdeepscholar-8] Перейти обратно: Перейти обратно: ^а ^б Шмидхубер, Юрген (2015). «Глубокое обучение» . Схоларпедия . 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД 16764513 . S2CID 2309950 .

[mcdns-9] Чирешан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110 . ISBN 978-1-4673-1226-4 . OCLC 812295155 . S2CID 2161592 .

[LeCun_Boser_Denker_Henderson_1989_pp._541–551-10] ЛеКун, Ю.; Бозер, Б.; Денкер, Дж. С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекель, Л.Д. (1989). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса» (PDF) . Нейронные вычисления . 1 (4). MIT Press – Журналы: 541–551. дои : 10.1162/neco.1989.1.4.541 . ISSN 0899-7667 . OCLC 364746139 .

[lecun98-11] ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791 . S2CID 14542261 . Проверено 7 октября 2016 г.

[fukuneoscholar-12] Фукусима, К. (2007). «Неокогнитрон» . Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F . doi : 10.4249/scholarpedia.1717 .

[intro-13] Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251 . ПМИД 7370364 . S2CID 206775608 . Проверено 16 ноября 2013 г.

[weng1993-14] Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». Учеб. 4-я Международная конференция. Компьютерное зрение : 121–128.

[15] Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN 978-1-4673-8851-1 . S2CID 206594692 .

[16] Дешпанде, Адит. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)» . adeshpande3.github.io . Проверено 4 декабря 2018 г.

[17] Статья AlexNet в Google Scholar

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]