Jump to content

АлексНет

Сравнение свертки, объединения и плотных слоев LeNet и AlexNet
(Размер изображения AlexNet должен быть 227×227×3, а не 224×224×3, чтобы математические расчеты были верными. В исходной статье были указаны другие цифры, но Андрей Карпати, бывший руководитель отдела компьютерного зрения в Tesla, сказал это должно быть 227×227×3 (он сказал, что Алекс не объяснил, почему он поставил 224×224×3. Следующая свертка должна быть 11×11 с шагом 4: 55×55×96 (вместо 54×54×96). ). Это будет рассчитываться, например, как: [(входная ширина 227 - ширина ядра 11) / шаг 4] + 1 = [(227 - 11) / 4] + 1 = 55. Поскольку выходные данные ядра одинаковы. длина равна ширине, его площадь 55х55.)

AlexNet — это название архитектуры сверточной нейронной сети (CNN), разработанной Алексом Крижевским в сотрудничестве с Ильей Суцкевером и Джеффри Хинтоном , который был доктором философии Крижевского. советник Университета Торонто. [1] [2]

AlexNet участвовал в конкурсе ImageNet Large Scale Visual Recognition Challenge 30 сентября 2012 года. [3] Сеть достигла ошибки топ-5 в 15,3%, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Основной результат исходной статьи заключался в том, что глубина модели была важна для ее высокой производительности, что было дорогостоящим в вычислительном отношении, но стало возможным благодаря использованию графических процессоров (GPU) во время обучения. [2]

Исторический контекст [ править ]

AlexNet был не первой быстрой реализацией CNN на графическом процессоре, выигравшей конкурс по распознаванию изображений. CNN на GPU, автор: К. Челлапилла и др. (2006) было в 4 раза быстрее, чем эквивалентная реализация на ЦП. [4] Глубокий CNN Дэна Чирешана и др. (2011) в IDSIA было уже в 60 раз быстрее [5] и превзошли своих предшественников в августе 2011 года. [6] С 15 мая 2011 г. по 10 сентября 2012 г. их канал CNN выиграл не менее четырех имиджевых конкурсов. [7] [8] Они также значительно улучшили лучшую производительность, описанную в литературе, для баз данных с несколькими изображениями . [9]

По данным статьи AlexNet, [2] Более ранние ворота Чирешана «в чем-то похожи». Оба изначально были написаны с использованием CUDA для работы с поддержкой графического процессора . Фактически, оба на самом деле являются просто вариантами конструкций CNN, представленными Яном ЛеКуном и др. (1989) [10] [11] который применил алгоритм обратного распространения ошибки к варианту Кунихико Фукусимы оригинальной архитектуры CNN , названному « неокогнитрон ». [12] [13] Позднее архитектура была модифицирована методом Дж. Венга под названием max-pooling . [14] [8]

В 2015 году AlexNet уступил проекту Microsoft Research Asia с более чем 100 слоями , который выиграл конкурс ImageNet 2015. [15]

Сетевой дизайн [ править ]

AlexNet содержит восемь слоев: первые пять являются сверточными слоями, за некоторыми из них следуют слои максимального пула , а последние три являются полносвязными слоями. Сеть, за исключением последнего слоя, разделена на две копии, каждая из которых работает на одном графическом процессоре. [2] Всю структуру можно записать так:

где

  • CNN = сверточный слой (с активацией ReLU)
  • RN = нормализация местного ответа
  • MP = максимальное объединение
  • FC = полносвязный уровень (с активацией ReLU)
  • Линейный = полностью связный слой (без активации)
  • ДО = отсев

Он использовал ненасыщающую функцию активации ReLU , которая показала улучшенную эффективность тренировки по сравнению с tanh и сигмовидной мышцей . [2]

Влияние [ править ]

AlexNet считается одной из самых влиятельных статей, опубликованных в области компьютерного зрения, что послужило толчком к публикации многих других статей, в которых используются CNN и графические процессоры для ускорения глубокого обучения . [16] По данным Google Scholar, по состоянию на начало 2023 года статья AlexNet цитировалась более 120 000 раз. [17]

Ссылки [ править ]

  1. ^ Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир» . Кварц .
  2. Перейти обратно: Перейти обратно: а б с д и Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN   0001-0782 . S2CID   195908774 .
  3. ^ «Масштабный конкурс визуального распознавания ImageNet 2012 (ILSVRC2012)» . image-net.org .
  4. ^ Кумар Челлапилья; Сидд Пури; Патрис Симар (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов» . В Лоретте, Гай (ред.). Десятый международный семинар «Границы в распознавании рукописного текста» . Сувисофт.
  5. ^ Чирешан, Дэн; Ули Мейер; Джонатан Маски; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242 . Проверено 17 ноября 2013 г.
  6. ^ «Таблица результатов конкурса IJCNN 2011» . ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010 . Проверено 14 января 2019 г.
  7. ^ Шмидхубер, Юрген (17 марта 2017 г.). «История конкурсов компьютерного зрения, выигранных глубокими CNN на GPU» . Проверено 14 января 2019 г.
  8. Перейти обратно: Перейти обратно: а б Шмидхубер, Юрген (2015). «Глубокое обучение» . Схоларпедия . 10 (11): 1527–54. CiteSeerX   10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД   16764513 . S2CID   2309950 .
  9. ^ Чирешан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX   10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110 . ISBN  978-1-4673-1226-4 . OCLC   812295155 . S2CID   2161592 .
  10. ^ ЛеКун, Ю.; Бозер, Б.; Денкер, Дж. С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекель, Л.Д. (1989). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса» (PDF) . Нейронные вычисления . 1 (4). MIT Press – Журналы: 541–551. дои : 10.1162/neco.1989.1.4.541 . ISSN   0899-7667 . OCLC   364746139 .
  11. ^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX   10.1.1.32.9552 . дои : 10.1109/5.726791 . S2CID   14542261 . Проверено 7 октября 2016 г.
  12. ^ Фукусима, К. (2007). «Неокогнитрон» . Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F . doi : 10.4249/scholarpedia.1717 .
  13. ^ Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251 . ПМИД   7370364 . S2CID   206775608 . Проверено 16 ноября 2013 г.
  14. ^ Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». Учеб. 4-я Международная конференция. Компьютерное зрение : 121–128.
  15. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN  978-1-4673-8851-1 . S2CID   206594692 .
  16. ^ Дешпанде, Адит. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)» . adeshpande3.github.io . Проверено 4 декабря 2018 г.
  17. ^ Статья AlexNet в Google Scholar
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 47fa262622f8a7dec26d96cfdf80d1cb__1711221600
URL1:https://arc.ask3.ru/arc/aa/47/cb/47fa262622f8a7dec26d96cfdf80d1cb.html
Заголовок, (Title) документа по адресу, URL1:
AlexNet - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)