Jump to content

ДипДрим

Мона Лиза с эффектом DeepDream с использованием сети VGG16, обученной на ImageNet

DeepDream — это программа компьютерного зрения, созданная инженером Google Александром Мордвинцевым, которая использует сверточную нейронную сеть для поиска и улучшения закономерностей в изображениях с помощью алгоритмической парейдолии , создавая таким образом сказочный вид, напоминающий психоделический опыт в намеренно переобработанных изображениях. [1] [2] [3]

Программа Google популяризировала термин (глубинное) «сновидение» для обозначения генерации изображений, которые вызывают желаемые активации в обученной глубокой сети , и теперь этот термин относится к набору связанных подходов.

История [ править ]

Программное обеспечение DeepDream, возникшее в глубокой сверточной сети под кодовым названием «Начало» в честь одноименного фильма , [1] [2] [3] был разработан для конкурса ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) в 2014 году. [3] и выпущен в июле 2015 года.

Идея и имя мечты стали популярными в Интернете в 2015 году благодаря программе Google DeepDream. Идея возникла еще на заре истории нейронных сетей. [4] и подобные методы использовались для синтеза визуальных текстур. [5] Соответствующие идеи визуализации были разработаны (до работы Google) несколькими исследовательскими группами. [6] [7]

После того, как Google опубликовал свои методы и сделал их код открытым , [8] На рынке появился ряд инструментов в виде веб-сервисов, мобильных приложений и настольного программного обеспечения, позволяющих пользователям преобразовывать свои собственные фотографии. [9]

Процесс [ править ]

Изображение медузы на синем фоне
Изображение медузы, обработанное с помощью DeepDream после десяти итераций.
Изображение медузы, обработанное с помощью DeepDream после пятидесяти итераций.
Исходное изображение (вверху) после применения десяти (в центре) и пятидесяти (внизу) итераций DeepDream, сеть была обучена воспринимать собак, а затем двигаться назад.

Программное обеспечение предназначено для обнаружения лиц и других узоров на изображениях с целью автоматической классификации изображений. [10] Однако после обучения сеть можно запустить и в обратном порядке, попросив ее немного скорректировать исходное изображение, чтобы данный выходной нейрон (например, нейрон, отвечающий за лица или определенных животных) давал более высокий показатель достоверности. Это можно использовать для визуализации, чтобы лучше понять возникающую структуру нейронной сети, и это является основой концепции DeepDream. Эта процедура обращения никогда не бывает совершенно ясной и однозначной, поскольку она использует процесс сопоставления «один ко многим» . [11] Однако после достаточного количества повторений даже образы, изначально лишенные искомых особенностей, будут достаточно скорректированы, что приведет к форме парейдолии , при которой психоделические и сюрреалистические образы генерируются алгоритмически. Оптимизация напоминает обратное распространение ошибки ; однако вместо корректировки весов сети веса остаются фиксированными, а входные данные корректируются.

Например, существующее изображение можно изменить так, чтобы оно было «более кошачьим», и полученное улучшенное изображение можно снова ввести в процедуру. [2] Такое использование напоминает поиск животных или других узоров в облаках.

Применение градиентного спуска независимо к каждому пикселю входных данных создает изображения, в которыхсоседние пиксели мало связаны друг с другом, и поэтому изображение содержит слишком много высокочастотной информации.Сгенерированные изображения можно значительно улучшить, включив априорный или регуляризатор , который предпочитает входные данные.которые имеют естественную статистику изображения (без предпочтения какого-либо конкретного изображения) или просто гладкие. [7] [12] [13] Например, Махендран и др. [12] использовал регуляризатор полной вариации, который отдает предпочтение изображениям, которые являются кусочно-постоянными. Различные регуляризаторы обсуждаются далее в Yosinski et al. [13] Совсем недавно было опубликовано углубленное визуальное исследование методов визуализации функций и регуляризации. [14]

Приведенное сходство образов с галлюцинациями, вызванными ЛСД и псилоцибином, наводит на мысль о функциональном сходстве между искусственными нейронными сетями и определенными слоями зрительной коры. [15]

Нейронные сети, такие как DeepDream, имеют биологические аналогии, позволяющие лучше понять работу мозга и формирование сознания. Галлюциногены, такие как ДМТ, изменяют функцию серотонинергической системы, присутствующей в слоях зрительной коры. Нейронные сети обучаются на входных векторах и изменяются в результате внутренних изменений в процессе обучения. Входные и внутренние модификации представляют собой обработку экзогенных и эндогенных сигналов соответственно в зрительной коре. Поскольку внутренние изменения изменяются в глубоких нейронных сетях, выходное изображение отражает эти изменения. Эта конкретная манипуляция демонстрирует, насколько механизмы внутреннего мозга аналогичны внутренним слоям нейронных сетей. Изменения уровня внутреннего шума представляют собой то, как галлюциногены игнорируют внешнюю сенсорную информацию, что приводит к тому, что внутренние предвзятые представления сильно влияют на зрительное восприятие. [16]

Использование [ править ]

Тщательно обработанная DeepDream фотография трех мужчин в бассейне.

Идея сновидения может быть применена к скрытым (внутренним) нейронам, отличным от тех, которые находятся на выходе. что позволяет исследовать роли и представления различных частей сети. [13] Также возможно оптимизировать входные данные для удовлетворения потребностей одного нейрона (это использование иногда называют максимизацией активности). [17] или целый слой нейронов.

Хотя сновидения чаще всего используются для визуализации сетей или создания компьютерной графики, недавно было высказано предположение, что добавление входных данных «сновидения» в обучающий набор может сократить время обучения абстракциям в информатике. [18]

Модель DeepDream также продемонстрировала свое применение в области истории искусства . [19]

DeepDream использовался для Foster the People клипа на песню « Doing It for the Money ». [20]

В 2017 году исследовательская группа из Университета Сассекса создала « Машину галлюцинаций» , применив алгоритм DeepDream к заранее записанному панорамному видео, что позволяет пользователям исследовать среду виртуальной реальности, имитируя опыт воздействия психоактивных веществ и/или психопатологических состояний. [21] Им удалось продемонстрировать, что субъективные переживания, вызванные «Машиной галлюцинаций», значительно отличались от контрольных (не «галлюциногенных») видео, имея при этом феноменологическое сходство с психоделическим состоянием (после введения псилоцибина).

В 2021 году исследование, опубликованное в журнале Entropy, продемонстрировало сходство между DeepDream и реальным психоделическим опытом с нейробиологическими доказательствами. [22] Авторы записали электроэнцефалографию ( ЭЭГ ) участников во время пассивного просмотра видеоролика и его аналога, созданного DeepDream. Они обнаружили, что видео DeepDream вызывает более высокую энтропию сигнала ЭЭГ и более высокий уровень функциональных связей между областями мозга. [22] оба являются хорошо известными биомаркерами реального психоделического опыта. [23]

В 2022 году исследовательская группа, координируемая Университетом Тренто, «измерила когнитивную гибкость и креативность участников после просмотра панорамных видео виртуальной реальности и их галлюцинаторно-подобных аналогов, созданных алгоритмом DeepDream… после смоделированного психоделического воздействия». Люди демонстрировали... ослабленный вклад автоматического процесса и хаотичной динамики, лежащей в основе их процессов принятия решений, предположительно из-за реорганизации когнитивной динамики, которая облегчает исследование необычных стратегий принятия решений и препятствует автоматизированному выбору». [24]

См. также [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б Мордвинцев Александр; Ола, Кристофер; Тыка, Майк (2015). «DeepDream — пример кода для визуализации нейронных сетей» . Google Исследования. Архивировано из оригинала 8 июля 2015 г.
  2. ^ Jump up to: Перейти обратно: а б с Мордвинцев Александр; Ола, Кристофер; Тыка, Майк (2015). «Инцепционизм: углубляясь в нейронные сети» . Google Исследования. Архивировано из оригинала 3 июля 2015 г.
  3. ^ Jump up to: Перейти обратно: а б с Сегеди, Кристиан; Лю, Вэй; Цзя, Янцин; Сермане, Пьер; Рид, Скотт Э.; Ангелов, Драгомир; Эрхан, Дмитрий; Ванхук, Винсент; Рабинович, Андрей (2015). «Углубляемся с извилинами». Конференция IEEE по компьютерному зрению и распознаванию образов, CVPR 2015, Бостон, Массачусетс, США, 7–12 июня 2015 г. Компьютерное общество IEEE. стр. 1–9. arXiv : 1409.4842 . дои : 10.1109/CVPR.2015.7298594 .
  4. ^ Льюис, JP (1988). «Создание путем совершенствования: творческая парадигма для сетей обучения с градиентным спуском». Международная конференция IEEE по нейронным сетям . Международная конференция IEEE по нейронным сетям. С. 229-233 т.2. дои : 10.1109/ICNN.1988.23933 . ISBN  0-7803-0999-5 .
  5. ^ Портилья, Дж; Симончелли, Ээро (2000). «Параметрическая модель текстуры, основанная на совместной статистике комплексных вейвлет-коэффициентов». Международный журнал компьютерного зрения . 40 : 49–70. дои : 10.1023/A:1026553619983 . S2CID   2475577 .
  6. ^ Эрхан, Дмитрий. (2009). Визуализация функций более высокого уровня глубокой сети . Международная конференция по машинному обучению. Семинар по иерархиям функций обучения. S2CID   15127402 .
  7. ^ Jump up to: Перейти обратно: а б Симонян, Карен; Ведальди, Андреа; Зиссерман, Эндрю (2014). Глубоко внутри сверточных сетей: визуализация моделей классификации изображений и карт значимости . Международная конференция по обучению представлений . Семинар. arXiv : 1312.6034 .
  8. ^ DeepDream на GitHub
  9. ^ Дэниел Калпан (3 июля 2015 г.). «Эти изображения Google «Deep Dream» завораживают» . Проводной . Проверено 25 июля 2015 г.
  10. ^ Рич МакКормик (7 июля 2015 г.). «Страх и ненависть в Лас-Вегасе ужасен глазами компьютера» . Грань . Проверено 25 июля 2015 г.
  11. ^ Хейс, Брайан (2015). «Компьютерное зрение и компьютерные галлюцинации» . Американский учёный . 103 (6): 380. дои : 10.1511/2015.117.380 . ISSN   0003-0996 .
  12. ^ Jump up to: Перейти обратно: а б Махендран, Аравинд; Ведальди, Андреа (2015). «Понимание глубоких представлений изображений путем их инвертирования». Конференция IEEE 2015 по компьютерному зрению и распознаванию образов (CVPR) . Конференция IEEE по компьютерному зрению и распознаванию образов. стр. 5188–5196. arXiv : 1412.0035 . дои : 10.1109/CVPR.2015.7299155 . ISBN  978-1-4673-6964-0 .
  13. ^ Jump up to: Перейти обратно: а б с Йосински, Джейсон; Клюн, Джефф; Нгуен, Ань; Фукс, Томас (2015). Понимание нейронных сетей посредством глубокой визуализации . Семинар по глубокому обучению, Международная конференция по машинному обучению (ICML). Семинар по глубокому обучению. arXiv : 1506.06579 .
  14. ^ Ола, Крис; Мордвинцев Александр; Шуберт, Людвиг (07.11.2017). «Визуализация функций» . Дистиллировать . 2 (11). дои : 10.23915/distill.00007 . ISSN   2476-0757 .
  15. ^ ЛаФранс, Адриенн (3 сентября 2015 г.). «Когда роботы галлюцинируют» . Атлантика . Проверено 24 сентября 2015 г.
  16. ^ Тиммерманн, Кристофер (12 декабря 2020 г.). «Модели нейронных сетей для зрительных галлюцинаций, вызванных ДМТ» . Нейронаука сознания . 2020 (1). НИЗ: niaa024. дои : 10.1093/nc/niaa024 . ПМЦ   7734438 . ПМИД   33343929 .
  17. ^ Нгуен, Ань; Досовицкий, Алексей; Йосински, Джейсон; Брокс, Томас (2016). Синтез предпочтительных входных данных для нейронов в нейронных сетях с помощью глубоких генераторных сетей . архив. arXiv : 1605.09304 . Бибкод : 2016arXiv160509304N .
  18. ^ Арора, Санджив; Лян, Инъюй; Тенгю, Ма (2016). Почему глубокие сети обратимы: простая теория, имеющая значение для обучения . архив. arXiv : 1511.05653 . Бибкод : 2015arXiv151105653A .
  19. ^ Спратт, Эмили Л. (2017). «Формулировки сновидений и глубокие нейронные сети: гуманистические темы в иконологии машинного обучения изображений» (PDF) . Художественный текст . 4 . Гумбольдт-Университет Берлина. arXiv : 1802.01274 . Бибкод : 2018arXiv180201274S .
  20. ^ FosterthepeopleVEVO (11 августа 2017 г.), Foster The People - Doing It for the Money , получено 15 августа 2017 г.
  21. ^ Сузуки, Кейсуке (22 ноября 2017 г.). «Платформа виртуальной реальности Deep Dream для изучения феноменологии измененного восприятия» . Научный представитель . 7 (1): 15982. Бибкод : 2017NatSR...715982S . дои : 10.1038/s41598-017-16316-2 . ПМК   5700081 . ПМИД   29167538 .
  22. ^ Jump up to: Перейти обратно: а б Греко, Антонино; Галлитто, Джузеппе; Д'Алессандро, Марко; Растелли, Клара (июль 2021 г.). «Повышение энтропийной динамики мозга во время феноменологии измененного восприятия, вызванной DeepDream» . Энтропия . 23 (7): 839. Бибкод : 2021Entrp..23..839G . дои : 10.3390/e23070839 . ISSN   1099-4300 . ПМЦ   8306862 . ПМИД   34208923 .
  23. ^ Кархарт-Харрис, Робин ; Лич, Роберт; Хеллиер, Питер; Шанахан, Мюррей; Фейлдинг, Аманда; Тальязукки, Энцо; Кьялво, Данте; Натт, Дэвид (2014). «Энтропийный мозг: теория состояний сознания, основанная на исследованиях нейровизуализации с использованием психоделических препаратов» . Границы человеческой неврологии . 8:20 . дои : 10.3389/fnhum.2014.00020 . ISSN   1662-5161 . ПМЦ   3909994 . ПМИД   24550805 .
  24. ^ Растелли, Клара; Греко, Антонино; Кеннетт, Йоед; Финоккьяро, Кьяра; Де Писапия, Никола (7 марта 2022 г.). «Имитация зрительных галлюцинаций в виртуальной реальности повышает когнитивную гибкость» . Научный представитель . 12 (1): 4027. Бибкод : 2022NatSR..12.4027R . дои : 10.1038/s41598-022-08047-w . ПМЦ   8901713 . PMID   35256740 .

Внешние ссылки [ править ]

Внешние видео
значок видео Deep Dream (Google) — Компьютерщик Майкла Паунда
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5741cc068265e9506c2770ee349fa0dc__1703273040
URL1:https://arc.ask3.ru/arc/aa/57/dc/5741cc068265e9506c2770ee349fa0dc.html
Заголовок, (Title) документа по адресу, URL1:
DeepDream - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)