Jump to content

СтильGAN

Изображение, созданное с помощью StyleGAN и похожее на портрет молодой женщины. Это изображение было создано искусственной нейронной сетью на основе анализа большого количества фотографий.

StyleGAN — это генеративно-состязательная сеть (GAN), представленная исследователями Nvidia в декабре 2018 года. [1] и сделал исходный код доступным в феврале 2019 года. [2] [3]

StyleGAN зависит от программного обеспечения CUDA от Nvidia , графических процессоров и TensorFlow от Google . [4] или Meta AI от PyTorch , который заменяет TensorFlow в качестве официальной библиотеки реализации в более поздних версиях StyleGAN. [5] Вторая версия StyleGAN под названием StyleGAN2 была опубликована 5 февраля 2020 года. Она убирает некоторые характерные артефакты и улучшает качество изображения. [6] [7] Nvidia представила StyleGAN3, описанную как версию без псевдонимов, 23 июня 2021 года и предоставила исходный код 12 октября 2021 года. [8]

Прямым предшественником серии StyleGAN является Progressive GAN, опубликованная в 2017 году. [9]

В декабре 2018 года исследователи Nvidia распространили препринт вместе с сопутствующим программным обеспечением, представляющим StyleGAN, GAN для создания неограниченного количества (часто убедительных) портретов фальшивых человеческих лиц . StyleGAN мог работать на стандартных графических процессорах Nvidia.

В феврале 2019 года инженер Uber Филипп Ванг использовал программное обеспечение для создания веб-сайта «Этот человек не существует» , на котором при каждой перезагрузке веб-страницы отображалось новое лицо. [10] [11] Сам Ван выразил удивление, учитывая, что люди эволюционировали, чтобы понимать человеческие лица, тем не менее, StyleGAN может на конкурентной основе «выделить все соответствующие черты (человеческих лиц) и перекомпоновать их таким образом, чтобы это было связно». [12]

В сентябре 2019 года веб-сайт Generated Photos опубликовал 100 000 изображений в виде коллекции стоковых фотографий . [13] Коллекция была создана с использованием частного набора данных, снятого в контролируемой среде с одинаковым освещением и углами. [14]

Аналогичным образом, два преподавателя Информационной школы Вашингтонского университета использовали StyleGAN для создания проекта «Какое лицо настоящее?». , который заставлял посетителей отличать фальшивое и настоящее лицо рядом. [11] Преподаватели заявили, что намерением было «просветить общественность» о существовании этой технологии, чтобы они могли относиться к ней с осторожностью, «точно так же, как в конечном итоге большинство людей узнали, что вы можете использовать фотошоп». [15]

Вторая версия StyleGAN под названием StyleGAN2 была опубликована 5 февраля 2020 года. Она убирает некоторые характерные артефакты и улучшает качество изображения. [6] [7]

В 2021 году была выпущена третья версия, улучшающая согласованность между мелкими и грубыми деталями в генераторе. Эта версия, получившая название «без псевдонимов», была реализована с помощью pytorch . [16]

Незаконное использование

[ редактировать ]

В декабре 2019 года Facebook удалил сеть учетных записей с вымышленными именами и упомянул, что некоторые из них использовали изображения профилей, созданные с помощью методов машинного обучения. [17]

Архитектура

[ редактировать ]

Прогрессивный ГАН

[ редактировать ]

Прогрессивный ГАН [9] - это метод обучения GAN для стабильной генерации крупномасштабных изображений путем увеличения генератора GAN от малого до большого масштаба по пирамидальной схеме. Как и SinGAN, он разлагает генератор на , а дискриминатор как .

Во время обучения сначала только используются в игре GAN для создания изображений 4х4. Затем добавляются для достижения второго этапа игры GAN, для генерации изображений 8x8 и так далее, пока мы не достигнем игры GAN для генерации изображений 1024x1024.

Чтобы избежать разрыва между этапами игры GAN, каждый новый слой «вмешивается» (рис. 2 статьи). [9] ). Например, вот как начинается игра GAN второго этапа:

  • Непосредственно перед этим игра GAN состоит из пары создание и распознавание изображений 4х4.
  • Сразу после этого игра GAN состоит из пары создание и распознавание изображений размером 8х8. Здесь функции — это функции повышения и понижения разрешения изображения, и — это коэффициент смешивания (во многом похожий на альфу при составлении изображений), который плавно меняется от 0 до 1.
Основная архитектура StyleGAN-1 и StyleGAN-2

StyleGAN спроектирован как комбинация Progressive GAN с нейронной передачей стилей . [18]

Ключевым архитектурным выбором StyleGAN-1 является механизм прогрессивного роста, аналогичный Progressive GAN. Каждое сгенерированное изображение начинается как константа [примечание 1] массив и неоднократно проходил через блоки стилей. Каждый блок стиля применяет «скрытый вектор стиля» посредством аффинного преобразования («адаптивная нормализация экземпляра»), аналогично тому, как нейронная передача стиля использует матрицу Грамиана . Затем он добавляет шум и нормализует (вычитает среднее значение, затем делит на дисперсию).

Во время обучения обычно для каждого сгенерированного изображения используется только один скрытый вектор стиля, но иногда и два («регуляризация смешивания»), чтобы стимулировать каждый блок стиля независимо выполнять свою стилизацию, не ожидая помощи от других блоков стиля (поскольку они могут получить скрытый вектор совершенно другого стиля).

После обучения в каждый блок стиля можно ввести несколько скрытых векторов стиля. Те, которые подаются на нижние уровни, управляют крупномасштабными стилями, а те, которые подаются на более высокие уровни, управляют стилями с мелкими деталями.

Смешение стилей между двумя изображениями также можно выполнить. Сначала запустите градиентный спуск, чтобы найти такой, что . Это называется «проецированием изображения обратно в скрытое пространство стиля». Затем, может быть передан в блоки нижнего стиля, и к блокам более высокого стиля, чтобы создать составное изображение, имеющее крупномасштабный стиль и стиль, детализированный . Таким же образом можно составить несколько изображений.

StyleGAN2 совершенствует StyleGAN в двух отношениях.

Во-первых, вместо этого он применяет скрытый вектор стиля для преобразования весов слоя свертки, тем самым решая проблему «капли». [19] Грубо говоря, проблема «капли» заключается в том, что использование скрытого вектора стиля для нормализации сгенерированного изображения уничтожает полезную информацию. Следовательно, генератор научился создавать «отвлечение» большой каплей, которая поглощает большую часть эффекта нормализации (что-то похожее на использование вспышек для отвлечения ракеты с тепловым наведением ).

Во-вторых, он использует остаточные соединения, что помогает избежать явления, когда определенные функции зависают с интервалами в пиксели. Например, шов между двумя зубами может застревать на пикселях, кратных 32, потому что генератор научился генерировать зубы на этапе N-5 и, следовательно, на этом этапе мог генерировать только примитивные зубы, а затем масштабировался в 5 раз (таким образом, интервалы 32).

Он был обновлен StyleGAN2-ADA («ADA» означает «адаптивный»), [20] который использует обратимое увеличение данных . Он также настраивает объем применяемого увеличения данных, начиная с нуля и постепенно увеличивая его до тех пор, пока «эвристика переоснащения» не достигнет целевого уровня, отсюда и название «адаптивный».

СтильGAN3 [21] Улучшение StyleGAN2 путем решения проблемы «прилипания текстур», которую можно увидеть в официальных видеороликах. [22] Они проанализировали проблему с помощью теоремы выборки Найквиста-Шеннона и заявили, что слои генератора научились использовать высокочастотный сигнал в пикселях, с которыми они работают.

Чтобы решить эту проблему, они предложили установить строгие фильтры нижних частот между слоями каждого генератора, чтобы генератор был вынужден работать с пикселями точно так же, как непрерывные сигналы, которые они представляют, а не работать с ними как с просто дискретными сигналами. Они дополнительно обеспечили вращательную и трансляционную инвариантность, используя больше фильтров сигналов . Полученный в результате StyleGAN-3 способен генерировать изображения, которые плавно вращаются и перемещаются, без залипания текстур.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Он изучается во время обучения, но впоследствии сохраняется постоянным, подобно вектору смещения.
  1. ^ «GAN 2.0: гиперреалистичный генератор лиц NVIDIA» . SyncedReview.com . 14 декабря 2018 года . Проверено 3 октября 2019 г.
  2. ^ «Генератор гиперреалистичных лиц NVIDIA с открытым исходным кодом StyleGAN» . Medium.com . 9 февраля 2019 г. . Проверено 3 октября 2019 г.
  3. ^ Бешицца, Роб (15 февраля 2019 г.). «Этого человека не существует» . Боинг-Боинг . Проверено 16 февраля 2019 г.
  4. ^ Ларабель, Майкл (10 февраля 2019 г.). «NVIDIA открывает код StyleGAN — создавайте свои собственные семейные портреты с помощью ИИ» . Фороникс.com . Проверено 3 октября 2019 г.
  5. ^ «Ищете версию PyTorch? — Stylegan2» . github.com . 28 октября 2021 г. . Проверено 5 августа 2022 г.
  6. ^ Jump up to: а б «Синтезирование изображений высокого разрешения с помощью StyleGAN2 – Центр новостей разработчиков NVIDIA» . news.developer.nvidia.com . 17 июня 2020 г. . Проверено 11 августа 2020 г.
  7. ^ Jump up to: а б NVlabs/stylegan2 , Исследовательские проекты NVIDIA, 11 августа 2020 г. , получено 11 августа 2020 г.
  8. ^ Каккар, Шобха (13 октября 2021 г.). «NVIDIA AI выпускает StyleGAN3: генеративно-состязательные сети без псевдонимов» . МаркТехПост . Проверено 14 октября 2021 г.
  9. ^ Jump up to: а б с Каррас, Теро; Айла, Тимо; Лайне, Самули; Лехтинен, Яакко (2018). «Прогрессивное развитие GAN для улучшения качества, стабильности и разнообразия» . Международная конференция по обучению представлений . arXiv : 1710.10196 .
  10. ^ мсмаш, н/д (14 февраля 2019). « Сайт «Этот человек не существует» использует искусственный интеллект для создания реалистичных, но устрашающих лиц» . Слэшдот . Проверено 16 февраля 2019 г.
  11. ^ Jump up to: а б Флейшман, Гленн (30 апреля 2019 г.). «Как распознать реалистичных фальшивых людей, проникающих в ваши ленты» . Компания Фаст . Проверено 7 июня 2020 г.
  12. ^ Бишоп, Кэти (7 февраля 2020 г.). «ИИ в индустрии для взрослых: скоро в порно могут появиться люди, которых не существует» . Хранитель . Проверено 8 июня 2020 г.
  13. ^ Портер, Джон (20 сентября 2019 г.). «100 000 бесплатных фотографий, созданных искусственным интеллектом, привлекли внимание компаний, занимающихся стоковыми фотографиями» . Грань . Проверено 4 августа 2020 г.
  14. ^ Тимминс, Джейн Уэйкфилд и Бет (29 февраля 2020 г.). «Можно ли использовать дипфейки для обучения офисных работников?» . Новости Би-би-си . Проверено 4 августа 2020 г.
  15. ^ Винсент, Джеймс (3 марта 2019 г.). «Можете ли вы отличить настоящее лицо от подделки, созданной искусственным интеллектом?» . Грань . Проверено 8 июня 2020 г.
  16. ^ NVlabs/stylegan3 , Исследовательские проекты NVIDIA, 11 октября 2021 г.
  17. ^ «Последнее удаление Facebook имеет особенность — изображения профиля, созданные искусственным интеллектом» . Новости АВС . Проверено 4 августа 2020 г.
  18. ^ Каррас, Теро; Лайне, Самули; Айла, Тимо (2019). «Архитектура генератора на основе стилей для генеративно-состязательных сетей» (PDF) . Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 4396–4405. arXiv : 1812.04948 . дои : 10.1109/CVPR.2019.00453 . ISBN  978-1-7281-3293-8 . S2CID   54482423 .
  19. ^ Каррас, Теро; Лайне, Самули; Айттала, Миика; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (2020). «Анализ и улучшение качества изображения StyleGAN» (PDF) . Конференция IEEE/CVF 2020 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. п.п. 8107–8116. arXiv : 1912.04958 . дои : 10.1109/CVPR42600.2020.00813 . ISBN  978-1-7281-7168-5 . S2CID   209202273 .
  20. ^ Теро, Каррас; Миика, Айттала; Янне, Хеллстен; Самули, Лайне; Яакко, Лехтинен; Тимо, Айла (2020). «Обучение генеративно-состязательных сетей с ограниченными данными» . Достижения в области нейронных систем обработки информации . 33 .
  21. ^ Каррас, Теро; Айттала, Миика; Лайне, Самули; Харконен, Эрик; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (2021). Генеративно-состязательные сети без псевдонимов (PDF) . Достижения в области нейронных систем обработки информации .
  22. ^ Каррас, Теро; Айттала, Миика; Лайне, Самули; Харконен, Эрик; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо. «Генераторно-состязательные сети без псевдонимов (StyleGAN3)» . nvlabs.github.io . Проверено 16 июля 2022 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 70f909f398417877ca354de22c277f7c__1721489160
URL1:https://arc.ask3.ru/arc/aa/70/7c/70f909f398417877ca354de22c277f7c.html
Заголовок, (Title) документа по адресу, URL1:
StyleGAN - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)