СтильGAN

StyleGAN — это генеративно-состязательная сеть (GAN), представленная исследователями Nvidia в декабре 2018 года. [1] и сделал исходный код доступным в феврале 2019 года. [2] [3]
StyleGAN зависит от программного обеспечения CUDA от Nvidia , графических процессоров и TensorFlow от Google . [4] или Meta AI от PyTorch , который заменяет TensorFlow в качестве официальной библиотеки реализации в более поздних версиях StyleGAN. [5] Вторая версия StyleGAN под названием StyleGAN2 была опубликована 5 февраля 2020 года. Она убирает некоторые характерные артефакты и улучшает качество изображения. [6] [7] Nvidia представила StyleGAN3, описанную как версию без псевдонимов, 23 июня 2021 года и предоставила исходный код 12 октября 2021 года. [8]
История
[ редактировать ]Прямым предшественником серии StyleGAN является Progressive GAN, опубликованная в 2017 году. [9]
В декабре 2018 года исследователи Nvidia распространили препринт вместе с сопутствующим программным обеспечением, представляющим StyleGAN, GAN для создания неограниченного количества (часто убедительных) портретов фальшивых человеческих лиц . StyleGAN мог работать на стандартных графических процессорах Nvidia.
В феврале 2019 года инженер Uber Филипп Ванг использовал программное обеспечение для создания веб-сайта «Этот человек не существует» , на котором при каждой перезагрузке веб-страницы отображалось новое лицо. [10] [11] Сам Ван выразил удивление, учитывая, что люди эволюционировали, чтобы понимать человеческие лица, тем не менее, StyleGAN может на конкурентной основе «выделить все соответствующие черты (человеческих лиц) и перекомпоновать их таким образом, чтобы это было связно». [12]
В сентябре 2019 года веб-сайт Generated Photos опубликовал 100 000 изображений в виде коллекции стоковых фотографий . [13] Коллекция была создана с использованием частного набора данных, снятого в контролируемой среде с одинаковым освещением и углами. [14]
Аналогичным образом, два преподавателя Информационной школы Вашингтонского университета использовали StyleGAN для создания проекта «Какое лицо настоящее?». , который заставлял посетителей отличать фальшивое и настоящее лицо рядом. [11] Преподаватели заявили, что намерением было «просветить общественность» о существовании этой технологии, чтобы они могли относиться к ней с осторожностью, «точно так же, как в конечном итоге большинство людей узнали, что вы можете использовать фотошоп». [15]
Вторая версия StyleGAN под названием StyleGAN2 была опубликована 5 февраля 2020 года. Она убирает некоторые характерные артефакты и улучшает качество изображения. [6] [7]
В 2021 году была выпущена третья версия, улучшающая согласованность между мелкими и грубыми деталями в генераторе. Эта версия, получившая название «без псевдонимов», была реализована с помощью pytorch . [16]
Незаконное использование
[ редактировать ]В декабре 2019 года Facebook удалил сеть учетных записей с вымышленными именами и упомянул, что некоторые из них использовали изображения профилей, созданные с помощью методов машинного обучения. [17]
Архитектура
[ редактировать ]Прогрессивный ГАН
[ редактировать ]Прогрессивный ГАН [9] - это метод обучения GAN для стабильной генерации крупномасштабных изображений путем увеличения генератора GAN от малого до большого масштаба по пирамидальной схеме. Как и SinGAN, он разлагает генератор на , а дискриминатор как .
Во время обучения сначала только используются в игре GAN для создания изображений 4х4. Затем добавляются для достижения второго этапа игры GAN, для генерации изображений 8x8 и так далее, пока мы не достигнем игры GAN для генерации изображений 1024x1024.
Чтобы избежать разрыва между этапами игры GAN, каждый новый слой «вмешивается» (рис. 2 статьи). [9] ). Например, вот как начинается игра GAN второго этапа:
- Непосредственно перед этим игра GAN состоит из пары создание и распознавание изображений 4х4.
- Сразу после этого игра GAN состоит из пары создание и распознавание изображений размером 8х8. Здесь функции — это функции повышения и понижения разрешения изображения, и — это коэффициент смешивания (во многом похожий на альфу при составлении изображений), который плавно меняется от 0 до 1.
СтильGAN
[ редактировать ]
StyleGAN спроектирован как комбинация Progressive GAN с нейронной передачей стилей . [18]
Ключевым архитектурным выбором StyleGAN-1 является механизм прогрессивного роста, аналогичный Progressive GAN. Каждое сгенерированное изображение начинается как константа [примечание 1] массив и неоднократно проходил через блоки стилей. Каждый блок стиля применяет «скрытый вектор стиля» посредством аффинного преобразования («адаптивная нормализация экземпляра»), аналогично тому, как нейронная передача стиля использует матрицу Грамиана . Затем он добавляет шум и нормализует (вычитает среднее значение, затем делит на дисперсию).
Во время обучения обычно для каждого сгенерированного изображения используется только один скрытый вектор стиля, но иногда и два («регуляризация смешивания»), чтобы стимулировать каждый блок стиля независимо выполнять свою стилизацию, не ожидая помощи от других блоков стиля (поскольку они могут получить скрытый вектор совершенно другого стиля).
После обучения в каждый блок стиля можно ввести несколько скрытых векторов стиля. Те, которые подаются на нижние уровни, управляют крупномасштабными стилями, а те, которые подаются на более высокие уровни, управляют стилями с мелкими деталями.
Смешение стилей между двумя изображениями также можно выполнить. Сначала запустите градиентный спуск, чтобы найти такой, что . Это называется «проецированием изображения обратно в скрытое пространство стиля». Затем, может быть передан в блоки нижнего стиля, и к блокам более высокого стиля, чтобы создать составное изображение, имеющее крупномасштабный стиль и стиль, детализированный . Таким же образом можно составить несколько изображений.
СтильGAN2
[ редактировать ]StyleGAN2 совершенствует StyleGAN в двух отношениях.
Во-первых, вместо этого он применяет скрытый вектор стиля для преобразования весов слоя свертки, тем самым решая проблему «капли». [19] Грубо говоря, проблема «капли» заключается в том, что использование скрытого вектора стиля для нормализации сгенерированного изображения уничтожает полезную информацию. Следовательно, генератор научился создавать «отвлечение» большой каплей, которая поглощает большую часть эффекта нормализации (что-то похожее на использование вспышек для отвлечения ракеты с тепловым наведением ).
Во-вторых, он использует остаточные соединения, что помогает избежать явления, когда определенные функции зависают с интервалами в пиксели. Например, шов между двумя зубами может застревать на пикселях, кратных 32, потому что генератор научился генерировать зубы на этапе N-5 и, следовательно, на этом этапе мог генерировать только примитивные зубы, а затем масштабировался в 5 раз (таким образом, интервалы 32).
Он был обновлен StyleGAN2-ADA («ADA» означает «адаптивный»), [20] который использует обратимое увеличение данных . Он также настраивает объем применяемого увеличения данных, начиная с нуля и постепенно увеличивая его до тех пор, пока «эвристика переоснащения» не достигнет целевого уровня, отсюда и название «адаптивный».
СтильGAN3
[ редактировать ]СтильGAN3 [21] Улучшение StyleGAN2 путем решения проблемы «прилипания текстур», которую можно увидеть в официальных видеороликах. [22] Они проанализировали проблему с помощью теоремы выборки Найквиста-Шеннона и заявили, что слои генератора научились использовать высокочастотный сигнал в пикселях, с которыми они работают.
Чтобы решить эту проблему, они предложили установить строгие фильтры нижних частот между слоями каждого генератора, чтобы генератор был вынужден работать с пикселями точно так же, как непрерывные сигналы, которые они представляют, а не работать с ними как с просто дискретными сигналами. Они дополнительно обеспечили вращательную и трансляционную инвариантность, используя больше фильтров сигналов . Полученный в результате StyleGAN-3 способен генерировать изображения, которые плавно вращаются и перемещаются, без залипания текстур.
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Он изучается во время обучения, но впоследствии сохраняется постоянным, подобно вектору смещения.
Ссылки
[ редактировать ]- ^ «GAN 2.0: гиперреалистичный генератор лиц NVIDIA» . SyncedReview.com . 14 декабря 2018 года . Проверено 3 октября 2019 г.
- ^ «Генератор гиперреалистичных лиц NVIDIA с открытым исходным кодом StyleGAN» . Medium.com . 9 февраля 2019 г. . Проверено 3 октября 2019 г.
- ^ Бешицца, Роб (15 февраля 2019 г.). «Этого человека не существует» . Боинг-Боинг . Проверено 16 февраля 2019 г.
- ^ Ларабель, Майкл (10 февраля 2019 г.). «NVIDIA открывает код StyleGAN — создавайте свои собственные семейные портреты с помощью ИИ» . Фороникс.com . Проверено 3 октября 2019 г.
- ^ «Ищете версию PyTorch? — Stylegan2» . github.com . 28 октября 2021 г. . Проверено 5 августа 2022 г.
- ^ Jump up to: а б «Синтезирование изображений высокого разрешения с помощью StyleGAN2 – Центр новостей разработчиков NVIDIA» . news.developer.nvidia.com . 17 июня 2020 г. . Проверено 11 августа 2020 г.
- ^ Jump up to: а б NVlabs/stylegan2 , Исследовательские проекты NVIDIA, 11 августа 2020 г. , получено 11 августа 2020 г.
- ^ Каккар, Шобха (13 октября 2021 г.). «NVIDIA AI выпускает StyleGAN3: генеративно-состязательные сети без псевдонимов» . МаркТехПост . Проверено 14 октября 2021 г.
- ^ Jump up to: а б с Каррас, Теро; Айла, Тимо; Лайне, Самули; Лехтинен, Яакко (2018). «Прогрессивное развитие GAN для улучшения качества, стабильности и разнообразия» . Международная конференция по обучению представлений . arXiv : 1710.10196 .
- ^ мсмаш, н/д (14 февраля 2019). « Сайт «Этот человек не существует» использует искусственный интеллект для создания реалистичных, но устрашающих лиц» . Слэшдот . Проверено 16 февраля 2019 г.
- ^ Jump up to: а б Флейшман, Гленн (30 апреля 2019 г.). «Как распознать реалистичных фальшивых людей, проникающих в ваши ленты» . Компания Фаст . Проверено 7 июня 2020 г.
- ^ Бишоп, Кэти (7 февраля 2020 г.). «ИИ в индустрии для взрослых: скоро в порно могут появиться люди, которых не существует» . Хранитель . Проверено 8 июня 2020 г.
- ^ Портер, Джон (20 сентября 2019 г.). «100 000 бесплатных фотографий, созданных искусственным интеллектом, привлекли внимание компаний, занимающихся стоковыми фотографиями» . Грань . Проверено 4 августа 2020 г.
- ^ Тимминс, Джейн Уэйкфилд и Бет (29 февраля 2020 г.). «Можно ли использовать дипфейки для обучения офисных работников?» . Новости Би-би-си . Проверено 4 августа 2020 г.
- ^ Винсент, Джеймс (3 марта 2019 г.). «Можете ли вы отличить настоящее лицо от подделки, созданной искусственным интеллектом?» . Грань . Проверено 8 июня 2020 г.
- ^ NVlabs/stylegan3 , Исследовательские проекты NVIDIA, 11 октября 2021 г.
- ^ «Последнее удаление Facebook имеет особенность — изображения профиля, созданные искусственным интеллектом» . Новости АВС . Проверено 4 августа 2020 г.
- ^ Каррас, Теро; Лайне, Самули; Айла, Тимо (2019). «Архитектура генератора на основе стилей для генеративно-состязательных сетей» (PDF) . Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 4396–4405. arXiv : 1812.04948 . дои : 10.1109/CVPR.2019.00453 . ISBN 978-1-7281-3293-8 . S2CID 54482423 .
- ^ Каррас, Теро; Лайне, Самули; Айттала, Миика; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (2020). «Анализ и улучшение качества изображения StyleGAN» (PDF) . Конференция IEEE/CVF 2020 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. п.п. 8107–8116. arXiv : 1912.04958 . дои : 10.1109/CVPR42600.2020.00813 . ISBN 978-1-7281-7168-5 . S2CID 209202273 .
- ^ Теро, Каррас; Миика, Айттала; Янне, Хеллстен; Самули, Лайне; Яакко, Лехтинен; Тимо, Айла (2020). «Обучение генеративно-состязательных сетей с ограниченными данными» . Достижения в области нейронных систем обработки информации . 33 .
- ^ Каррас, Теро; Айттала, Миика; Лайне, Самули; Харконен, Эрик; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (2021). Генеративно-состязательные сети без псевдонимов (PDF) . Достижения в области нейронных систем обработки информации .
- ^ Каррас, Теро; Айттала, Миика; Лайне, Самули; Харконен, Эрик; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо. «Генераторно-состязательные сети без псевдонимов (StyleGAN3)» . nvlabs.github.io . Проверено 16 июля 2022 г.