Стабильная диффузия

Стабильная диффузия
	Изображение, созданное с помощью Stable Diffusion на основе текстовой подсказки «фотография космонавта верхом на лошади».
Оригинальный автор(ы)	Взлетно-посадочная полоса, CompVis и ИИ для стабилизации
Разработчик(и)	Стабильность ИИ
Первоначальный выпуск	22 августа 2022 г.
Стабильная версия	SDXL 1.0 (модель) / 26 июля 2023 г.
Репозиторий	github .с /Стабильность-ИИ /генеративные-модели ;
Написано в	Питон
Операционная система	Любой, поддерживающий CUDA. ядра
Тип	Модель преобразования текста в изображение
Лицензия	Креативный ML OpenRAIL-M
Веб-сайт	стабильность .есть /стабильное-изображение

Stable Diffusion — это модель глубокого обучения преобразования текста в изображение, выпущенная в 2022 году и основанная на методах диффузии . Это считается частью продолжающегося бума искусственного интеллекта .

В основном он используется для создания подробных изображений на основе текстовых описаний, хотя его также можно применять и для других задач, таких как закрашивание , закрашивание и создание переводов между изображениями под управлением текстовой подсказки . ^[3] В его разработке приняли участие исследователи из группы CompVis в Мюнхенском университете Людвига-Максимилиана и Runway , а также вычислительные ресурсы от Stability и обучающие данные от некоммерческих организаций. ^[4]^[5]^[6]^[7]

Стабильная диффузия — это модель скрытой диффузии , своего рода глубокая генеративная искусственная нейронная сеть . Его код и веса моделей были опубликованы публично . ^[8] и он может работать на большинстве потребительских устройств, оснащенных скромным графическим процессором не менее 4 ГБ с объемом видеопамяти . Это ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney , которые были доступны только через облачные сервисы . ^[9]^[10]

Развитие [ править ]

Стабильная диффузия возникла в результате проекта под названием «Скрытая диффузия». ^[11] разработан исследователями из Университета Людвига-Максимилиана в Мюнхене и Гейдельбергского университета . Четверо из пяти первоначальных авторов (Робин Ромбах, Андреас Блаттманн, Патрик Эссер и Доминик Лоренц) позже присоединились к Stability AI и выпустили последующие версии Stable Diffusion. ^[12]

Техническая лицензия на модель была выпущена группой CompVis в Мюнхенском университете Людвига-Максимилиана. ^[10] Разработку возглавили Патрик Эссер из Runway и Робин Ромбах из CompVis, которые были среди исследователей, которые ранее изобрели архитектуру модели скрытой диффузии, используемую Stable Diffusion. ^[7] Stability AI также указала, что EleutherAI и LAION (немецкая некоммерческая организация, которая собрала набор данных для обучения Stable Diffusion) являются сторонниками проекта. ^[7]

Технология [ править ]

Архитектура [ править ]

Стабильная диффузия использует разновидность модели диффузии (DM), называемую моделью скрытой диффузии (LDM), разработанную группой CompVis в LMU Мюнхен . ^[13]^[8] Представленные в 2015 году диффузионные модели обучаются с целью удаления последовательных применений гауссовского шума на обучающих изображениях, что можно рассматривать как последовательность автокодировщиков шумоподавления . Stable Diffusion состоит из трех частей: вариационного автокодировщика (VAE), U-Net и дополнительного кодировщика текста. ^[14] Кодер VAE сжимает изображение из пространства пикселей в скрытое пространство меньшего размера , улавливая более фундаментальное семантическое значение изображения. ^[13] Гауссов шум итеративно применяется к сжатому скрытому представлению во время прямой диффузии. ^[14] Блок U-Net, состоящий из магистральной сети ResNet , удаляет шум на выходе прямой диффузии назад, чтобы получить скрытое представление. Наконец, декодер VAE генерирует окончательное изображение, преобразуя представление обратно в пространство пикселей. ^[14]

Шаг шумоподавления может быть гибко обусловлен строкой текста, изображением или другой модальностью. Закодированные данные кондиционирования подвергаются шумоподавлению U-Nets с помощью механизма перекрестного внимания . ^[14] Для обработки текста используется фиксированный предварительно обученный текстовый кодер CLIP ViT-L/14, который преобразует текстовые подсказки в пространство для встраивания. ^[8] Исследователи указывают на повышенную вычислительную эффективность для обучения и генерации как на преимущество LDM. ^[7]^[13]

Название «диффузия» вдохновлено термодинамической диффузией , и в 2015 году была установлена важная связь между этой чисто физической областью и глубоким обучением. ^[15]^[16]

Имея 860 миллионов параметров в U-Net и 123 миллиона в кодировщике текста, Stable Diffusion считается относительно лёгким по стандартам 2022 года и, в отличие от других моделей диффузии, может работать на потребительских графических процессорах. ^[17] и даже ЦП — только при использовании версии Stable Diffusion для OpenVINO . ^[18]

SD XL [ править ]

Версия XL использует ту же архитектуру. ^[19] за исключением большего: более крупная магистральная сеть UNet, больший контекст перекрестного внимания, два текстовых кодировщика вместо одного и обучение на нескольких соотношениях сторон (а не только на квадратном соотношении сторон, как в предыдущих версиях).

SD XL Refiner, выпущенный в то же время, имеет ту же архитектуру, что и SD XL, но он был обучен добавлению мелких деталей к уже существующим изображениям с помощью условного текста img2img.

SD 3.0 [ править ]

Версия 3.0 ^[20] полностью меняет костяк. Не UNet, а Rectified Flow Transformer , реализующий метод выпрямленного потока. ^[21]^[22] с Трансформатором .

Архитектура Transformer, используемая для SD 3.0, имеет три «дорожки»: для кодирования исходного текста, кодирования преобразованного текста и кодирования изображения (в скрытом пространстве). Преобразованное кодирование текста и кодирование изображения смешиваются во время каждого блока преобразования.

Архитектура называется «мультимодальный диффузионный преобразователь (MMDiT), где «мультимодальный» означает, что она смешивает кодировки текста и изображения внутри своих операций. Это отличается от предыдущих версий DiT, где кодировка текста влияет на кодировку изображения, но не наоборот. .

Данные тренировки [ править ]

Stable Diffusion обучался на парах изображений и подписей, взятых из LAION-5B, общедоступного набора данных, полученного на основе данных Common Crawl, взятых из Интернета, где 5 миллиардов пар изображение-текст были классифицированы на основе языка и отфильтрованы в отдельные наборы данных по разрешению. прогнозируемая вероятность наличия водяного знака и прогнозируемая «эстетическая» оценка (например, субъективное визуальное качество). ^[23] Набор данных был создан LAION , немецкой некоммерческой организацией, которая получает финансирование от Stability AI. ^[23]^[24] Модель Stable Diffusion была обучена на трех подмножествах LAION-5B: laion2B-en, laion-high-solve и laion-esthetics v2 5+. ^[23] Сторонний анализ данных обучения модели показал, что из меньшего подмножества в 12 миллионов изображений, взятых из исходного более широкого используемого набора данных, примерно 47% размера выборки изображений поступило из 100 различных доменов, причем Pinterest занимает 8,5% из подмножества, за которым следуют такие веб-сайты, как WordPress , Blogspot , Flickr , DeviantArt и Wikimedia Commons . ^{[ нужна ссылка ]} Расследование Bayerischer Rundfunk показало, что наборы данных LAION, размещенные на Hugging Face, содержат большое количество частных и конфиденциальных данных. ^[25]

Процедуры обучения [ править ]

Первоначально модель обучалась на подмножествах laion2B-en и laion-high-разрешения, причем последние несколько раундов обучения проводились на LAION-Aesthetics v2 5+, подмножестве из 600 миллионов изображений с субтитрами, которые, по прогнозам LAION-Aesthetics Predictor V2, люди в среднем дали бы оценку не менее 5 из 10, когда их попросили оценить, насколько они им понравились. ^[26]^[23]^[27] Подмножество LAION-Aesthetics v2 5+ также исключало изображения с низким разрешением и изображения, которые LAION-5B-WatermarkDetection идентифицировал как несущие водяной знак с вероятностью более 80%. ^[23] Заключительные раунды обучения дополнительно снизили необходимость обработки текста на 10 %, чтобы улучшить управление диффузией без классификаторов. ^[28]

Модель была обучена с использованием 256 графических процессоров Nvidia A100 в Amazon Web Services в общей сложности 150 000 графо-часов и обошлась в 600 000 долларов США. ^[29]^[30]^[31]

Обучение SD3 обошлось примерно в 10 миллионов долларов. ^[32]

Ограничения [ править ]

Стабильная диффузия имеет проблемы с деградацией и неточностями в определенных сценариях. Первоначальные выпуски модели были обучены на наборе данных, состоящем из изображений с разрешением 512×512, а это означает, что качество создаваемых изображений заметно ухудшается, когда пользовательские спецификации отклоняются от «ожидаемого» разрешения 512×512; ^[33] Обновление модели Stable Diffusion версии 2.0 позже представило возможность генерировать изображения с разрешением 768×768. ^[34] Еще одна проблема заключается в создании человеческих конечностей из-за низкого качества данных о конечностях в базе данных LAION. ^[35] Модель недостаточно обучена, чтобы понимать человеческие конечности и лица из-за отсутствия репрезентативных особенностей в базе данных, и побуждение модели генерировать изображения такого типа может сбить ее с толку. ^[36] Версия 1.0 Stable Diffusion XL (SDXL), выпущенная в июле 2023 года, представила собственное разрешение 1024x1024 и улучшенную генерацию конечностей и текста. ^[37]^[38]

Доступность для отдельных разработчиков также может быть проблемой. Чтобы настроить модель для новых вариантов использования, которые не включены в набор данных, таких как создание аниме- персонажей («диффузия вайфу»), ^[39] необходимы новые данные и дальнейшее обучение. Точные адаптации Stable Diffusion, созданные в результате дополнительной переподготовки, использовались для множества различных случаев, от медицинской визуализации ^[40] к алгоритмически сгенерированной музыке . ^[41] Однако этот процесс тонкой настройки чувствителен к качеству новых данных; Изображения с низким разрешением или разрешения, отличные от исходных данных, могут не только не справиться с новой задачей, но и ухудшить общую производительность модели. Даже если модель дополнительно обучена на изображениях высокого качества, людям сложно запускать модели в бытовой электронике. Например, процесс обучения вайфу-диффузии требует минимум 30 ГБ видеопамяти , ^[42] что превышает обычный ресурс, предусмотренный в таких потребительских графических процессорах, как Nvidia от серия GeForce 30 , имеющая всего около 12 ГБ. ^[43]

Создатели Stable Diffusion признают возможность алгоритмической предвзятости , поскольку модель в первую очередь обучалась на изображениях с английскими описаниями. ^[30] В результате сгенерированные изображения усиливают социальные предубеждения и отражают западную точку зрения, поскольку создатели отмечают, что в модели отсутствуют данные из других сообществ и культур. Модель дает более точные результаты для подсказок, написанных на английском языке, по сравнению с подсказками, написанными на других языках, при этом западная или белая культура часто является представлением по умолчанию. ^[30]

Тонкая настройка для конечного пользователя [ править ]

Чтобы устранить ограничения первоначального обучения модели, конечные пользователи могут выбрать дополнительное обучение для точной настройки результатов генерации в соответствии с более конкретными сценариями использования. Этот процесс также называется персонализацией . Существует три метода, с помощью которых доступная пользователю точная настройка может быть применена к контрольной точке модели стабильной диффузии:

«Внедрение» может быть обучено на основе коллекции изображений, предоставленных пользователем, и позволяет модели генерировать визуально похожие изображения всякий раз, когда имя встраивания используется в подсказке создания. ^[44] Встраивания основаны на концепции «текстовой инверсии», разработанной исследователями из Тель-Авивского университета в 2022 году при поддержке Nvidia , где векторные представления для конкретных токенов, используемых кодировщиком текста модели, связаны с новыми псевдословами. Внедрения можно использовать для уменьшения искажений в исходной модели или для имитации визуальных стилей. ^[45]
«Гиперсеть» — это небольшая предварительно обученная нейронная сеть, которая применяется к различным точкам внутри более крупной нейронной сети и относится к методу, созданному разработчиком NovelAI для генерации текста Курумузом в 2021 году и первоначально предназначенному для моделей преобразователей . Гиперсети направляют результаты в определенном направлении, позволяя моделям на основе стабильной диффузии имитировать художественный стиль конкретных художников, даже если художник не распознается исходной моделью; они обрабатывают изображение, находя ключевые важные области, такие как волосы и глаза, а затем помещают эти области во вторичное скрытое пространство. ^[46]
DreamBooth — это модель генерации глубокого обучения, разработанная исследователями из Google Research и Бостонского университета в 2022 году. Она позволяет точно настроить модель для генерации точных персонализированных результатов, изображающих конкретный предмет, после обучения с помощью набора изображений, изображающих этот предмет. ^[47]

Возможности [ править ]

Модель Stable Diffusion поддерживает возможность генерировать новые изображения с нуля с помощью текстового приглашения, описывающего элементы, которые следует включить или исключить из вывода. ^[8] Существующие изображения могут быть перерисованы моделью для включения новых элементов, описанных текстовой подсказкой (процесс, известный как «управляемый синтез изображений»). ^[48]) посредством механизма диффузионного шумоподавления. ^[8] Кроме того, модель также позволяет использовать подсказки для частичного изменения существующих изображений посредством закрашивания и перерисовки при использовании с соответствующим пользовательским интерфейсом, поддерживающим такие функции, для которых существует множество различных реализаций с открытым исходным кодом. ^[49]

Stable Diffusion рекомендуется запускать с 10 ГБ или более видеопамяти, однако пользователи с меньшим количеством видеопамяти могут выбрать загрузку весов с точностью float16 вместо значения по умолчанию float32, чтобы обеспечить компромисс между производительностью модели и меньшим использованием видеопамяти. ^[33]

Генерация текста в изображение [ править ]

Демонстрация влияния негативных подсказок на генерацию изображений

Вверху : нет негативных подсказок
Центр : «зеленые деревья».
Внизу : «круглые камни, круглые камни».

Сценарий выборки текста в изображение в Stable Diffusion, известный как «txt2img», использует текстовую подсказку в дополнение к различным параметрам, охватывающим типы выборки, размеры выходного изображения и начальные значения. Сценарий выводит файл изображения на основе интерпретации подсказки моделью. ^[8] Сгенерированные изображения помечаются невидимым цифровым водяным знаком , чтобы пользователи могли идентифицировать изображение как созданное с помощью Stable Diffusion. ^[8] хотя этот водяной знак теряет свою эффективность при изменении размера или повороте изображения. ^[50]

Каждое поколение txt2img будет включать в себя определенное начальное значение , которое влияет на выходное изображение. Пользователи могут выбрать рандомизацию начального числа, чтобы изучить различные сгенерированные выходные данные, или использовать одно и то же начальное число для получения того же выходного изображения, что и ранее сгенерированное изображение. ^[33] Пользователи также могут регулировать количество шагов вывода для сэмплера; более высокое значение занимает больше времени, однако меньшее значение может привести к визуальным дефектам. ^[33] Другая настраиваемая опция — значение шкалы навигации без классификатора — позволяет пользователю настроить, насколько точно выходное изображение соответствует подсказке. ^[28] В более экспериментальных случаях использования можно выбрать более низкое значение шкалы, тогда как в сценариях использования, нацеленных на более конкретные результаты, может использоваться более высокое значение. ^[33]

Дополнительные функции text2img предоставляются внешними реализациями Stable Diffusion, которые позволяют пользователям изменять вес, придаваемый определенным частям текстового приглашения. Маркеры выделения позволяют пользователям добавлять или уменьшать выделение ключевых слов, заключая их в квадратные скобки. ^[51] Альтернативным методом корректировки веса частей подсказки являются «отрицательные подсказки». Отрицательные подсказки — это функция, включенная в некоторые реализации внешнего интерфейса, в том числе в собственный облачный сервис DreamStudio компании Stability AI, и позволяющая пользователю указывать подсказки, которых модели следует избегать во время создания изображения. Указанные подсказки могут представлять собой нежелательные особенности изображения, которые в противном случае присутствовали бы в выходных изображениях из-за положительных подсказок, предоставленных пользователем, или из-за того, как модель изначально обучалась, причем частым примером являются искалеченные человеческие руки. ^[49]^[52]

Модификация изображения [ править ]

Демонстрация модификации img2img

Слева : исходное изображение, созданное с помощью Stable Diffusion 1.5.
Справа : измененное изображение, созданное с помощью Stable Diffusion XL 1.0.

Stable Diffusion также включает в себя еще один сценарий выборки, «img2img», который использует текстовую подсказку, путь к существующему изображению и значение силы от 0,0 до 1,0. Скрипт выводит новое изображение на основе исходного изображения, которое также содержит элементы, представленные в текстовой подсказке. Значение силы обозначает количество шума, добавленного к выходному изображению. Более высокое значение интенсивности приводит к большему разнообразию изображения, но может создать изображение, которое семантически не соответствует предоставленному запросу. ^[8]

Способность img2img добавлять шум к исходному изображению делает его потенциально полезным для анонимизации и увеличения данных , при которых визуальные особенности данных изображения изменяются и анонимизируются. ^[53] Тот же процесс может быть полезен для масштабирования изображения, при котором разрешение изображения увеличивается, при этом к изображению потенциально может быть добавлено больше деталей. ^[53] Кроме того, Stable Diffusion экспериментировал как инструмент для сжатия изображений. По сравнению с JPEG и WebP , последние методы, используемые для сжатия изображений в Stable Diffusion, имеют ограничения по сохранению мелкого текста и лиц. ^[54]

Дополнительные варианты использования для модификации изображений с помощью img2img предлагаются многочисленными внешними реализациями модели Stable Diffusion. Inpainting включает в себя выборочное изменение части существующего изображения, очерченной предоставленной пользователем маской слоя , которая заполняет замаскированное пространство вновь созданным содержимым на основе предоставленной подсказки. ^[49] Специальная модель, специально настроенная для сценариев использования, была создана Stability AI одновременно с выпуском Stable Diffusion 2.0. ^[34] И наоборот, перерисовка расширяет изображение за пределы его исходных размеров, заполняя ранее пустое пространство содержимым, созданным на основе предоставленной подсказки. ^[49]

Модель с контролем глубины под названием «Deep2img» была представлена вместе с выпуском Stable Diffusion 2.0 24 ноября 2022 года; эта модель определяет глубину предоставленного входного изображения и генерирует новое выходное изображение на основе как текстовой подсказки, так и информации о глубине, что позволяет поддерживать согласованность и глубину исходного входного изображения в сгенерированном выходе. ^[34]

ControlNet [ править ]

Контрольная сеть ^[55] — это архитектура нейронной сети, предназначенная для управления моделями диффузии путем включения дополнительных условий. Он дублирует веса блоков нейронной сети в «заблокированную» копию и «обучаемую» копию. «Обучаемая» копия изучает желаемое условие, а «заблокированная» копия сохраняет исходную модель. Этот подход гарантирует, что обучение с небольшими наборами данных пар изображений не ставит под угрозу целостность готовых к производству диффузионных моделей. «Нулевая свертка» — это свертка 1×1, в которой вес и смещение инициализируются равными нулю. Перед обучением все нулевые свертки дают нулевой результат, предотвращая любые искажения, вызванные ControlNet. Ни один слой не обучается с нуля; процесс все еще находится в стадии тонкой настройки, сохраняя безопасность исходной модели. Этот метод позволяет проводить обучение на небольших или даже персональных устройствах.

Релизы [ править ]


Номер версии	Дата выпуска	Примечания
1.1, 1.2, 1.3, 1.4 ^[56]	август 2022 г.	Все выпущено CompVis. Не существует «версии 1.0». 1.1 породил 1.2, а 1.2 породил и 1.3, и 1.4. ^[57]
1.5 ^[58]	Октябрь 2022 г.	Инициализируется с весами 1,2, а не 1,4. Выпущено RunwayML.
2.0 ^[59]	ноябрь 2022 г.	Переобучен с нуля на отфильтрованном наборе данных. ^[60]
2.1 ^[61]	декабрь 2022 г.	Инициализируется с весами 2.0.
ХL 1.0 ^[62]^[19]	июль 2023 г.	Базовая модель XL 1.0 имеет 3,5 миллиарда параметров, что делает ее примерно в 3,5 раза больше, чем в предыдущих версиях. ^[63]
XL Турбо ^[64]	ноябрь 2023 г.	На основе XL 1.0 для меньшего количества этапов диффузии. ^[65]
3.0 ^[66]^[20]	Февраль 2024 г. (ранняя предварительная версия)	Семейство моделей, от 800М до 8В параметров.

Ключевые документы

Изучение переносимых визуальных моделей под контролем естественного языка (2021). ^[67] В этой статье описывается метод CLIP для обучения кодировщиков текста, которые преобразуют текст в векторы с плавающей запятой. Такие кодировки текста используются моделью диффузии для создания изображений.
SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений (2021). ^[68] В этой статье описывается SDEdit, также известный как «img2img».
Синтез изображений высокого разрешения с моделями скрытой диффузии (2021 г., обновлено в 2022 г.). ^[69] В данной статье описывается модель скрытой диффузии (LDM). Это основа архитектуры стабильной диффузии.
Руководство по диффузии без классификаторов (2022 г.). ^[28] В этой статье описывается CFG, который позволяет вектору кодирования текста направлять модель диффузии в сторону создания изображения, описываемого текстом.
SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения (2023 г.). ^[19] Описывает SDXL.
Поток прямой и быстрый: учимся генерировать и передавать данные с помощью выпрямленного потока (2022 г.). ^[21]^[22] Описывает выпрямленный поток, который используется для базовой архитектуры SD 3.0.
Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения (2024 г.). ^[20] Описывает SD 3.0.

Стоимость обучения

SD 2.0: 0,2 миллиона часов на A100 (40 ГБ). ^[59]

Использование и споры [ править ]

Stable Diffusion не претендует на какие-либо права на сгенерированные изображения и бесплатно предоставляет пользователям права использования любых сгенерированных изображений из модели при условии, что содержание изображения не является незаконным или вредным для отдельных лиц. ^[70]

Изображения, на которых проходил обучение Stable Diffusion, были отфильтрованы без участия человека, что привело к появлению в обучающих данных некоторых вредоносных изображений и большого количества частной и конфиденциальной информации. ^[25]

Более традиционные визуальные художники выразили обеспокоенность тем, что широкое использование программного обеспечения для синтеза изображений, такого как Stable Diffusion, может в конечном итоге привести к тому, что люди-художники, а также фотографы, модели, кинематографисты и актеры постепенно потеряют коммерческую жизнеспособность по сравнению с конкурентами, основанными на искусственном интеллекте. ^[71]

Stable Diffusion заметно более либерален в отношении типов контента, который могут создавать пользователи, например изображений насилия или откровенно сексуального характера, по сравнению с другими коммерческими продуктами, основанными на генеративном искусственном интеллекте. ^[72] Отвечая на опасения, что модель может быть использована в неправомерных целях, генеральный директор Stability AI Эмад Мостак утверждает, что «[это] ответственность людей за то, соблюдают ли они этические, моральные и законные принципы использования этой технологии». ^[10] и что передача возможностей стабильной диффузии в руки общественности приведет к тому, что технология принесет чистую выгоду, несмотря на потенциальные негативные последствия. ^[10] Кроме того, Мостак утверждает, что цель открытой доступности Stable Diffusion состоит в том, чтобы положить конец корпоративному контролю и доминированию над такими технологиями, которые ранее разрабатывали только закрытые системы искусственного интеллекта для синтеза изображений. ^[10]^[72] Это отражается в том факте, что любые ограничения Stability AI, налагаемые на контент, который могут создавать пользователи, можно легко обойти благодаря доступности исходного кода. ^[73]

Споры вокруг фотореалистичных сексуализированных изображений несовершеннолетних персонажей возникли из-за того, что такие изображения, созданные Stable Diffusion, публикуются на таких веб-сайтах, как Pixiv . ^[74]

Судебное разбирательство [ править ]

В январе 2023 года три художницы, Сара Андерсен , Келли МакКернан и Карла Ортис, подали иск о нарушении авторских прав против Stability AI, Midjourney и DeviantArt , утверждая, что эти компании нарушили права миллионов художников, обучая инструменты ИИ на пяти миллиардах человек. изображения, взятые из сети без согласия авторов оригинала. ^[75] подала в суд на компанию Stability AI В том же месяце Getty Images за использование ее изображений в обучающих данных. ^[76]

В июле 2023 года окружной судья США Уильям Оррик был склонен отклонить большую часть иска, поданного Андерсеном, МакКернаном и Ортисом, но разрешил им подать новую жалобу. ^[77]

Лицензия [ править ]

В отличие от таких моделей, как DALL-E , Stable Diffusion предоставляет доступ к своему исходному коду . ^[78]^[8] вместе с моделью (предварительно обученные веса). К модели (M) применяется лицензия Creative ML OpenRAIL-M, разновидность лицензии Responsible AI (RAIL). ^[79] Лицензия запрещает определенные случаи использования, включая преступления, клевету , преследование , доксинг , « эксплуатацию… несовершеннолетних », предоставление медицинских консультаций, автоматическое создание юридических обязательств, представление юридических доказательств и «дискриминацию или причинение вреда отдельным лицам или группам на основании… социальное поведение или... личные или личностные характеристики... [или] охраняемые законом характеристики или категории ». ^[80]^[81] Пользователь владеет правами на сгенерированные выходные изображения и может свободно использовать их в коммерческих целях. ^[82]

См. также [ править ]

Ссылки [ править ]

^ «Анонсируем SDXL 1.0» . стабильность.ай . Архивировано из оригинала 26 июля 2023 года.
^ Райан О'Коннор (23 августа 2022 г.). «Как локально запустить Stable Diffusion для создания изображений» . Архивировано из оригинала 13 октября 2023 года . Проверено 4 мая 2023 г.
^ «Diffuse The Rest — пространство для обнимающего лица» от HuggingFace . Huggingface.co . Архивировано из оригинала 5 сентября 2022 года . Проверено 5 сентября 2022 г.
^ «Утечка колоды вызывает у инвесторов вопросы по поводу презентации Stability AI Series A» . просеянный.eu . Архивировано из оригинала 29 июня 2023 года . Проверено 20 июня 2023 г.
^ «Революционная генерация изображений с помощью ИИ: превращение текста в изображения» . www.lmu.de. Архивировано из оригинала 17 сентября 2022 года . Проверено 21 июня 2023 г.
^ Мостак, Эмад (2 ноября 2022 г.). «Стабильная диффузия разработана исследовательской группой машинного зрения и обучения (CompVis) @LMU_Muenchen» . Твиттер . Архивировано из оригинала 20 июля 2023 года . Проверено 22 июня 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д «Объявление о запуске Stable Diffusion» . Стабильность.Ай . Архивировано из оригинала 5 сентября 2022 года . Проверено 6 сентября 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я «Стабильный репозиторий Diffusion на GitHub» . CompVis — Исследовательская группа по машинному зрению и обучению, LMU Мюнхен. 17 сентября 2022 года. Архивировано из оригинала 18 января 2023 года . Проверено 17 сентября 2022 г.
^ «Новое потрясающее приложение: создание произведений искусства с помощью ИИ сокрушит ваш компьютер» . ПКМир . Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и Винсент, Джеймс (15 сентября 2022 г.). «Любой может использовать этот генератор искусственного интеллекта — в этом есть риск» . Грань . Архивировано из оригинала 21 января 2023 года . Проверено 30 сентября 2022 г.
^ «CompVis/Латентная диффузия» . Гитхаб .
^ «Стабильная диффузия 3: Исследовательская статья» .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Ромбах; Блаттманн; Лоренц; Эссер; Оммер (июнь 2022 г.). Синтез изображений высокого разрешения с использованием моделей скрытой диффузии (PDF) . Международная конференция по компьютерному зрению и распознаванию образов (CVPR). Новый Орлеан, Луизиана. стр. 10684–10695. arXiv : 2112.10752 . Архивировано (PDF) из оригинала 20 января 2023 г. Проверено 17 сентября 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д Аламмар, Джей. «Иллюстрированная стабильная диффузия» . jalammar.github.io . Архивировано из оригинала 1 ноября 2022 года . Проверено 31 октября 2022 г.
^ Дэвид, Фостер. «8. Диффузионные модели». Генеративное глубокое обучение (2-е изд.). О'Рейли.
^ Яша Сол-Дикштейн, Эрик А. Вайс, Ниру Махешваранатан, Сурья Гангули (12 марта 2015 г.). «Глубокое обучение без учителя с использованием неравновесной термодинамики». Арксив . arXiv : 1503.03585 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ «Стабильные диффузионные трубопроводы» . Huggingface.co . Архивировано из оригинала 25 июня 2023 года . Проверено 22 июня 2023 г.
^ «Генерация текста в изображение с помощью Stable Diffusion и OpenVINO™» . openvino.ai . Интел . Проверено 10 февраля 2024 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Поделл, Дастин; английский, Сион; Лейси, Кайл; Блаттманн, Андреас; Докхорн, Тим; Мюллер, Йонас; Пенна, Джо; Ромбах, Робин (4 июля 2023 г.). «SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения». arXiv : 2307.01952 [ cs.CV ].
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (5 марта 2024 г.), Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения , arXiv : 2403.03206
↑ Перейти обратно: Перейти обратно: ^а ^б Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (7 сентября 2022 г.), « Прямой и быстрый поток: учимся генерировать и передавать данные с помощью выпрямленного потока» , arXiv : 2209.03003
↑ Перейти обратно: Перейти обратно: ^а ^б «Выпрямленный поток — Ректифицированный поток» . www.cs.utexas.edu . Проверено 6 марта 2024 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и Байо, Энди (30 августа 2022 г.). «Исследование 12 миллионов из 2,3 миллиарда изображений, используемых для обучения генератора изображений Stable Diffusion» . Waxy.org . Архивировано из оригинала 20 января 2023 года . Проверено 2 ноября 2022 г.
^ «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 2 ноября 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Бруннер, Катарина; Харлан, Элиза (7 июля 2023 г.). «Мы все — сырье для искусственного интеллекта» . Баварский Рундфунк (Бразилия). Архивировано из оригинала 12 сентября 2023 года . Проверено 12 сентября 2023 г.
^ Шуман, Кристоф (2 ноября 2022 г.), CLIP + MLP Aesthetic Score Predictor , заархивировано из оригинала 8 июня 2023 г. , получено 2 ноября 2022 г.
^ «ЛАИОН-Эстетика | ЛАИОН» . laion.ai . Архивировано из оригинала 26 августа 2022 года . Проверено 2 сентября 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Эй, Джонатан; Салиманс, Тим (25 июля 2022 г.). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [ cs.LG ].
^ Мостак, Эмад (28 августа 2022 г.). «Стоимость строительства» . Твиттер . Архивировано из оригинала 6 сентября 2022 года . Проверено 6 сентября 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 2 ноября 2022 г.
^ Виггерс, Кайл (12 августа 2022 г.). «Стартап хочет демократизировать технологию, лежащую в основе DALL-E 2, и к черту последствия» . ТехКранч . Архивировано из оригинала 19 января 2023 года . Проверено 2 ноября 2022 г.
^ emad_9608 (19 апреля 2024 г.). «10 метров — это правильно» . г/СтаблДиффузия . Проверено 25 апреля 2024 г. {{cite web}}: CS1 maint: числовые имена: список авторов ( ссылка )
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и «Стабильная диффузия с помощью 🧨 Диффузоров» . Huggingface.co . Архивировано из оригинала 17 января 2023 года . Проверено 31 октября 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с «Стабильный выпуск Diffusion 2.0» . стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.
^ «ЛАИОН» . laion.ai . Архивировано из оригинала 16 октября 2023 года . Проверено 31 октября 2022 г.
^ «Создание изображений с помощью стабильной диффузии» . Блог Paperspace . 24 августа 2022 года. Архивировано из оригинала 31 октября 2022 года . Проверено 31 октября 2022 г.
^ «Анонсируем SDXL 1.0» . Стабильность ИИ . Архивировано из оригинала 26 июля 2023 года . Проверено 21 августа 2023 г.
^ Эдвардс, Бендж (27 июля 2023 г.). «Stability AI выпускает Stable Diffusion XL, модель синтеза изображений нового поколения» . Арс Техника . Архивировано из оригинала 21 августа 2023 года . Проверено 21 августа 2023 г.
^ «хакурей/вайфу-диффузия · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 31 октября 2022 г.
^ Шамбон, Пьер; Блютген, Кристиан; Ланглотц, Кертис П.; Чаудхари, Акшай (9 октября 2022 г.). «Адаптация предварительно обученных базовых моделей визуального языка к областям медицинской визуализации». arXiv : 2210.04133 [ cs.CV ].
^ Сет Форсгрен; Айк Мартирос. «Riffusion — стабильная диффузия для генерации музыки в реальном времени» . Риффузия . Архивировано из оригинала 16 декабря 2022 года.
^ Меркурио, Энтони (31 октября 2022 г.), Waifu Diffusion , заархивировано из оригинала 31 октября 2022 г. , получено 31 октября 2022 г.
^ Смит, Райан. «NVIDIA тихо выпускает GeForce RTX 3080 12 ГБ: больше видеопамяти, больше мощности, больше денег» . www.anandtech.com . Архивировано из оригинала 27 августа 2023 года . Проверено 31 октября 2022 г.
^ Дэйв Джеймс (28 октября 2022 г.). «Я 8 часов подряд бил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман» . ПК-геймер . Архивировано из оригинала 9 ноября 2022 года.
^ Гал, Ринон; Алалуф, Юваль; Ацмон, Юваль; Паташник, Ор; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (2 августа 2022 г.). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии». arXiv : 2208.01618 [ cs.CV ].
^ «Усовершенствования NovelAI в области стабильной диффузии» . Роман ИИ . 11 октября 2022 г. Архивировано из оригинала 27 октября 2022 г.
^ Юки Ямасита (1 сентября 2022 г.). просто давая текстовые инструкции, разработанный Google» . «ИИ, который может генерировать составные изображения вашей собаки и косплея , Архивировано из оригинала 31 августа 2022 г.
^ Мэн, Ченлинь; Он, Ютонг; Сун, Ян; Сун, Цзямин; У, Цзяцзюнь; Чжу, Цзюнь-Янь; Эрмон, Стефано (2 августа 2021 г.). «SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений». arXiv : 2108.01073 [ cs.CV ].
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д «Стабильный веб-интерфейс Diffusion» . Гитхаб . 10 ноября 2022 года. Архивировано из оригинала 20 января 2023 года . Проверено 27 сентября 2022 г.
^ invisible-watermark , Shield Mountain, 2 ноября 2022 г., заархивировано из оригинала 18 октября 2022 г. , получено 2 ноября 2022 г.
^ «инструменты-стабильной-диффузии/акцент на мастере · ЙоханнесГесслер/инструменты-стабильной-диффузии» . Гитхаб . Архивировано из оригинала 2 октября 2022 года . Проверено 2 ноября 2022 г.
^ «Stable Diffusion v2.1 и обновления DreamStudio от 7 декабря до 22 декабря» . стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.
↑ Перейти обратно: Перейти обратно: ^а ^б Лузи, Лоренцо; Сиакухи, Али; Майер, Пол М.; Каско-Родригес, Хосуэ; Баранюк, Ричард (21 октября 2022 г.). «Бумеранг: локальная выборка на многообразиях изображений с использованием диффузионных моделей». arXiv : 2210.12100 [ cs.CV ].
^ Бюльманн, Матиас (28 сентября 2022 г.). «Стабильное диффузионное сжатие изображения» . Середина . Архивировано из оригинала 2 ноября 2022 года . Проверено 2 ноября 2022 г.
^ Чжан, Львмин (10 февраля 2023 г.). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [ cs.CV ].
^ «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 17 августа 2023 г.
^ «КомпВис (КомВис)» . Huggingface.co . 23 августа 2023 г. . Проверено 6 марта 2024 г.
^ "runwayml/stable-diffusion-v1-5 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
↑ Перейти обратно: Перейти обратно: ^а ^б "stabilityai/stable-diffusion-2 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
^ "stabilityai/stable-diffusion-2-base · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.
^ "stabilityai/stable-diffusion-2-1 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
^ "stabilityai/stable-diffusion-xl-base-1.0 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 17 августа 2023 г.
^ «Анонсируем SDXL 1.0» . Стабильность ИИ . Проверено 1 января 2024 г.
^ "stabilityai/sdxl-turbo · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.
^ «Состязательная диффузионная дистилляция» . Стабильность ИИ . Проверено 1 января 2024 г.
^ «Стабильная диффузия 3» . Стабильность ИИ . Проверено 5 марта 2024 г.
^ Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела (26 февраля 2021 г.). «Изучение переносимых визуальных моделей под контролем естественного языка». arXiv : 2103.00020 [ cs.CV ].
^ Мэн, Ченлинь; Он, Ютонг; Сун, Ян; Сун, Цзямин; У, Цзяцзюнь; Чжу, Цзюнь-Янь; Эрмон, Стефано (4 января 2022 г.). «SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений». arXiv : 2108.01073 [ cs.CV ].
^ Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьорн (2022). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии» . Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) . стр. 10684–10695. arXiv : 2112.10752 .
^ «LICENSE.md · Sustainableai/stable-diffusion-xl-base-1.0 at main» . Huggingface.co . 26 июля 2023 г. . Проверено 1 января 2024 г.
^ Хейккиля, Мелисса (16 сентября 2022 г.). «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 26 сентября 2022 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Рё Симидзу (26 августа 2022 г.). «Превзошел ли он Midjourney? Почему мы можем сказать, что #StableDiffusion, бесплатный ИИ для рисования, демократизировал ИИ» . Business Insider Japan (на японском языке). Архивировано из оригинала 10 декабря. 2022. Проверено 4 октября 2022 года .
^ Кай, Кенрик. «Стартап AI Image Generator Stable Diffusion ведет переговоры о привлечении инвестиций при оценке до 1 миллиарда долларов» . Форбс . Архивировано из оригинала 30 сентября 2023 года . Проверено 31 октября 2022 г.
^ «Разоблачена незаконная торговля изображениями сексуального насилия над детьми, созданными искусственным интеллектом» . Новости Би-би-си . 27 июня 2023 года. Архивировано из оригинала 21 сентября 2023 года . Проверено 26 сентября 2023 г.
^ Винсент, Джеймс (16 января 2023 г.). «Инструменты искусственного интеллекта Stable Diffusion и Midjourney подверглись иску о нарушении авторских прав» . Грань . Архивировано из оригинала 9 марта 2023 года . Проверено 16 января 2023 г.
^ Корн, Дженнифер (17 января 2023 г.). «Getty Images подает в суд на создателей популярного инструмента искусственного интеллекта за кражу фотографий» . CNN . Архивировано из оригинала 1 марта 2023 года . Проверено 22 января 2023 г.
^ Бриттен, Блейк (19 июля 2023 г.). «Американский судья нашел недостатки в иске художников против компаний, занимающихся искусственным интеллектом» . Рейтер . Архивировано из оригинала 6 сентября 2023 года . Проверено 6 августа 2023 г.
^ «Публичный выпуск стабильной диффузии» . Стабильность.Ай . Архивировано из оригинала 30 августа 2022 года . Проверено 31 августа 2022 г.
^ «От RAIL к Open RAIL: Топологии лицензий RAIL» . Лицензии на ответственный ИИ (RAIL) . 18 августа 2022 года. Архивировано из оригинала 27 июля 2023 года . Проверено 20 февраля 2023 г.
^ «Готовы вы или нет, но массовые видео-дипфейки грядут» . Вашингтон Пост . 30 августа 2022 года. Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.
^ «Лицензия — пространство для обнимания лица от CompVis» . Huggingface.co . Архивировано из оригинала 4 сентября 2022 года . Проверено 5 сентября 2022 г.
^ Кацуо Исида (26 августа 2022 г.) «Stable Diffusion» использует удивительный искусственный интеллект для рисования изображений на основе устных инструкций — изображения можно использовать в коммерческих целях» . Impress Corporation (на японском языке). Архивировано из оригинала 14 ноября 2022 г. Проверено 4 октября 2022 г.

Внешние ссылки [ править ]

Демонстрация стабильной диффузии
Интерактивное объяснение стабильной диффузии
«Мы все — сырье для искусственного интеллекта» : исследование конфиденциальных и частных данных в обучающих данных стабильной диффузии.
« Отрицательные подсказки в устойчивой диффузии »

[release-sdxl1.0-1] «Анонсируем SDXL 1.0» . стабильность.ай . Архивировано из оригинала 26 июля 2023 года.

[2] Райан О'Коннор (23 августа 2022 г.). «Как локально запустить Stable Diffusion для создания изображений» . Архивировано из оригинала 13 октября 2023 года . Проверено 4 мая 2023 г.

[:0-3] «Diffuse The Rest — пространство для обнимающего лица» от HuggingFace . Huggingface.co . Архивировано из оригинала 5 сентября 2022 года . Проверено 5 сентября 2022 г.

[sifted_financialtimes-4] «Утечка колоды вызывает у инвесторов вопросы по поводу презентации Stability AI Series A» . просеянный.eu . Архивировано из оригинала 29 июня 2023 года . Проверено 20 июня 2023 г.

[lmu_lauch-5] «Революционная генерация изображений с помощью ИИ: превращение текста в изображения» . www.lmu.de. Архивировано из оригинала 17 сентября 2022 года . Проверено 21 июня 2023 г.

[6] Мостак, Эмад (2 ноября 2022 г.). «Стабильная диффузия разработана исследовательской группой машинного зрения и обучения (CompVis) @LMU_Muenchen» . Твиттер . Архивировано из оригинала 20 июля 2023 года . Проверено 22 июня 2023 г.

[stable-diffusion-launch-7] Перейти обратно: Перейти обратно: ^а ^б ^с ^д «Объявление о запуске Stable Diffusion» . Стабильность.Ай . Архивировано из оригинала 5 сентября 2022 года . Проверено 6 сентября 2022 г.

[stable-diffusion-github-8] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я «Стабильный репозиторий Diffusion на GitHub» . CompVis — Исследовательская группа по машинному зрению и обучению, LMU Мюнхен. 17 сентября 2022 года. Архивировано из оригинала 18 января 2023 года . Проверено 17 сентября 2022 г.

[pcworld-9] «Новое потрясающее приложение: создание произведений искусства с помощью ИИ сокрушит ваш компьютер» . ПКМир . Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.

[verge-10] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и Винсент, Джеймс (15 сентября 2022 г.). «Любой может использовать этот генератор искусственного интеллекта — в этом есть риск» . Грань . Архивировано из оригинала 21 января 2023 года . Проверено 30 сентября 2022 г.

[11] «CompVis/Латентная диффузия» . Гитхаб .

[12] «Стабильная диффузия 3: Исследовательская статья» .

[paper-13] Перейти обратно: Перейти обратно: ^а ^б ^с Ромбах; Блаттманн; Лоренц; Эссер; Оммер (июнь 2022 г.). Синтез изображений высокого разрешения с использованием моделей скрытой диффузии (PDF) . Международная конференция по компьютерному зрению и распознаванию образов (CVPR). Новый Орлеан, Луизиана. стр. 10684–10695. arXiv : 2112.10752 . Архивировано (PDF) из оригинала 20 января 2023 г. Проверено 17 сентября 2022 г.

[:02-14] Перейти обратно: Перейти обратно: ^а ^б ^с ^д Аламмар, Джей. «Иллюстрированная стабильная диффузия» . jalammar.github.io . Архивировано из оригинала 1 ноября 2022 года . Проверено 31 октября 2022 г.

[15] Дэвид, Фостер. «8. Диффузионные модели». Генеративное глубокое обучение (2-е изд.). О'Рейли.

[16] Яша Сол-Дикштейн, Эрик А. Вайс, Ниру Махешваранатан, Сурья Гангули (12 марта 2015 г.). «Глубокое обучение без учителя с использованием неравновесной термодинамики». Арксив . arXiv : 1503.03585 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[17] «Стабильные диффузионные трубопроводы» . Huggingface.co . Архивировано из оригинала 25 июня 2023 года . Проверено 22 июня 2023 г.

[18] «Генерация текста в изображение с помощью Stable Diffusion и OpenVINO™» . openvino.ai . Интел . Проверено 10 февраля 2024 г.

[:4-19] Перейти обратно: Перейти обратно: ^а ^б ^с Поделл, Дастин; английский, Сион; Лейси, Кайл; Блаттманн, Андреас; Докхорн, Тим; Мюллер, Йонас; Пенна, Джо; Ромбах, Робин (4 июля 2023 г.). «SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения». arXiv : 2307.01952 [ cs.CV ].

[:6-20] Перейти обратно: Перейти обратно: ^а ^б ^с Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (5 марта 2024 г.), Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения , arXiv : 2403.03206

[:7-21] Перейти обратно: Перейти обратно: ^а ^б Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (7 сентября 2022 г.), « Прямой и быстрый поток: учимся генерировать и передавать данные с помощью выпрямленного потока» , arXiv : 2209.03003

[:8-22] Перейти обратно: Перейти обратно: ^а ^б «Выпрямленный поток — Ректифицированный поток» . www.cs.utexas.edu . Проверено 6 марта 2024 г.

[Waxy-23] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и Байо, Энди (30 августа 2022 г.). «Исследование 12 миллионов из 2,3 миллиарда изображений, используемых для обучения генератора изображений Stable Diffusion» . Waxy.org . Архивировано из оригинала 20 января 2023 года . Проверено 2 ноября 2022 г.

[24] «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 2 ноября 2022 г.

[:2-25] Перейти обратно: Перейти обратно: ^а ^б Бруннер, Катарина; Харлан, Элиза (7 июля 2023 г.). «Мы все — сырье для искусственного интеллекта» . Баварский Рундфунк (Бразилия). Архивировано из оригинала 12 сентября 2023 года . Проверено 12 сентября 2023 г.

[26] Шуман, Кристоф (2 ноября 2022 г.), CLIP + MLP Aesthetic Score Predictor , заархивировано из оригинала 8 июня 2023 г. , получено 2 ноября 2022 г.

[LAION-Aesthetics-27] «ЛАИОН-Эстетика | ЛАИОН» . laion.ai . Архивировано из оригинала 26 августа 2022 года . Проверено 2 сентября 2022 г.

[:5-28] Перейти обратно: Перейти обратно: ^а ^б ^с Эй, Джонатан; Салиманс, Тим (25 июля 2022 г.). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [ cs.LG ].

[29] Мостак, Эмад (28 августа 2022 г.). «Стоимость строительства» . Твиттер . Архивировано из оригинала 6 сентября 2022 года . Проверено 6 сентября 2022 г.

[stable-diffusion-model-card-1-4-30] Перейти обратно: Перейти обратно: ^а ^б ^с «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 2 ноября 2022 г.

[31] Виггерс, Кайл (12 августа 2022 г.). «Стартап хочет демократизировать технологию, лежащую в основе DALL-E 2, и к черту последствия» . ТехКранч . Архивировано из оригинала 19 января 2023 года . Проверено 2 ноября 2022 г.

[32] _9608 (19 апреля 2024 г.). «10 метров — это правильно» . г/СтаблДиффузия . Проверено 25 апреля 2024 г. {{cite web}}: CS1 maint: числовые имена: список авторов ( ссылка )

[diffusers-33] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и «Стабильная диффузия с помощью 🧨 Диффузоров» . Huggingface.co . Архивировано из оригинала 17 января 2023 года . Проверено 31 октября 2022 г.

[release2.0-34] Перейти обратно: Перейти обратно: ^а ^б ^с «Стабильный выпуск Diffusion 2.0» . стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.

[35] «ЛАИОН» . laion.ai . Архивировано из оригинала 16 октября 2023 года . Проверено 31 октября 2022 г.

[36] «Создание изображений с помощью стабильной диффузии» . Блог Paperspace . 24 августа 2022 года. Архивировано из оригинала 31 октября 2022 года . Проверено 31 октября 2022 г.

[37] «Анонсируем SDXL 1.0» . Стабильность ИИ . Архивировано из оригинала 26 июля 2023 года . Проверено 21 августа 2023 г.

[38] Эдвардс, Бендж (27 июля 2023 г.). «Stability AI выпускает Stable Diffusion XL, модель синтеза изображений нового поколения» . Арс Техника . Архивировано из оригинала 21 августа 2023 года . Проверено 21 августа 2023 г.

[39] «хакурей/вайфу-диффузия · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 31 октября 2022 г.

[40] Шамбон, Пьер; Блютген, Кристиан; Ланглотц, Кертис П.; Чаудхари, Акшай (9 октября 2022 г.). «Адаптация предварительно обученных базовых моделей визуального языка к областям медицинской визуализации». arXiv : 2210.04133 [ cs.CV ].

[41] Сет Форсгрен; Айк Мартирос. «Riffusion — стабильная диффузия для генерации музыки в реальном времени» . Риффузия . Архивировано из оригинала 16 декабря 2022 года.

[42] Меркурио, Энтони (31 октября 2022 г.), Waifu Diffusion , заархивировано из оригинала 31 октября 2022 г. , получено 31 октября 2022 г.

[43] Смит, Райан. «NVIDIA тихо выпускает GeForce RTX 3080 12 ГБ: больше видеопамяти, больше мощности, больше денег» . www.anandtech.com . Архивировано из оригинала 27 августа 2023 года . Проверено 31 октября 2022 г.

[44] Дэйв Джеймс (28 октября 2022 г.). «Я 8 часов подряд бил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман» . ПК-геймер . Архивировано из оригинала 9 ноября 2022 года.

[45] Гал, Ринон; Алалуф, Юваль; Ацмон, Юваль; Паташник, Ор; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (2 августа 2022 г.). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии». arXiv : 2208.01618 [ cs.CV ].

[46] «Усовершенствования NovelAI в области стабильной диффузии» . Роман ИИ . 11 октября 2022 г. Архивировано из оригинала 27 октября 2022 г.

[47] Юки Ямасита (1 сентября 2022 г.). просто давая текстовые инструкции, разработанный Google» . «ИИ, который может генерировать составные изображения вашей собаки и косплея , Архивировано из оригинала 31 августа 2022 г.

[48] Мэн, Ченлинь; Он, Ютонг; Сун, Ян; Сун, Цзямин; У, Цзяцзюнь; Чжу, Цзюнь-Янь; Эрмон, Стефано (2 августа 2021 г.). «SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений». arXiv : 2108.01073 [ cs.CV ].

[webui_showcase-49] Перейти обратно: Перейти обратно: ^а ^б ^с ^д «Стабильный веб-интерфейс Diffusion» . Гитхаб . 10 ноября 2022 года. Архивировано из оригинала 20 января 2023 года . Проверено 27 сентября 2022 г.

[50] invisible-watermark , Shield Mountain, 2 ноября 2022 г., заархивировано из оригинала 18 октября 2022 г. , получено 2 ноября 2022 г.

[51] «инструменты-стабильной-диффузии/акцент на мастере · ЙоханнесГесслер/инструменты-стабильной-диффузии» . Гитхаб . Архивировано из оригинала 2 октября 2022 года . Проверено 2 ноября 2022 г.

[release2.1-52] «Stable Diffusion v2.1 и обновления DreamStudio от 7 декабря до 22 декабря» . стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.

[:1-53] Перейти обратно: Перейти обратно: ^а ^б Лузи, Лоренцо; Сиакухи, Али; Майер, Пол М.; Каско-Родригес, Хосуэ; Баранюк, Ричард (21 октября 2022 г.). «Бумеранг: локальная выборка на многообразиях изображений с использованием диффузионных моделей». arXiv : 2210.12100 [ cs.CV ].

[54] Бюльманн, Матиас (28 сентября 2022 г.). «Стабильное диффузионное сжатие изображения» . Середина . Архивировано из оригинала 2 ноября 2022 года . Проверено 2 ноября 2022 г.

[controlnet-paper-55] Чжан, Львмин (10 февраля 2023 г.). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [ cs.CV ].

[56] «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 17 августа 2023 г.

[57] «КомпВис (КомВис)» . Huggingface.co . 23 августа 2023 г. . Проверено 6 марта 2024 г.

[58] "runwayml/stable-diffusion-v1-5 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.

[:3-59] Перейти обратно: Перейти обратно: ^а ^б "stabilityai/stable-diffusion-2 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.

[60] "stabilityai/stable-diffusion-2-base · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.

[61] "stabilityai/stable-diffusion-2-1 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.

[62] "stabilityai/stable-diffusion-xl-base-1.0 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 17 августа 2023 г.

[63] «Анонсируем SDXL 1.0» . Стабильность ИИ . Проверено 1 января 2024 г.

[64] "stabilityai/sdxl-turbo · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.

[65] «Состязательная диффузионная дистилляция» . Стабильность ИИ . Проверено 1 января 2024 г.

[66] «Стабильная диффузия 3» . Стабильность ИИ . Проверено 5 марта 2024 г.

[67] Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела (26 февраля 2021 г.). «Изучение переносимых визуальных моделей под контролем естественного языка». arXiv : 2103.00020 [ cs.CV ].

[68] Мэн, Ченлинь; Он, Ютонг; Сун, Ян; Сун, Цзямин; У, Цзяцзюнь; Чжу, Цзюнь-Янь; Эрмон, Стефано (4 января 2022 г.). «SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений». arXiv : 2108.01073 [ cs.CV ].

[69] Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьорн (2022). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии» . Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) . стр. 10684–10695. arXiv : 2112.10752 .

[70] «LICENSE.md · Sustainableai/stable-diffusion-xl-base-1.0 at main» . Huggingface.co . 26 июля 2023 г. . Проверено 1 января 2024 г.

[MIT-LAION-71] Хейккиля, Мелисса (16 сентября 2022 г.). «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 26 сентября 2022 г.

[bijapan-72] Перейти обратно: Перейти обратно: ^а ^б Рё Симидзу (26 августа 2022 г.). «Превзошел ли он Midjourney? Почему мы можем сказать, что #StableDiffusion, бесплатный ИИ для рисования, демократизировал ИИ» . Business Insider Japan (на японском языке). Архивировано из оригинала 10 декабря. 2022. Проверено 4 октября 2022 года .

[:13-73] Кай, Кенрик. «Стартап AI Image Generator Stable Diffusion ведет переговоры о привлечении инвестиций при оценке до 1 миллиарда долларов» . Форбс . Архивировано из оригинала 30 сентября 2023 года . Проверено 31 октября 2022 г.

[74] «Разоблачена незаконная торговля изображениями сексуального насилия над детьми, созданными искусственным интеллектом» . Новости Би-би-си . 27 июня 2023 года. Архивировано из оригинала 21 сентября 2023 года . Проверено 26 сентября 2023 г.

[75] Винсент, Джеймс (16 января 2023 г.). «Инструменты искусственного интеллекта Stable Diffusion и Midjourney подверглись иску о нарушении авторских прав» . Грань . Архивировано из оригинала 9 марта 2023 года . Проверено 16 января 2023 г.

[CNN-Getty-76] Корн, Дженнифер (17 января 2023 г.). «Getty Images подает в суд на создателей популярного инструмента искусственного интеллекта за кражу фотографий» . CNN . Архивировано из оригинала 1 марта 2023 года . Проверено 22 января 2023 г.

[Reuters-SDLawsuit-77] Бриттен, Блейк (19 июля 2023 г.). «Американский судья нашел недостатки в иске художников против компаний, занимающихся искусственным интеллектом» . Рейтер . Архивировано из оригинала 6 сентября 2023 года . Проверено 6 августа 2023 г.

[stability-78] «Публичный выпуск стабильной диффузии» . Стабильность.Ай . Архивировано из оригинала 30 августа 2022 года . Проверено 31 августа 2022 г.

[79] «От RAIL к Open RAIL: Топологии лицензий RAIL» . Лицензии на ответственный ИИ (RAIL) . 18 августа 2022 года. Архивировано из оригинала 27 июля 2023 года . Проверено 20 февраля 2023 г.

[washingtonpost-80] «Готовы вы или нет, но массовые видео-дипфейки грядут» . Вашингтон Пост . 30 августа 2022 года. Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.

[81] «Лицензия — пространство для обнимания лица от CompVis» . Huggingface.co . Архивировано из оригинала 4 сентября 2022 года . Проверено 5 сентября 2022 г.

[82] Кацуо Исида (26 августа 2022 г.) «Stable Diffusion» использует удивительный искусственный интеллект для рисования изображений на основе устных инструкций — изображения можно использовать в коммерческих целях» . Impress Corporation (на японском языке). Архивировано из оригинала 14 ноября 2022 г. Проверено 4 октября 2022 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]