Стабильная диффузия
![]() Изображение, созданное с помощью Stable Diffusion на основе текстовой подсказки «фотография космонавта верхом на лошади». | |
Оригинальный автор(ы) | Взлетно-посадочная полоса, CompVis и ИИ для стабилизации |
---|---|
Разработчик(и) | Стабильность ИИ |
Первоначальный выпуск | 22 августа 2022 г. |
Стабильная версия | SDXL 1.0 (модель) [1] / 26 июля 2023 г. |
Репозиторий | |
Написано в | Питон [2] |
Операционная система | Любой, поддерживающий CUDA. ядра |
Тип | Модель преобразования текста в изображение |
Лицензия | Креативный ML OpenRAIL-M |
Веб-сайт | стабильность ![]() |
Stable Diffusion — это модель глубокого обучения преобразования текста в изображение, выпущенная в 2022 году и основанная на методах диффузии . Это считается частью продолжающегося бума искусственного интеллекта .
В основном он используется для создания подробных изображений на основе текстовых описаний, хотя его также можно применять и для других задач, таких как закрашивание , закрашивание и создание переводов между изображениями под управлением текстовой подсказки . [3] В его разработке приняли участие исследователи из группы CompVis в Мюнхенском университете Людвига-Максимилиана и Runway , а также вычислительные ресурсы от Stability и обучающие данные от некоммерческих организаций. [4] [5] [6] [7]
Стабильная диффузия — это модель скрытой диффузии , своего рода глубокая генеративная искусственная нейронная сеть . Его код и веса моделей были опубликованы публично . [8] и он может работать на большинстве потребительских устройств, оснащенных скромным графическим процессором не менее 4 ГБ с объемом видеопамяти . Это ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney , которые были доступны только через облачные сервисы . [9] [10]
Развитие [ править ]
Стабильная диффузия возникла в результате проекта под названием «Скрытая диффузия». [11] разработан исследователями из Университета Людвига-Максимилиана в Мюнхене и Гейдельбергского университета . Четверо из пяти первоначальных авторов (Робин Ромбах, Андреас Блаттманн, Патрик Эссер и Доминик Лоренц) позже присоединились к Stability AI и выпустили последующие версии Stable Diffusion. [12]
Техническая лицензия на модель была выпущена группой CompVis в Мюнхенском университете Людвига-Максимилиана. [10] Разработку возглавили Патрик Эссер из Runway и Робин Ромбах из CompVis, которые были среди исследователей, которые ранее изобрели архитектуру модели скрытой диффузии, используемую Stable Diffusion. [7] Stability AI также указала, что EleutherAI и LAION (немецкая некоммерческая организация, которая собрала набор данных для обучения Stable Diffusion) являются сторонниками проекта. [7]
Технология [ править ]


Архитектура [ править ]
Стабильная диффузия использует разновидность модели диффузии (DM), называемую моделью скрытой диффузии (LDM), разработанную группой CompVis в LMU Мюнхен . [13] [8] Представленные в 2015 году диффузионные модели обучаются с целью удаления последовательных применений гауссовского шума на обучающих изображениях, что можно рассматривать как последовательность автокодировщиков шумоподавления . Stable Diffusion состоит из трех частей: вариационного автокодировщика (VAE), U-Net и дополнительного кодировщика текста. [14] Кодер VAE сжимает изображение из пространства пикселей в скрытое пространство меньшего размера , улавливая более фундаментальное семантическое значение изображения. [13] Гауссов шум итеративно применяется к сжатому скрытому представлению во время прямой диффузии. [14] Блок U-Net, состоящий из магистральной сети ResNet , удаляет шум на выходе прямой диффузии назад, чтобы получить скрытое представление. Наконец, декодер VAE генерирует окончательное изображение, преобразуя представление обратно в пространство пикселей. [14]
Шаг шумоподавления может быть гибко обусловлен строкой текста, изображением или другой модальностью. Закодированные данные кондиционирования подвергаются шумоподавлению U-Nets с помощью механизма перекрестного внимания . [14] Для обработки текста используется фиксированный предварительно обученный текстовый кодер CLIP ViT-L/14, который преобразует текстовые подсказки в пространство для встраивания. [8] Исследователи указывают на повышенную вычислительную эффективность для обучения и генерации как на преимущество LDM. [7] [13]
Название «диффузия» вдохновлено термодинамической диффузией , и в 2015 году была установлена важная связь между этой чисто физической областью и глубоким обучением. [15] [16]
Имея 860 миллионов параметров в U-Net и 123 миллиона в кодировщике текста, Stable Diffusion считается относительно лёгким по стандартам 2022 года и, в отличие от других моделей диффузии, может работать на потребительских графических процессорах. [17] и даже ЦП — только при использовании версии Stable Diffusion для OpenVINO . [18]
SD XL [ править ]
Версия XL использует ту же архитектуру. [19] за исключением большего: более крупная магистральная сеть UNet, больший контекст перекрестного внимания, два текстовых кодировщика вместо одного и обучение на нескольких соотношениях сторон (а не только на квадратном соотношении сторон, как в предыдущих версиях).
SD XL Refiner, выпущенный в то же время, имеет ту же архитектуру, что и SD XL, но он был обучен добавлению мелких деталей к уже существующим изображениям с помощью условного текста img2img.
SD 3.0 [ править ]
Версия 3.0 [20] полностью меняет костяк. Не UNet, а Rectified Flow Transformer , реализующий метод выпрямленного потока. [21] [22] с Трансформатором .
Архитектура Transformer, используемая для SD 3.0, имеет три «дорожки»: для кодирования исходного текста, кодирования преобразованного текста и кодирования изображения (в скрытом пространстве). Преобразованное кодирование текста и кодирование изображения смешиваются во время каждого блока преобразования.
Архитектура называется «мультимодальный диффузионный преобразователь (MMDiT), где «мультимодальный» означает, что она смешивает кодировки текста и изображения внутри своих операций. Это отличается от предыдущих версий DiT, где кодировка текста влияет на кодировку изображения, но не наоборот. .
Данные тренировки [ править ]
Stable Diffusion обучался на парах изображений и подписей, взятых из LAION-5B, общедоступного набора данных, полученного на основе данных Common Crawl, взятых из Интернета, где 5 миллиардов пар изображение-текст были классифицированы на основе языка и отфильтрованы в отдельные наборы данных по разрешению. прогнозируемая вероятность наличия водяного знака и прогнозируемая «эстетическая» оценка (например, субъективное визуальное качество). [23] Набор данных был создан LAION , немецкой некоммерческой организацией, которая получает финансирование от Stability AI. [23] [24] Модель Stable Diffusion была обучена на трех подмножествах LAION-5B: laion2B-en, laion-high-solve и laion-esthetics v2 5+. [23] Сторонний анализ данных обучения модели показал, что из меньшего подмножества в 12 миллионов изображений, взятых из исходного более широкого используемого набора данных, примерно 47% размера выборки изображений поступило из 100 различных доменов, причем Pinterest занимает 8,5% из подмножества, за которым следуют такие веб-сайты, как WordPress , Blogspot , Flickr , DeviantArt и Wikimedia Commons . [ нужна ссылка ] Расследование Bayerischer Rundfunk показало, что наборы данных LAION, размещенные на Hugging Face, содержат большое количество частных и конфиденциальных данных. [25]
Процедуры обучения [ править ]
Первоначально модель обучалась на подмножествах laion2B-en и laion-high-разрешения, причем последние несколько раундов обучения проводились на LAION-Aesthetics v2 5+, подмножестве из 600 миллионов изображений с субтитрами, которые, по прогнозам LAION-Aesthetics Predictor V2, люди в среднем дали бы оценку не менее 5 из 10, когда их попросили оценить, насколько они им понравились. [26] [23] [27] Подмножество LAION-Aesthetics v2 5+ также исключало изображения с низким разрешением и изображения, которые LAION-5B-WatermarkDetection идентифицировал как несущие водяной знак с вероятностью более 80%. [23] Заключительные раунды обучения дополнительно снизили необходимость обработки текста на 10 %, чтобы улучшить управление диффузией без классификаторов. [28]
Модель была обучена с использованием 256 графических процессоров Nvidia A100 в Amazon Web Services в общей сложности 150 000 графо-часов и обошлась в 600 000 долларов США. [29] [30] [31]
Обучение SD3 обошлось примерно в 10 миллионов долларов. [32]
Ограничения [ править ]
Стабильная диффузия имеет проблемы с деградацией и неточностями в определенных сценариях. Первоначальные выпуски модели были обучены на наборе данных, состоящем из изображений с разрешением 512×512, а это означает, что качество создаваемых изображений заметно ухудшается, когда пользовательские спецификации отклоняются от «ожидаемого» разрешения 512×512; [33] Обновление модели Stable Diffusion версии 2.0 позже представило возможность генерировать изображения с разрешением 768×768. [34] Еще одна проблема заключается в создании человеческих конечностей из-за низкого качества данных о конечностях в базе данных LAION. [35] Модель недостаточно обучена, чтобы понимать человеческие конечности и лица из-за отсутствия репрезентативных особенностей в базе данных, и побуждение модели генерировать изображения такого типа может сбить ее с толку. [36] Версия 1.0 Stable Diffusion XL (SDXL), выпущенная в июле 2023 года, представила собственное разрешение 1024x1024 и улучшенную генерацию конечностей и текста. [37] [38]
Доступность для отдельных разработчиков также может быть проблемой. Чтобы настроить модель для новых вариантов использования, которые не включены в набор данных, таких как создание аниме- персонажей («диффузия вайфу»), [39] необходимы новые данные и дальнейшее обучение. Точные адаптации Stable Diffusion, созданные в результате дополнительной переподготовки, использовались для множества различных случаев, от медицинской визуализации [40] к алгоритмически сгенерированной музыке . [41] Однако этот процесс тонкой настройки чувствителен к качеству новых данных; Изображения с низким разрешением или разрешения, отличные от исходных данных, могут не только не справиться с новой задачей, но и ухудшить общую производительность модели. Даже если модель дополнительно обучена на изображениях высокого качества, людям сложно запускать модели в бытовой электронике. Например, процесс обучения вайфу-диффузии требует минимум 30 ГБ видеопамяти , [42] что превышает обычный ресурс, предусмотренный в таких потребительских графических процессорах, как Nvidia от серия GeForce 30 , имеющая всего около 12 ГБ. [43]
Создатели Stable Diffusion признают возможность алгоритмической предвзятости , поскольку модель в первую очередь обучалась на изображениях с английскими описаниями. [30] В результате сгенерированные изображения усиливают социальные предубеждения и отражают западную точку зрения, поскольку создатели отмечают, что в модели отсутствуют данные из других сообществ и культур. Модель дает более точные результаты для подсказок, написанных на английском языке, по сравнению с подсказками, написанными на других языках, при этом западная или белая культура часто является представлением по умолчанию. [30]
Тонкая настройка для конечного пользователя [ править ]
Чтобы устранить ограничения первоначального обучения модели, конечные пользователи могут выбрать дополнительное обучение для точной настройки результатов генерации в соответствии с более конкретными сценариями использования. Этот процесс также называется персонализацией . Существует три метода, с помощью которых доступная пользователю точная настройка может быть применена к контрольной точке модели стабильной диффузии:
- «Внедрение» может быть обучено на основе коллекции изображений, предоставленных пользователем, и позволяет модели генерировать визуально похожие изображения всякий раз, когда имя встраивания используется в подсказке создания. [44] Встраивания основаны на концепции «текстовой инверсии», разработанной исследователями из Тель-Авивского университета в 2022 году при поддержке Nvidia , где векторные представления для конкретных токенов, используемых кодировщиком текста модели, связаны с новыми псевдословами. Внедрения можно использовать для уменьшения искажений в исходной модели или для имитации визуальных стилей. [45]
- «Гиперсеть» — это небольшая предварительно обученная нейронная сеть, которая применяется к различным точкам внутри более крупной нейронной сети и относится к методу, созданному разработчиком NovelAI для генерации текста Курумузом в 2021 году и первоначально предназначенному для моделей преобразователей . Гиперсети направляют результаты в определенном направлении, позволяя моделям на основе стабильной диффузии имитировать художественный стиль конкретных художников, даже если художник не распознается исходной моделью; они обрабатывают изображение, находя ключевые важные области, такие как волосы и глаза, а затем помещают эти области во вторичное скрытое пространство. [46]
- DreamBooth — это модель генерации глубокого обучения, разработанная исследователями из Google Research и Бостонского университета в 2022 году. Она позволяет точно настроить модель для генерации точных персонализированных результатов, изображающих конкретный предмет, после обучения с помощью набора изображений, изображающих этот предмет. [47]
Возможности [ править ]
Модель Stable Diffusion поддерживает возможность генерировать новые изображения с нуля с помощью текстового приглашения, описывающего элементы, которые следует включить или исключить из вывода. [8] Существующие изображения могут быть перерисованы моделью для включения новых элементов, описанных текстовой подсказкой (процесс, известный как «управляемый синтез изображений»). [48] ) посредством механизма диффузионного шумоподавления. [8] Кроме того, модель также позволяет использовать подсказки для частичного изменения существующих изображений посредством закрашивания и перерисовки при использовании с соответствующим пользовательским интерфейсом, поддерживающим такие функции, для которых существует множество различных реализаций с открытым исходным кодом. [49]
Stable Diffusion рекомендуется запускать с 10 ГБ или более видеопамяти, однако пользователи с меньшим количеством видеопамяти могут выбрать загрузку весов с точностью float16 вместо значения по умолчанию float32, чтобы обеспечить компромисс между производительностью модели и меньшим использованием видеопамяти. [33]
Генерация текста в изображение [ править ]
- Вверху : нет негативных подсказок
- Центр : «зеленые деревья».
- Внизу : «круглые камни, круглые камни».
Сценарий выборки текста в изображение в Stable Diffusion, известный как «txt2img», использует текстовую подсказку в дополнение к различным параметрам, охватывающим типы выборки, размеры выходного изображения и начальные значения. Сценарий выводит файл изображения на основе интерпретации подсказки моделью. [8] Сгенерированные изображения помечаются невидимым цифровым водяным знаком , чтобы пользователи могли идентифицировать изображение как созданное с помощью Stable Diffusion. [8] хотя этот водяной знак теряет свою эффективность при изменении размера или повороте изображения. [50]
Каждое поколение txt2img будет включать в себя определенное начальное значение , которое влияет на выходное изображение. Пользователи могут выбрать рандомизацию начального числа, чтобы изучить различные сгенерированные выходные данные, или использовать одно и то же начальное число для получения того же выходного изображения, что и ранее сгенерированное изображение. [33] Пользователи также могут регулировать количество шагов вывода для сэмплера; более высокое значение занимает больше времени, однако меньшее значение может привести к визуальным дефектам. [33] Другая настраиваемая опция — значение шкалы навигации без классификатора — позволяет пользователю настроить, насколько точно выходное изображение соответствует подсказке. [28] В более экспериментальных случаях использования можно выбрать более низкое значение шкалы, тогда как в сценариях использования, нацеленных на более конкретные результаты, может использоваться более высокое значение. [33]
Дополнительные функции text2img предоставляются внешними реализациями Stable Diffusion, которые позволяют пользователям изменять вес, придаваемый определенным частям текстового приглашения. Маркеры выделения позволяют пользователям добавлять или уменьшать выделение ключевых слов, заключая их в квадратные скобки. [51] Альтернативным методом корректировки веса частей подсказки являются «отрицательные подсказки». Отрицательные подсказки — это функция, включенная в некоторые реализации внешнего интерфейса, в том числе в собственный облачный сервис DreamStudio компании Stability AI, и позволяющая пользователю указывать подсказки, которых модели следует избегать во время создания изображения. Указанные подсказки могут представлять собой нежелательные особенности изображения, которые в противном случае присутствовали бы в выходных изображениях из-за положительных подсказок, предоставленных пользователем, или из-за того, как модель изначально обучалась, причем частым примером являются искалеченные человеческие руки. [49] [52]
Модификация изображения [ править ]
- Слева : исходное изображение, созданное с помощью Stable Diffusion 1.5.
- Справа : измененное изображение, созданное с помощью Stable Diffusion XL 1.0.
Stable Diffusion также включает в себя еще один сценарий выборки, «img2img», который использует текстовую подсказку, путь к существующему изображению и значение силы от 0,0 до 1,0. Скрипт выводит новое изображение на основе исходного изображения, которое также содержит элементы, представленные в текстовой подсказке. Значение силы обозначает количество шума, добавленного к выходному изображению. Более высокое значение интенсивности приводит к большему разнообразию изображения, но может создать изображение, которое семантически не соответствует предоставленному запросу. [8]
Способность img2img добавлять шум к исходному изображению делает его потенциально полезным для анонимизации и увеличения данных , при которых визуальные особенности данных изображения изменяются и анонимизируются. [53] Тот же процесс может быть полезен для масштабирования изображения, при котором разрешение изображения увеличивается, при этом к изображению потенциально может быть добавлено больше деталей. [53] Кроме того, Stable Diffusion экспериментировал как инструмент для сжатия изображений. По сравнению с JPEG и WebP , последние методы, используемые для сжатия изображений в Stable Diffusion, имеют ограничения по сохранению мелкого текста и лиц. [54]
Дополнительные варианты использования для модификации изображений с помощью img2img предлагаются многочисленными внешними реализациями модели Stable Diffusion. Inpainting включает в себя выборочное изменение части существующего изображения, очерченной предоставленной пользователем маской слоя , которая заполняет замаскированное пространство вновь созданным содержимым на основе предоставленной подсказки. [49] Специальная модель, специально настроенная для сценариев использования, была создана Stability AI одновременно с выпуском Stable Diffusion 2.0. [34] И наоборот, перерисовка расширяет изображение за пределы его исходных размеров, заполняя ранее пустое пространство содержимым, созданным на основе предоставленной подсказки. [49]
Модель с контролем глубины под названием «Deep2img» была представлена вместе с выпуском Stable Diffusion 2.0 24 ноября 2022 года; эта модель определяет глубину предоставленного входного изображения и генерирует новое выходное изображение на основе как текстовой подсказки, так и информации о глубине, что позволяет поддерживать согласованность и глубину исходного входного изображения в сгенерированном выходе. [34]
ControlNet [ править ]
Контрольная сеть [55] — это архитектура нейронной сети, предназначенная для управления моделями диффузии путем включения дополнительных условий. Он дублирует веса блоков нейронной сети в «заблокированную» копию и «обучаемую» копию. «Обучаемая» копия изучает желаемое условие, а «заблокированная» копия сохраняет исходную модель. Этот подход гарантирует, что обучение с небольшими наборами данных пар изображений не ставит под угрозу целостность готовых к производству диффузионных моделей. «Нулевая свертка» — это свертка 1×1, в которой вес и смещение инициализируются равными нулю. Перед обучением все нулевые свертки дают нулевой результат, предотвращая любые искажения, вызванные ControlNet. Ни один слой не обучается с нуля; процесс все еще находится в стадии тонкой настройки, сохраняя безопасность исходной модели. Этот метод позволяет проводить обучение на небольших или даже персональных устройствах.
Релизы [ править ]
Номер версии | Дата выпуска | Примечания |
---|---|---|
1.1, 1.2, 1.3, 1.4 [56] | август 2022 г. | Все выпущено CompVis. Не существует «версии 1.0». 1.1 породил 1.2, а 1.2 породил и 1.3, и 1.4. [57] |
1.5 [58] | Октябрь 2022 г. | Инициализируется с весами 1,2, а не 1,4. Выпущено RunwayML. |
2.0 [59] | ноябрь 2022 г. | Переобучен с нуля на отфильтрованном наборе данных. [60] |
2.1 [61] | декабрь 2022 г. | Инициализируется с весами 2.0. |
ХL 1.0 [62] [19] | июль 2023 г. | Базовая модель XL 1.0 имеет 3,5 миллиарда параметров, что делает ее примерно в 3,5 раза больше, чем в предыдущих версиях. [63] |
XL Турбо [64] | ноябрь 2023 г. | На основе XL 1.0 для меньшего количества этапов диффузии. [65] |
3.0 [66] [20] | Февраль 2024 г. (ранняя предварительная версия) | Семейство моделей, от 800М до 8В параметров. |
Ключевые документы
- Изучение переносимых визуальных моделей под контролем естественного языка (2021). [67] В этой статье описывается метод CLIP для обучения кодировщиков текста, которые преобразуют текст в векторы с плавающей запятой. Такие кодировки текста используются моделью диффузии для создания изображений.
- SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений (2021). [68] В этой статье описывается SDEdit, также известный как «img2img».
- Синтез изображений высокого разрешения с моделями скрытой диффузии (2021 г., обновлено в 2022 г.). [69] В данной статье описывается модель скрытой диффузии (LDM). Это основа архитектуры стабильной диффузии.
- Руководство по диффузии без классификаторов (2022 г.). [28] В этой статье описывается CFG, который позволяет вектору кодирования текста направлять модель диффузии в сторону создания изображения, описываемого текстом.
- SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения (2023 г.). [19] Описывает SDXL.
- Поток прямой и быстрый: учимся генерировать и передавать данные с помощью выпрямленного потока (2022 г.). [21] [22] Описывает выпрямленный поток, который используется для базовой архитектуры SD 3.0.
- Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения (2024 г.). [20] Описывает SD 3.0.
Стоимость обучения
- SD 2.0: 0,2 миллиона часов на A100 (40 ГБ). [59]
Использование и споры [ править ]
Stable Diffusion не претендует на какие-либо права на сгенерированные изображения и бесплатно предоставляет пользователям права использования любых сгенерированных изображений из модели при условии, что содержание изображения не является незаконным или вредным для отдельных лиц. [70]
Изображения, на которых проходил обучение Stable Diffusion, были отфильтрованы без участия человека, что привело к появлению в обучающих данных некоторых вредоносных изображений и большого количества частной и конфиденциальной информации. [25]
Более традиционные визуальные художники выразили обеспокоенность тем, что широкое использование программного обеспечения для синтеза изображений, такого как Stable Diffusion, может в конечном итоге привести к тому, что люди-художники, а также фотографы, модели, кинематографисты и актеры постепенно потеряют коммерческую жизнеспособность по сравнению с конкурентами, основанными на искусственном интеллекте. [71]
Stable Diffusion заметно более либерален в отношении типов контента, который могут создавать пользователи, например изображений насилия или откровенно сексуального характера, по сравнению с другими коммерческими продуктами, основанными на генеративном искусственном интеллекте. [72] Отвечая на опасения, что модель может быть использована в неправомерных целях, генеральный директор Stability AI Эмад Мостак утверждает, что «[это] ответственность людей за то, соблюдают ли они этические, моральные и законные принципы использования этой технологии». [10] и что передача возможностей стабильной диффузии в руки общественности приведет к тому, что технология принесет чистую выгоду, несмотря на потенциальные негативные последствия. [10] Кроме того, Мостак утверждает, что цель открытой доступности Stable Diffusion состоит в том, чтобы положить конец корпоративному контролю и доминированию над такими технологиями, которые ранее разрабатывали только закрытые системы искусственного интеллекта для синтеза изображений. [10] [72] Это отражается в том факте, что любые ограничения Stability AI, налагаемые на контент, который могут создавать пользователи, можно легко обойти благодаря доступности исходного кода. [73]
Споры вокруг фотореалистичных сексуализированных изображений несовершеннолетних персонажей возникли из-за того, что такие изображения, созданные Stable Diffusion, публикуются на таких веб-сайтах, как Pixiv . [74]
Судебное разбирательство [ править ]
В январе 2023 года три художницы, Сара Андерсен , Келли МакКернан и Карла Ортис, подали иск о нарушении авторских прав против Stability AI, Midjourney и DeviantArt , утверждая, что эти компании нарушили права миллионов художников, обучая инструменты ИИ на пяти миллиардах человек. изображения, взятые из сети без согласия авторов оригинала. [75] подала в суд на компанию Stability AI В том же месяце Getty Images за использование ее изображений в обучающих данных. [76]
В июле 2023 года окружной судья США Уильям Оррик был склонен отклонить большую часть иска, поданного Андерсеном, МакКернаном и Ортисом, но разрешил им подать новую жалобу. [77]
Лицензия [ править ]
В отличие от таких моделей, как DALL-E , Stable Diffusion предоставляет доступ к своему исходному коду . [78] [8] вместе с моделью (предварительно обученные веса). К модели (M) применяется лицензия Creative ML OpenRAIL-M, разновидность лицензии Responsible AI (RAIL). [79] Лицензия запрещает определенные случаи использования, включая преступления, клевету , преследование , доксинг , « эксплуатацию… несовершеннолетних », предоставление медицинских консультаций, автоматическое создание юридических обязательств, представление юридических доказательств и «дискриминацию или причинение вреда отдельным лицам или группам на основании… социальное поведение или... личные или личностные характеристики... [или] охраняемые законом характеристики или категории ». [80] [81] Пользователь владеет правами на сгенерированные выходные изображения и может свободно использовать их в коммерческих целях. [82]
См. также [ править ]
Ссылки [ править ]
- ^ «Анонсируем SDXL 1.0» . стабильность.ай . Архивировано из оригинала 26 июля 2023 года.
- ^ Райан О'Коннор (23 августа 2022 г.). «Как локально запустить Stable Diffusion для создания изображений» . Архивировано из оригинала 13 октября 2023 года . Проверено 4 мая 2023 г.
- ^ «Diffuse The Rest — пространство для обнимающего лица» от HuggingFace . Huggingface.co . Архивировано из оригинала 5 сентября 2022 года . Проверено 5 сентября 2022 г.
- ^ «Утечка колоды вызывает у инвесторов вопросы по поводу презентации Stability AI Series A» . просеянный.eu . Архивировано из оригинала 29 июня 2023 года . Проверено 20 июня 2023 г.
- ^ «Революционная генерация изображений с помощью ИИ: превращение текста в изображения» . www.lmu.de. Архивировано из оригинала 17 сентября 2022 года . Проверено 21 июня 2023 г.
- ^ Мостак, Эмад (2 ноября 2022 г.). «Стабильная диффузия разработана исследовательской группой машинного зрения и обучения (CompVis) @LMU_Muenchen» . Твиттер . Архивировано из оригинала 20 июля 2023 года . Проверено 22 июня 2023 г.
- ↑ Перейти обратно: Перейти обратно: а б с д «Объявление о запуске Stable Diffusion» . Стабильность.Ай . Архивировано из оригинала 5 сентября 2022 года . Проверено 6 сентября 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б с д и ж г час я «Стабильный репозиторий Diffusion на GitHub» . CompVis — Исследовательская группа по машинному зрению и обучению, LMU Мюнхен. 17 сентября 2022 года. Архивировано из оригинала 18 января 2023 года . Проверено 17 сентября 2022 г.
- ^ «Новое потрясающее приложение: создание произведений искусства с помощью ИИ сокрушит ваш компьютер» . ПКМир . Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б с д и Винсент, Джеймс (15 сентября 2022 г.). «Любой может использовать этот генератор искусственного интеллекта — в этом есть риск» . Грань . Архивировано из оригинала 21 января 2023 года . Проверено 30 сентября 2022 г.
- ^ «CompVis/Латентная диффузия» . Гитхаб .
- ^ «Стабильная диффузия 3: Исследовательская статья» .
- ↑ Перейти обратно: Перейти обратно: а б с Ромбах; Блаттманн; Лоренц; Эссер; Оммер (июнь 2022 г.). Синтез изображений высокого разрешения с использованием моделей скрытой диффузии (PDF) . Международная конференция по компьютерному зрению и распознаванию образов (CVPR). Новый Орлеан, Луизиана. стр. 10684–10695. arXiv : 2112.10752 . Архивировано (PDF) из оригинала 20 января 2023 г. Проверено 17 сентября 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б с д Аламмар, Джей. «Иллюстрированная стабильная диффузия» . jalammar.github.io . Архивировано из оригинала 1 ноября 2022 года . Проверено 31 октября 2022 г.
- ^ Дэвид, Фостер. «8. Диффузионные модели». Генеративное глубокое обучение (2-е изд.). О'Рейли.
- ^ Яша Сол-Дикштейн, Эрик А. Вайс, Ниру Махешваранатан, Сурья Гангули (12 марта 2015 г.). «Глубокое обучение без учителя с использованием неравновесной термодинамики». Арксив . arXiv : 1503.03585 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ «Стабильные диффузионные трубопроводы» . Huggingface.co . Архивировано из оригинала 25 июня 2023 года . Проверено 22 июня 2023 г.
- ^ «Генерация текста в изображение с помощью Stable Diffusion и OpenVINO™» . openvino.ai . Интел . Проверено 10 февраля 2024 г.
- ↑ Перейти обратно: Перейти обратно: а б с Поделл, Дастин; английский, Сион; Лейси, Кайл; Блаттманн, Андреас; Докхорн, Тим; Мюллер, Йонас; Пенна, Джо; Ромбах, Робин (4 июля 2023 г.). «SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения». arXiv : 2307.01952 [ cs.CV ].
- ↑ Перейти обратно: Перейти обратно: а б с Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (5 марта 2024 г.), Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения , arXiv : 2403.03206
- ↑ Перейти обратно: Перейти обратно: а б Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (7 сентября 2022 г.), « Прямой и быстрый поток: учимся генерировать и передавать данные с помощью выпрямленного потока» , arXiv : 2209.03003
- ↑ Перейти обратно: Перейти обратно: а б «Выпрямленный поток — Ректифицированный поток» . www.cs.utexas.edu . Проверено 6 марта 2024 г.
- ↑ Перейти обратно: Перейти обратно: а б с д и Байо, Энди (30 августа 2022 г.). «Исследование 12 миллионов из 2,3 миллиарда изображений, используемых для обучения генератора изображений Stable Diffusion» . Waxy.org . Архивировано из оригинала 20 января 2023 года . Проверено 2 ноября 2022 г.
- ^ «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 2 ноября 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б Бруннер, Катарина; Харлан, Элиза (7 июля 2023 г.). «Мы все — сырье для искусственного интеллекта» . Баварский Рундфунк (Бразилия). Архивировано из оригинала 12 сентября 2023 года . Проверено 12 сентября 2023 г.
- ^ Шуман, Кристоф (2 ноября 2022 г.), CLIP + MLP Aesthetic Score Predictor , заархивировано из оригинала 8 июня 2023 г. , получено 2 ноября 2022 г.
- ^ «ЛАИОН-Эстетика | ЛАИОН» . laion.ai . Архивировано из оригинала 26 августа 2022 года . Проверено 2 сентября 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б с Эй, Джонатан; Салиманс, Тим (25 июля 2022 г.). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [ cs.LG ].
- ^ Мостак, Эмад (28 августа 2022 г.). «Стоимость строительства» . Твиттер . Архивировано из оригинала 6 сентября 2022 года . Проверено 6 сентября 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б с «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 2 ноября 2022 г.
- ^ Виггерс, Кайл (12 августа 2022 г.). «Стартап хочет демократизировать технологию, лежащую в основе DALL-E 2, и к черту последствия» . ТехКранч . Архивировано из оригинала 19 января 2023 года . Проверено 2 ноября 2022 г.
- ^ emad_9608 (19 апреля 2024 г.). «10 метров — это правильно» . г/СтаблДиффузия . Проверено 25 апреля 2024 г.
{{cite web}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ↑ Перейти обратно: Перейти обратно: а б с д и «Стабильная диффузия с помощью 🧨 Диффузоров» . Huggingface.co . Архивировано из оригинала 17 января 2023 года . Проверено 31 октября 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б с «Стабильный выпуск Diffusion 2.0» . стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.
- ^ «ЛАИОН» . laion.ai . Архивировано из оригинала 16 октября 2023 года . Проверено 31 октября 2022 г.
- ^ «Создание изображений с помощью стабильной диффузии» . Блог Paperspace . 24 августа 2022 года. Архивировано из оригинала 31 октября 2022 года . Проверено 31 октября 2022 г.
- ^ «Анонсируем SDXL 1.0» . Стабильность ИИ . Архивировано из оригинала 26 июля 2023 года . Проверено 21 августа 2023 г.
- ^ Эдвардс, Бендж (27 июля 2023 г.). «Stability AI выпускает Stable Diffusion XL, модель синтеза изображений нового поколения» . Арс Техника . Архивировано из оригинала 21 августа 2023 года . Проверено 21 августа 2023 г.
- ^ «хакурей/вайфу-диффузия · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 31 октября 2022 г.
- ^ Шамбон, Пьер; Блютген, Кристиан; Ланглотц, Кертис П.; Чаудхари, Акшай (9 октября 2022 г.). «Адаптация предварительно обученных базовых моделей визуального языка к областям медицинской визуализации». arXiv : 2210.04133 [ cs.CV ].
- ^ Сет Форсгрен; Айк Мартирос. «Riffusion — стабильная диффузия для генерации музыки в реальном времени» . Риффузия . Архивировано из оригинала 16 декабря 2022 года.
- ^ Меркурио, Энтони (31 октября 2022 г.), Waifu Diffusion , заархивировано из оригинала 31 октября 2022 г. , получено 31 октября 2022 г.
- ^ Смит, Райан. «NVIDIA тихо выпускает GeForce RTX 3080 12 ГБ: больше видеопамяти, больше мощности, больше денег» . www.anandtech.com . Архивировано из оригинала 27 августа 2023 года . Проверено 31 октября 2022 г.
- ^ Дэйв Джеймс (28 октября 2022 г.). «Я 8 часов подряд бил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман» . ПК-геймер . Архивировано из оригинала 9 ноября 2022 года.
- ^ Гал, Ринон; Алалуф, Юваль; Ацмон, Юваль; Паташник, Ор; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (2 августа 2022 г.). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии». arXiv : 2208.01618 [ cs.CV ].
- ^ «Усовершенствования NovelAI в области стабильной диффузии» . Роман ИИ . 11 октября 2022 г. Архивировано из оригинала 27 октября 2022 г.
- ^ Юки Ямасита (1 сентября 2022 г.). просто давая текстовые инструкции, разработанный Google» . «ИИ, который может генерировать составные изображения вашей собаки и косплея , Архивировано из оригинала 31 августа 2022 г.
- ^ Мэн, Ченлинь; Он, Ютонг; Сун, Ян; Сун, Цзямин; У, Цзяцзюнь; Чжу, Цзюнь-Янь; Эрмон, Стефано (2 августа 2021 г.). «SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений». arXiv : 2108.01073 [ cs.CV ].
- ↑ Перейти обратно: Перейти обратно: а б с д «Стабильный веб-интерфейс Diffusion» . Гитхаб . 10 ноября 2022 года. Архивировано из оригинала 20 января 2023 года . Проверено 27 сентября 2022 г.
- ^ invisible-watermark , Shield Mountain, 2 ноября 2022 г., заархивировано из оригинала 18 октября 2022 г. , получено 2 ноября 2022 г.
- ^ «инструменты-стабильной-диффузии/акцент на мастере · ЙоханнесГесслер/инструменты-стабильной-диффузии» . Гитхаб . Архивировано из оригинала 2 октября 2022 года . Проверено 2 ноября 2022 г.
- ^ «Stable Diffusion v2.1 и обновления DreamStudio от 7 декабря до 22 декабря» . стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.
- ↑ Перейти обратно: Перейти обратно: а б Лузи, Лоренцо; Сиакухи, Али; Майер, Пол М.; Каско-Родригес, Хосуэ; Баранюк, Ричард (21 октября 2022 г.). «Бумеранг: локальная выборка на многообразиях изображений с использованием диффузионных моделей». arXiv : 2210.12100 [ cs.CV ].
- ^ Бюльманн, Матиас (28 сентября 2022 г.). «Стабильное диффузионное сжатие изображения» . Середина . Архивировано из оригинала 2 ноября 2022 года . Проверено 2 ноября 2022 г.
- ^ Чжан, Львмин (10 февраля 2023 г.). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [ cs.CV ].
- ^ «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 17 августа 2023 г.
- ^ «КомпВис (КомВис)» . Huggingface.co . 23 августа 2023 г. . Проверено 6 марта 2024 г.
- ^ "runwayml/stable-diffusion-v1-5 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
- ↑ Перейти обратно: Перейти обратно: а б "stabilityai/stable-diffusion-2 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
- ^ "stabilityai/stable-diffusion-2-base · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.
- ^ "stabilityai/stable-diffusion-2-1 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
- ^ "stabilityai/stable-diffusion-xl-base-1.0 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 17 августа 2023 г.
- ^ «Анонсируем SDXL 1.0» . Стабильность ИИ . Проверено 1 января 2024 г.
- ^ "stabilityai/sdxl-turbo · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.
- ^ «Состязательная диффузионная дистилляция» . Стабильность ИИ . Проверено 1 января 2024 г.
- ^ «Стабильная диффузия 3» . Стабильность ИИ . Проверено 5 марта 2024 г.
- ^ Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела (26 февраля 2021 г.). «Изучение переносимых визуальных моделей под контролем естественного языка». arXiv : 2103.00020 [ cs.CV ].
- ^ Мэн, Ченлинь; Он, Ютонг; Сун, Ян; Сун, Цзямин; У, Цзяцзюнь; Чжу, Цзюнь-Янь; Эрмон, Стефано (4 января 2022 г.). «SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений». arXiv : 2108.01073 [ cs.CV ].
- ^ Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьорн (2022). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии» . Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) . стр. 10684–10695. arXiv : 2112.10752 .
- ^ «LICENSE.md · Sustainableai/stable-diffusion-xl-base-1.0 at main» . Huggingface.co . 26 июля 2023 г. . Проверено 1 января 2024 г.
- ^ Хейккиля, Мелисса (16 сентября 2022 г.). «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 26 сентября 2022 г.
- ↑ Перейти обратно: Перейти обратно: а б Рё Симидзу (26 августа 2022 г.). «Превзошел ли он Midjourney? Почему мы можем сказать, что #StableDiffusion, бесплатный ИИ для рисования, демократизировал ИИ» . Business Insider Japan (на японском языке). Архивировано из оригинала 10 декабря. 2022. Проверено 4 октября 2022 года .
- ^ Кай, Кенрик. «Стартап AI Image Generator Stable Diffusion ведет переговоры о привлечении инвестиций при оценке до 1 миллиарда долларов» . Форбс . Архивировано из оригинала 30 сентября 2023 года . Проверено 31 октября 2022 г.
- ^ «Разоблачена незаконная торговля изображениями сексуального насилия над детьми, созданными искусственным интеллектом» . Новости Би-би-си . 27 июня 2023 года. Архивировано из оригинала 21 сентября 2023 года . Проверено 26 сентября 2023 г.
- ^ Винсент, Джеймс (16 января 2023 г.). «Инструменты искусственного интеллекта Stable Diffusion и Midjourney подверглись иску о нарушении авторских прав» . Грань . Архивировано из оригинала 9 марта 2023 года . Проверено 16 января 2023 г.
- ^ Корн, Дженнифер (17 января 2023 г.). «Getty Images подает в суд на создателей популярного инструмента искусственного интеллекта за кражу фотографий» . CNN . Архивировано из оригинала 1 марта 2023 года . Проверено 22 января 2023 г.
- ^ Бриттен, Блейк (19 июля 2023 г.). «Американский судья нашел недостатки в иске художников против компаний, занимающихся искусственным интеллектом» . Рейтер . Архивировано из оригинала 6 сентября 2023 года . Проверено 6 августа 2023 г.
- ^ «Публичный выпуск стабильной диффузии» . Стабильность.Ай . Архивировано из оригинала 30 августа 2022 года . Проверено 31 августа 2022 г.
- ^ «От RAIL к Open RAIL: Топологии лицензий RAIL» . Лицензии на ответственный ИИ (RAIL) . 18 августа 2022 года. Архивировано из оригинала 27 июля 2023 года . Проверено 20 февраля 2023 г.
- ^ «Готовы вы или нет, но массовые видео-дипфейки грядут» . Вашингтон Пост . 30 августа 2022 года. Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.
- ^ «Лицензия — пространство для обнимания лица от CompVis» . Huggingface.co . Архивировано из оригинала 4 сентября 2022 года . Проверено 5 сентября 2022 г.
- ^ Кацуо Исида (26 августа 2022 г.) «Stable Diffusion» использует удивительный искусственный интеллект для рисования изображений на основе устных инструкций — изображения можно использовать в коммерческих целях» . Impress Corporation (на японском языке). Архивировано из оригинала 14 ноября 2022 г. Проверено 4 октября 2022 г.
Внешние ссылки [ править ]

- Демонстрация стабильной диффузии
- Интерактивное объяснение стабильной диффузии
- «Мы все — сырье для искусственного интеллекта» : исследование конфиденциальных и частных данных в обучающих данных стабильной диффузии.
- « Отрицательные подсказки в устойчивой диффузии »