~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ F3063ECECB760F39F2C19AC0B8EDCBDA__1717691820 ✰
Заголовок документа оригинал.:
✰ Stable Diffusion - Wikipedia ✰
Заголовок документа перевод.:
✰ Стабильная диффузия — Википедия, бесплатная энциклопедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Stable_Diffusion ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/f3/da/f3063ececb760f39f2c19ac0b8edcbda.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/f3/da/f3063ececb760f39f2c19ac0b8edcbda__translat.html ✰
Дата и время сохранения документа:
✰ 09.06.2024 13:28:28 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 6 June 2024, at 19:37 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Стабильная диффузия — Википедия, бесплатная энциклопедия Jump to content

Стабильная диффузия

Из Википедии, бесплатной энциклопедии

Стабильная диффузия
Оригинальный автор(ы) Взлетно-посадочная полоса, CompVis и ИИ для стабилизации
Разработчики) Стабильность ИИ
Начальная версия 22 августа 2022 г.
Стабильная версия
SDXL 1.0 (модель) [1] / 26 июля 2023 г.
Репозиторий
Написано в Питон [2]
Операционная система Любой, поддерживающий CUDA. ядра
Тип Модель преобразования текста в изображение
Лицензия Креативный ML OpenRAIL-M
Веб-сайт стабильность .есть /стабильное-изображение  Edit this on Wikidata

Stable Diffusion — это модель глубокого обучения , преобразования текста в изображение выпущенная в 2022 году и основанная на методах диффузии . Это считается частью продолжающегося бума искусственного интеллекта .

В основном он используется для создания подробных изображений на основе текстовых описаний, хотя его также можно применять и для других задач, таких как закрашивание , закрашивание и создание переводов между изображениями под управлением текстовой подсказки . [3] В его разработке приняли участие исследователи из CompVis Group в Мюнхенском университете Людвига-Максимилиана и Runway при вычислительном пожертвовании от Stability и обучающих данных от некоммерческих организаций. [4] [5] [6] [7]

Стабильная диффузия — это модель скрытой диффузии , своего рода глубокая генеративная искусственная нейронная сеть . Его код и веса моделей были опубликованы публично . [8] и он может работать на большинстве потребительских устройств, оснащенных скромным графическим процессором не менее 4 ГБ с объемом видеопамяти . Это ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney , которые были доступны только через облачные сервисы . [9] [10]

Развитие [ править ]

«Стабильная диффузия» возникла в результате проекта под названием «Скрытая диффузия». [11] разработан исследователями из Университета Людвига-Максимилиана в Мюнхене и Гейдельбергского университета . Четверо из пяти первоначальных авторов (Робин Ромбах, Андреас Блаттманн, Патрик Эссер и Доминик Лоренц) позже присоединились к Stability AI и выпустили последующие версии Stable Diffusion. [12]

Техническая лицензия на модель была выпущена группой CompVis в Мюнхенском университете Людвига-Максимилиана. [10] Разработку возглавили Патрик Эссер из Runway и Робин Ромбах из CompVis, которые были среди исследователей, которые ранее изобрели архитектуру модели скрытой диффузии, используемую Stable Diffusion. [7] Stability AI также указала, что EleutherAI и LAION (немецкая некоммерческая организация, которая собрала набор данных для обучения Stable Diffusion) являются сторонниками проекта. [7]

Технология [ править ]

Схема архитектуры скрытой диффузии, используемой Stable Diffusion
Процесс шумоподавления, используемый Stable Diffusion. Модель генерирует изображения путем итеративного шумоподавления случайного шума до тех пор, пока не будет достигнуто заданное количество шагов, под управлением текстового кодировщика CLIP, предварительно обученного на концепциях, а также механизма внимания, в результате чего получается желаемое изображение, изображающее представление обученной концепции.

Архитектура [ править ]

Стабильная диффузия использует разновидность модели диффузии (DM), называемую моделью скрытой диффузии (LDM), разработанную группой CompVis в LMU Мюнхен . [13] [8] Представленные в 2015 году диффузионные модели обучаются с целью удаления последовательных применений гауссовского шума на обучающих изображениях, что можно рассматривать как последовательность автокодировщиков шумоподавления . Stable Diffusion состоит из трех частей: вариационного автокодировщика (VAE), U-Net и дополнительного кодировщика текста. [14] Кодер VAE сжимает изображение из пространства пикселей в скрытое пространство меньшего размера , улавливая более фундаментальное семантическое значение изображения. [13] Гауссов шум итеративно применяется к сжатому скрытому представлению во время прямой диффузии. [14] Блок U-Net, состоящий из магистральной сети ResNet , удаляет шум на выходе прямой диффузии назад, чтобы получить скрытое представление. Наконец, декодер VAE генерирует окончательное изображение, преобразуя представление обратно в пространство пикселей. [14]

Шаг шумоподавления может быть гибко обусловлен строкой текста, изображением или другой модальностью. Закодированные данные кондиционирования подвергаются шумоподавлению U-Nets с помощью механизма перекрестного внимания . [14] Для обработки текста используется фиксированный предварительно обученный текстовый кодер CLIP ViT-L/14, который преобразует текстовые подсказки в пространство для встраивания. [8] Исследователи указывают на повышенную вычислительную эффективность для обучения и генерации как на преимущество LDM. [7] [13]

Название « диффузия» вдохновлено термодинамической диффузией , и в 2015 году была установлена ​​важная связь между этой чисто физической областью и глубоким обучением. [15] [16]

Имея 860   миллионов параметров в U-Net и 123   миллиона в кодировщике текста, Stable Diffusion считается относительно лёгким по стандартам 2022 года и, в отличие от других моделей диффузии, может работать на потребительских графических процессорах. [17] и даже ЦП — только при использовании OpenVINO . версии Stable Diffusion для [18]

SD XL [ править ]

Версия XL использует ту же архитектуру. [19] за исключением большего: более крупная магистральная сеть UNet, больший контекст перекрестного внимания, два текстовых кодировщика вместо одного и обучение на нескольких соотношениях сторон (а не только на квадратном соотношении сторон, как в предыдущих версиях).

SD XL Refiner, выпущенный в то же время, имеет ту же архитектуру, что и SD XL, но он был обучен добавлению мелких деталей к уже существующим изображениям с помощью условного текста img2img.

SD 3.0 [ править ]

Версия 3.0 [20] полностью меняет костяк. Не UNet, а Rectified Flow Transformer , реализующий метод выпрямленного потока. [21] [22] с Трансформатором .

Архитектура Transformer, используемая для SD 3.0, имеет три «дорожки»: для кодирования исходного текста, кодирования преобразованного текста и кодирования изображения (в скрытом пространстве). Преобразованное кодирование текста и кодирование изображения смешиваются во время каждого блока преобразования.

Архитектура называется «мультимодальный диффузионный преобразователь (MMDiT), где «мультимодальный» означает, что она смешивает кодировки текста и изображения внутри своих операций. Это отличается от предыдущих версий DiT, где кодировка текста влияет на кодировку изображения, но не наоборот. .

Данные тренировки [ править ]

Обучение Stable Diffusion проводилось на парах изображений и подписей, взятых из LAION-5B, общедоступного набора данных, полученного на основе данных Common Crawl , извлеченных из Интернета, где 5 миллиардов пар изображение-текст были классифицированы на основе языка и отфильтрованы в отдельные наборы данных по разрешению. прогнозируемая вероятность наличия водяного знака и прогнозируемая «эстетическая» оценка (например, субъективное визуальное качество). [23] Набор данных был создан LAION , немецкой некоммерческой организацией, которая получает финансирование от Stability AI. [23] [24] Модель Stable Diffusion была обучена на трех подмножествах LAION-5B: laion2B-en, laion-high-разрешения и laion-esthetics v2 5+. [23] Сторонний анализ данных обучения модели показал, что из меньшего подмножества в 12 миллионов изображений, взятых из исходного более широкого используемого набора данных, примерно 47% размера выборки изображений поступило из 100 различных доменов, причем Pinterest занимает 8,5% из подмножества, за которым следуют такие веб-сайты, как WordPress , Blogspot , Flickr , DeviantArt и Wikimedia Commons . [ нужна цитата ] Расследование Bayerischer Rundfunk показало, что наборы данных LAION, размещенные на Hugging Face, содержат большое количество частных и конфиденциальных данных. [25]

Процедуры обучения [ править ]

Первоначально модель обучалась на подмножествах laion2B-en и laion-high-разрешения, причем последние несколько раундов обучения проводились на LAION-Aesthetics v2 5+, подмножестве из 600 миллионов изображений с субтитрами, которые, по прогнозам LAION-Aesthetics Predictor V2, люди в среднем дали бы оценку не менее 5 из 10, когда их попросили оценить, насколько они им понравились. [26] [23] [27] Подмножество LAION-Aesthetics v2 5+ также исключало изображения с низким разрешением и изображения, которые LAION-5B-WatermarkDetection идентифицировал как несущие водяной знак с вероятностью более 80%. [23] Заключительные раунды обучения дополнительно снизили необходимость обработки текста на 10 %, чтобы улучшить управление диффузией без классификаторов. [28]

Модель была обучена с использованием 256 графических процессоров Nvidia A100 в Amazon Web Services в общей сложности 150 000 графо-часов и обошлась в 600 000 долларов США. [29] [30] [31]

Обучение SD3 обошлось примерно в 10 миллионов долларов. [32]

Ограничения [ править ]

Стабильная диффузия имеет проблемы с деградацией и неточностями в определенных сценариях. Первоначальные выпуски модели были обучены на наборе данных, состоящем из изображений с разрешением 512×512, а это означает, что качество создаваемых изображений заметно ухудшается, когда пользовательские спецификации отклоняются от «ожидаемого» разрешения 512×512; [33] Обновление модели Stable Diffusion версии 2.0 позже представило возможность генерировать изображения с разрешением 768×768. [34] Еще одна проблема заключается в создании человеческих конечностей из-за низкого качества данных о конечностях в базе данных LAION. [35] Модель недостаточно обучена, чтобы понимать человеческие конечности и лица из-за отсутствия репрезентативных особенностей в базе данных, и побуждение модели генерировать изображения такого типа может сбить ее с толку. [36] Версия 1.0 Stable Diffusion XL (SDXL), выпущенная в июле 2023 года, представила собственное разрешение 1024x1024 и улучшенную генерацию конечностей и текста. [37] [38]

Доступность для отдельных разработчиков также может быть проблемой. Чтобы настроить модель для новых вариантов использования, которые не включены в набор данных, таких как создание персонажей аниме («диффузия вайфу»), [39] необходимы новые данные и дальнейшее обучение. Точные адаптации Stable Diffusion, созданные в результате дополнительной переобучения, использовались для множества различных случаев, от медицинской визуализации [40] к алгоритмически сгенерированной музыке . [41] Однако этот процесс тонкой настройки чувствителен к качеству новых данных; Изображения с низким разрешением или разрешения, отличные от исходных данных, могут не только не справиться с новой задачей, но и ухудшить общую производительность модели. Даже если модель дополнительно обучена на изображениях высокого качества, людям сложно запускать модели в бытовой электронике. Например, для процесса обучения вайфу-диффузии требуется минимум 30 ГБ видеопамяти , [42] что превышает обычный ресурс, предусмотренный в таких потребительских графических процессорах, как Nvidia от серия GeForce 30 , имеющая всего около 12 ГБ. [43]

Создатели Stable Diffusion признают возможность алгоритмической предвзятости , поскольку модель в первую очередь обучалась на изображениях с английскими описаниями. [30] В результате сгенерированные изображения усиливают социальные предубеждения и отражают западную точку зрения, поскольку создатели отмечают, что в модели отсутствуют данные из других сообществ и культур. Модель дает более точные результаты для подсказок, написанных на английском языке, по сравнению с подсказками, написанными на других языках, при этом западная или белая культура часто является представлением по умолчанию. [30]

Тонкая настройка для конечного пользователя [ править ]

Чтобы устранить ограничения первоначального обучения модели, конечные пользователи могут выбрать дополнительное обучение для точной настройки результатов генерации в соответствии с более конкретными сценариями использования. Этот процесс также называется персонализацией . Существует три метода, с помощью которых доступная пользователю точная настройка может быть применена к контрольной точке модели стабильной диффузии:

  • «Внедрение» можно обучить на основе коллекции изображений, предоставленных пользователем, и оно позволяет модели генерировать визуально похожие изображения всякий раз, когда имя встраивания используется в подсказке создания. [44] Встраивания основаны на концепции «текстовой инверсии», разработанной исследователями из Тель-Авивского университета в 2022 году при поддержке Nvidia , где векторные представления для конкретных токенов, используемых кодировщиком текста модели, связаны с новыми псевдословами. Внедрения можно использовать для уменьшения искажений в исходной модели или для имитации визуальных стилей. [45]
  • «Гиперсеть» — это небольшая предварительно обученная нейронная сеть, которая применяется к различным точкам внутри более крупной нейронной сети и относится к методу, созданному разработчиком NovelAI для генерации текста Курумузом в 2021 году и первоначально предназначенному для моделей преобразователей . Гиперсети направляют результаты в определенном направлении, позволяя моделям на основе стабильной диффузии имитировать художественный стиль конкретных художников, даже если художник не распознается исходной моделью; они обрабатывают изображение, находя ключевые важные области, такие как волосы и глаза, а затем помещают эти области во вторичное скрытое пространство. [46]
  • DreamBooth — это модель генерации глубокого обучения, разработанная исследователями из Google Research и Бостонского университета в 2022 году. Она позволяет точно настроить модель для генерации точных персонализированных результатов, изображающих конкретный предмет, после обучения с помощью набора изображений, изображающих этот предмет. [47]

Возможности [ править ]

Модель Stable Diffusion поддерживает возможность создавать новые изображения с нуля с помощью текстового приглашения, описывающего элементы, которые следует включить или исключить из вывода. [8] Существующие изображения могут быть перерисованы моделью для включения новых элементов, описанных текстовой подсказкой (процесс, известный как «управляемый синтез изображений»). [48] ) посредством механизма диффузионного шумоподавления. [8] Кроме того, модель также позволяет использовать подсказки для частичного изменения существующих изображений посредством закрашивания и перерисовки при использовании с соответствующим пользовательским интерфейсом, поддерживающим такие функции, для которых существует множество различных реализаций с открытым исходным кодом. [49]

Stable Diffusion рекомендуется запускать с 10 ГБ или более видеопамяти, однако пользователи с меньшим количеством видеопамяти могут выбрать загрузку весов с точностью float16 вместо значения по умолчанию float32, чтобы обеспечить компромисс между производительностью модели и меньшим использованием видеопамяти. [33]

Генерация текста в изображение [ править ]

Демонстрация влияния негативных подсказок на генерацию изображений
  • Вверху : нет негативных подсказок
  • Центр : «зеленые деревья».
  • Внизу : «круглые камни, круглые камни».

Сценарий выборки текста в изображение в Stable Diffusion, известный как «txt2img», использует текстовую подсказку в дополнение к различным параметрам, охватывающим типы выборки, размеры выходного изображения и начальные значения. Сценарий выводит файл изображения на основе интерпретации подсказки моделью. [8] Сгенерированные изображения помечаются невидимым цифровым водяным знаком , чтобы пользователи могли идентифицировать изображение как созданное с помощью Stable Diffusion. [8] хотя этот водяной знак теряет свою эффективность, если размер изображения изменяется или поворачивается. [50]

Каждое поколение txt2img будет включать в себя определенное начальное значение , которое влияет на выходное изображение. Пользователи могут выбрать рандомизацию начального числа, чтобы изучить различные сгенерированные выходные данные, или использовать одно и то же начальное число для получения того же выходного изображения, что и ранее сгенерированное изображение. [33] Пользователи также могут регулировать количество шагов вывода для сэмплера; более высокое значение занимает больше времени, однако меньшее значение может привести к визуальным дефектам. [33] Другая настраиваемая опция — значение шкалы навигации без классификатора — позволяет пользователю настроить, насколько точно выходное изображение соответствует подсказке. [28] В более экспериментальных случаях использования можно выбрать более низкое значение шкалы, тогда как в сценариях использования, нацеленных на более конкретные результаты, может использоваться более высокое значение. [33]

Дополнительные функции text2img предоставляются внешними реализациями Stable Diffusion, которые позволяют пользователям изменять вес, придаваемый определенным частям текстового приглашения. Маркеры выделения позволяют пользователям добавлять или уменьшать выделение ключевых слов, заключая их в квадратные скобки. [51] Альтернативным методом корректировки веса частей подсказки являются «отрицательные подсказки». Отрицательные подсказки — это функция, включенная в некоторые внешние реализации, включая собственный облачный сервис DreamStudio от Stability AI, и позволяющая пользователю указывать подсказки, которых модели следует избегать во время создания изображения. Указанные подсказки могут представлять собой нежелательные особенности изображения, которые в противном случае присутствовали бы в выходных изображениях из-за положительных подсказок, предоставленных пользователем, или из-за того, как модель изначально обучалась, причем частым примером являются искалеченные человеческие руки. [49] [52]

Модификация изображения [ править ]

Демонстрация модификации img2img
  • Слева : исходное изображение, созданное с помощью Stable Diffusion 1.5.
  • Справа : измененное изображение, созданное с помощью Stable Diffusion XL 1.0.

Stable Diffusion также включает в себя еще один сценарий выборки, «img2img», который использует текстовую подсказку, путь к существующему изображению и значение силы от 0,0 до 1,0. Скрипт выводит новое изображение на основе исходного изображения, которое также содержит элементы, представленные в текстовой подсказке. Значение силы обозначает количество шума, добавленного к выходному изображению. Более высокое значение интенсивности приводит к большему разнообразию изображения, но может создать изображение, которое семантически не соответствует предоставленному запросу. [8]

Способность img2img добавлять шум к исходному изображению делает его потенциально полезным для анонимизации и увеличения данных , при которых визуальные особенности данных изображения изменяются и анонимизируются. [53] Тот же процесс может быть полезен для масштабирования изображения, при котором разрешение изображения увеличивается, при этом к изображению потенциально может быть добавлено больше деталей. [53] Кроме того, Stable Diffusion экспериментировал как инструмент для сжатия изображений. По сравнению с JPEG и WebP , последние методы, используемые для сжатия изображений в Stable Diffusion, имеют ограничения по сохранению мелкого текста и лиц. [54]

Дополнительные варианты использования для модификации изображений с помощью img2img предлагаются многочисленными внешними реализациями модели Stable Diffusion. Inpainting включает в себя выборочное изменение части существующего изображения, очерченной предоставленной пользователем маской слоя , которая заполняет замаскированное пространство вновь созданным содержимым на основе предоставленной подсказки. [49] Специальная модель, специально настроенная для сценариев использования, была создана Stability AI одновременно с выпуском Stable Diffusion 2.0. [34] И наоборот, перерисовка расширяет изображение за пределы его исходных размеров, заполняя ранее пустое пространство содержимым, созданным на основе предоставленной подсказки. [49]

Модель с контролем глубины под названием «Deep2img» была представлена ​​вместе с выпуском Stable Diffusion 2.0 24 ноября 2022 года; эта модель определяет глубину предоставленного входного изображения и генерирует новое выходное изображение на основе как текстовой подсказки, так и информации о глубине, что позволяет поддерживать согласованность и глубину исходного входного изображения в сгенерированном выходе. [34]

ControlNet [ править ]

Контрольная сеть [55] — это архитектура нейронной сети, предназначенная для управления моделями диффузии путем включения дополнительных условий. Он дублирует веса блоков нейронной сети в «заблокированную» копию и «обучаемую» копию. «Обучаемая» копия изучает желаемое условие, а «заблокированная» копия сохраняет исходную модель. Этот подход гарантирует, что обучение с небольшими наборами данных пар изображений не поставит под угрозу целостность готовых к производству диффузионных моделей. «Нулевая свертка» — это свертка 1×1, в которой вес и смещение инициализируются нулевым значением. Перед обучением все нулевые свертки дают нулевой результат, предотвращая любые искажения, вызванные ControlNet. Ни один слой не обучается с нуля; процесс все еще находится в стадии тонкой настройки, сохраняя безопасность исходной модели. Этот метод позволяет проводить обучение на небольших или даже персональных устройствах.

Релизы [ править ]

Номер версии Дата выпуска Примечания
1.1, 1.2, 1.3, 1.4 [56] август 2022 г. Все выпущено CompVis. Не существует «версии 1.0». 1.1 породил 1.2, а 1.2 породил и 1.3, и 1.4. [57]
1.5 [58] Октябрь 2022 г. Инициализируется с весами 1,2, а не 1,4. Выпущено RunwayML.
2.0 [59] ноябрь 2022 г. Переобучен с нуля на отфильтрованном наборе данных. [60]
2.1 [61] декабрь 2022 г. Инициализируется с весами 2.0.
ХL 1.0 [62] [19] июль 2023 г. Базовая модель XL 1.0 имеет 3,5 миллиарда параметров, что делает ее

примерно в 3,5 раза больше, чем в предыдущих версиях. [63]

XL Турбо [64] ноябрь 2023 г. На основе XL 1.0 для меньшего количества этапов диффузии. [65]
3.0 [66] [20] Февраль 2024 г. (ранняя предварительная версия) Семейство моделей, от 800М до 8В параметров.

Ключевые документы

  • Изучение переносимых визуальных моделей под контролем естественного языка (2021). [67] В этой статье описывается метод CLIP для обучения кодировщиков текста, которые преобразуют текст в векторы с плавающей запятой. Такие кодировки текста используются моделью диффузии для создания изображений.
  • SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений (2021). [68] В этой статье описывается SDEdit, также известный как «img2img».
  • Синтез изображений высокого разрешения с моделями скрытой диффузии (2021 г., обновлено в 2022 г.). [69] В данной статье описывается модель скрытой диффузии (LDM). Это основа архитектуры стабильной диффузии.
  • Руководство по диффузии без классификаторов (2022 г.). [28] В этой статье описывается CFG, который позволяет вектору кодирования текста направлять модель диффузии в сторону создания изображения, описываемого текстом.
  • SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения (2023 г.). [19] Описывает SDXL.
  • Поток прямой и быстрый: учимся генерировать и передавать данные с помощью выпрямленного потока (2022 г.). [21] [22] Описывает выпрямленный поток, который используется для базовой архитектуры SD 3.0.
  • Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения (2024 г.). [20] Описывает SD 3.0.

Стоимость обучения

  • SD 2.0: 0,2 миллиона часов на A100 (40 ГБ). [59]

Использование и споры [ править ]

Stable Diffusion не претендует на какие-либо права на сгенерированные изображения и бесплатно предоставляет пользователям права использования любых сгенерированных изображений из модели при условии, что содержание изображения не является незаконным или вредным для отдельных лиц. [70]

Изображения, на которых проходил обучение Stable Diffusion, были отфильтрованы без участия человека, что привело к появлению в обучающих данных некоторых вредоносных изображений и большого количества частной и конфиденциальной информации. [25]

Более традиционные визуальные художники выразили обеспокоенность тем, что широкое использование программного обеспечения для синтеза изображений, такого как Stable Diffusion, может в конечном итоге привести к тому, что люди-художники, а также фотографы, модели, кинематографисты и актеры постепенно потеряют коммерческую жизнеспособность по сравнению с конкурентами, основанными на искусственном интеллекте. [71]

Stable Diffusion заметно более либерален в отношении типов контента, который могут создавать пользователи, например изображений насилия или откровенно сексуального характера, по сравнению с другими коммерческими продуктами, основанными на генеративном искусственном интеллекте. [72] Отвечая на опасения, что модель может быть использована в неправомерных целях, генеральный директор Stability AI Эмад Мостак утверждает, что «[это] ответственность людей за то, соблюдают ли они этические, моральные и законные принципы использования этой технологии». [10] и что передача возможностей стабильной диффузии в руки общественности приведет к тому, что технология принесет чистую выгоду, несмотря на потенциальные негативные последствия. [10] Кроме того, Мостак утверждает, что цель открытой доступности Stable Diffusion состоит в том, чтобы положить конец корпоративному контролю и доминированию над такими технологиями, которые ранее разрабатывали только закрытые системы искусственного интеллекта для синтеза изображений. [10] [72] Это отражается в том факте, что любые ограничения Stability AI, налагаемые на контент, который могут создавать пользователи, можно легко обойти благодаря доступности исходного кода. [73]

Споры вокруг фотореалистичных сексуализированных изображений несовершеннолетних персонажей возникли из-за того, что такие изображения, созданные Stable Diffusion, размещались на таких веб-сайтах, как Pixiv . [74]

Судебное разбирательство [ править ]

В январе 2023 года три художницы, Сара Андерсен , Келли МакКернан и Карла Ортис, подали иск о нарушении авторских прав против Stability AI, Midjourney и DeviantArt , утверждая, что эти компании нарушили права миллионов художников, обучая инструменты ИИ на пяти миллиардах человек. изображения, взятые из сети без согласия авторов оригинала. [75] подала в суд на компанию Stability AI В том же месяце Getty Images за использование ее изображений в обучающих данных. [76]

В июле 2023 года окружной судья США Уильям Оррик был склонен отклонить большую часть иска, поданного Андерсеном, МакКернаном и Ортисом, но разрешил им подать новую жалобу. [77]

Лицензия [ править ]

В отличие от таких моделей, как DALL-E , Stable Diffusion предоставляет доступ к своему исходному коду . [78] [8] вместе с моделью (предварительно обученные веса). К модели (M) применяется лицензия Creative ML OpenRAIL-M, разновидность лицензии Responsible AI (RAIL). [79] Лицензия запрещает определенные случаи использования, включая преступления, клевету , преследование , доксинг , « эксплуатацию… несовершеннолетних », предоставление медицинских консультаций, автоматическое создание юридических обязательств, представление юридических доказательств и «дискриминацию или причинение вреда отдельным лицам или группам на основе… социальное поведение или... личные или личностные характеристики... [или] охраняемые законом характеристики или категории ». [80] [81] Пользователь владеет правами на созданные выходные изображения и может свободно использовать их в коммерческих целях. [82]

См. также [ править ]

Ссылки [ править ]

  1. ^ «Анонсируем SDXL 1.0» . стабильность.ай . Архивировано из оригинала 26 июля 2023 года.
  2. ^ Райан О'Коннор (23 августа 2022 г.). «Как локально запустить Stable Diffusion для создания изображений» . Архивировано из оригинала 13 октября 2023 года . Проверено 4 мая 2023 г.
  3. ^ «Diffuse The Rest — пространство для обнимающего лица» от HuggingFace . Huggingface.co . Архивировано из оригинала 5 сентября 2022 года . Проверено 5 сентября 2022 г.
  4. ^ «Утечка колоды вызывает у инвесторов вопросы по поводу презентации Stability AI Series A» . просеянный.eu . Архивировано из оригинала 29 июня 2023 года . Проверено 20 июня 2023 г.
  5. ^ «Революционная генерация изображений с помощью ИИ: превращение текста в изображения» . www.lmu.de. Архивировано из оригинала 17 сентября 2022 года . Проверено 21 июня 2023 г.
  6. ^ Мостак, Эмад (2 ноября 2022 г.). «Стабильная диффузия была разработана исследовательской группой машинного зрения и обучения (CompVis) @LMU_Muenchen» . Твиттер . Архивировано из оригинала 20 июля 2023 года . Проверено 22 июня 2023 г.
  7. ^ Перейти обратно: а б с д «Объявление о запуске Stable Diffusion» . Стабильность.Ай . Архивировано из оригинала 5 сентября 2022 года . Проверено 6 сентября 2022 г.
  8. ^ Перейти обратно: а б с д Это ж г час я «Стабильный репозиторий Diffusion на GitHub» . CompVis — Исследовательская группа по машинному зрению и обучению, LMU Мюнхен. 17 сентября 2022 года. Архивировано из оригинала 18 января 2023 года . Проверено 17 сентября 2022 г.
  9. ^ «Новое потрясающее приложение: создание произведений искусства с помощью ИИ сокрушит ваш компьютер» . ПКМир . Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.
  10. ^ Перейти обратно: а б с д Это Винсент, Джеймс (15 сентября 2022 г.). «Любой может использовать этот генератор искусственный интеллект — в этом есть риск» . Грань . Архивировано из оригинала 21 января 2023 года . Проверено 30 сентября 2022 г.
  11. ^ «CompVis/Латентная диффузия» . Гитхаб .
  12. ^ «Стабильная диффузия 3: Исследовательская статья» .
  13. ^ Перейти обратно: а б с Ромбах; Блаттманн; Лоренц; Эссер; Оммер (июнь 2022 г.). Синтез изображений высокого разрешения с использованием моделей скрытой диффузии (PDF) . Международная конференция по компьютерному зрению и распознаванию образов (CVPR). Новый Орлеан, Луизиана. стр. 10684–10695. arXiv : 2112.10752 . Архивировано (PDF) из оригинала 20 января 2023 г. Проверено 17 сентября 2022 г.
  14. ^ Перейти обратно: а б с д Аламмар, Джей. «Иллюстрированная стабильная диффузия» . jalammar.github.io . Архивировано из оригинала 1 ноября 2022 года . Проверено 31 октября 2022 г.
  15. ^ Дэвид, Фостер. «8. Диффузионные модели». Генеративное глубокое обучение (2-е изд.). О'Рейли.
  16. ^ Яша Сол-Дикштейн, Эрик А. Вайс, Ниру Махешваранатан, Сурья Гангули (12 марта 2015 г.). «Глубокое обучение без учителя с использованием неравновесной термодинамики». Арксив . arXiv : 1503.03585 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  17. ^ «Стабильные диффузионные трубопроводы» . Huggingface.co . Архивировано из оригинала 25 июня 2023 года . Проверено 22 июня 2023 г.
  18. ^ «Генерация текста в изображение с помощью Stable Diffusion и OpenVINO™» . openvino.ai . Интел . Проверено 10 февраля 2024 г.
  19. ^ Перейти обратно: а б с Поделл, Дастин; английский, Сион; Лейси, Кайл; Блаттманн, Андреас; Докхорн, Тим; Мюллер, Йонас; Пенна, Джо; Ромбах, Робин (4 июля 2023 г.). «SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения». arXiv : 2307.01952 [ cs.CV ].
  20. ^ Перейти обратно: а б с Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (5 марта 2024 г.), Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения , arXiv : 2403.03206
  21. ^ Перейти обратно: а б Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (7 сентября 2022 г.), « Прямой и быстрый поток: учимся генерировать и передавать данные с помощью выпрямленного потока» , arXiv : 2209.03003
  22. ^ Перейти обратно: а б «Выпрямленный поток — Ректифицированный поток» . www.cs.utexas.edu . Проверено 6 марта 2024 г.
  23. ^ Перейти обратно: а б с д Это Байо, Энди (30 августа 2022 г.). «Исследование 12 миллионов из 2,3 миллиарда изображений, используемых для обучения генератора изображений Stable Diffusion» . Waxy.org . Архивировано из оригинала 20 января 2023 года . Проверено 2 ноября 2022 г.
  24. ^ «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 2 ноября 2022 г.
  25. ^ Перейти обратно: а б Бруннер, Катарина; Харлан, Элиза (7 июля 2023 г.). «Мы все — сырье для искусственного интеллекта» . Баварский Рундфунк (Бразилия). Архивировано из оригинала 12 сентября 2023 года . Проверено 12 сентября 2023 г.
  26. ^ Шуман, Кристоф (2 ноября 2022 г.), CLIP + MLP Aesthetic Score Predictor , заархивировано из оригинала 8 июня 2023 г. , получено 2 ноября 2022 г.
  27. ^ «ЛАИОН-Эстетика | ЛАИОН» . laion.ai . Архивировано из оригинала 26 августа 2022 года . Проверено 2 сентября 2022 г.
  28. ^ Перейти обратно: а б с Эй, Джонатан; Салиманс, Тим (25 июля 2022 г.). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [ cs.LG ].
  29. ^ Мостак, Эмад (28 августа 2022 г.). «Стоимость строительства» . Твиттер . Архивировано из оригинала 6 сентября 2022 года . Проверено 6 сентября 2022 г.
  30. ^ Перейти обратно: а б с «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 2 ноября 2022 г.
  31. ^ Виггерс, Кайл (12 августа 2022 г.). «Стартап хочет демократизировать технологию, лежащую в основе DALL-E 2, и к черту последствия» . ТехКранч . Архивировано из оригинала 19 января 2023 года . Проверено 2 ноября 2022 г.
  32. ^ emad_9608 (19 апреля 2024 г.). «10 метров — это правильно» . г/СтаблДиффузия . Проверено 25 апреля 2024 г. {{cite web}}: CS1 maint: числовые имена: список авторов ( ссылка )
  33. ^ Перейти обратно: а б с д Это «Стабильная диффузия с помощью 🧨 Диффузоров» . Huggingface.co . Архивировано из оригинала 17 января 2023 года . Проверено 31 октября 2022 г.
  34. ^ Перейти обратно: а б с «Стабильный выпуск Diffusion 2.0» . стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.
  35. ^ «ЛАИОН» . laion.ai . Архивировано из оригинала 16 октября 2023 года . Проверено 31 октября 2022 г.
  36. ^ «Создание изображений с помощью стабильной диффузии» . Блог Paperspace . 24 августа 2022 года. Архивировано из оригинала 31 октября 2022 года . Проверено 31 октября 2022 г.
  37. ^ «Анонсируем SDXL 1.0» . Стабильность ИИ . Архивировано из оригинала 26 июля 2023 года . Проверено 21 августа 2023 г.
  38. ^ Эдвардс, Бендж (27 июля 2023 г.). «Stability AI выпускает Stable Diffusion XL, модель синтеза изображений нового поколения» . Арс Техника . Архивировано из оригинала 21 августа 2023 года . Проверено 21 августа 2023 г.
  39. ^ «хакурей/вайфу-диффузия · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 31 октября 2022 г.
  40. ^ Шамбон, Пьер; Блютген, Кристиан; Ланглотц, Кертис П.; Чаудхари, Акшай (9 октября 2022 г.). «Адаптация предварительно обученных базовых моделей визуального языка к областям медицинской визуализации». arXiv : 2210.04133 [ cs.CV ].
  41. ^ Сет Форсгрен; Айк Мартирос. «Riffusion — стабильная диффузия для генерации музыки в реальном времени» . Риффузия . Архивировано из оригинала 16 декабря 2022 года.
  42. ^ Меркурио, Энтони (31 октября 2022 г.), Waifu Diffusion , заархивировано из оригинала 31 октября 2022 г. , получено 31 октября 2022 г.
  43. ^ Смит, Райан. «NVIDIA тихо выпускает GeForce RTX 3080 12 ГБ: больше видеопамяти, больше мощности, больше денег» . www.anandtech.com . Архивировано из оригинала 27 августа 2023 года . Проверено 31 октября 2022 г.
  44. ^ Дэйв Джеймс (28 октября 2022 г.). «Я 8 часов подряд бил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман» . ПК-геймер . Архивировано из оригинала 9 ноября 2022 года.
  45. ^ Гал, Ринон; Алалуф, Юваль; Ацмон, Юваль; Паташник, Ор; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (2 августа 2022 г.). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии». arXiv : 2208.01618 [ cs.CV ].
  46. ^ «Усовершенствования NovelAI в области стабильной диффузии» . Роман ИИ . 11 октября 2022 г. Архивировано из оригинала 27 октября 2022 г.
  47. ^ Юки Ямасита (1 сентября 2022 г.). «ИИ, который может создавать составные изображения вашей собаки. Косплей, просто давая текстовые инструкции. Разработано Google» . ITmedia Inc. (на японском языке). Архивировано из оригинала 31 августа 2022 г.
  48. ^ Мэн, Чэньлин; Сун, Ян; Ву, Цзяцзюнь; Эрмон, Стефано (2 августа 2021 г.). arXiv : 2108.01073 [ cs.CV ].
  49. ^ Перейти обратно: а б с д «Стабильный веб-интерфейс Diffusion» . Гитхаб . 10 ноября 2022 года. Архивировано из оригинала 20 января 2023 года . Проверено 27 сентября 2022 г.
  50. ^ invisible-watermark , Shield Mountain, 2 ноября 2022 г., заархивировано из оригинала 18 октября 2022 г. , получено 2 ноября 2022 г.
  51. ^ «инструменты-стабильной-диффузии/акцент на мастере · ЙоханнесГесслер/инструменты-стабильной-диффузии» . Гитхаб . Архивировано из оригинала 2 октября 2022 года . Проверено 2 ноября 2022 г.
  52. ^ «Stable Diffusion v2.1 и обновления DreamStudio от 7 декабря до 22 декабря» . стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.
  53. ^ Перейти обратно: а б Лузи, Лоуренс; Сиакухи, Али; Майер, Пол М.; Шлем-Родригес, Джошуа; Баранюк, Ричард (21 октября 2022 г.). «Бумеранг: локальная выборка на многообразиях изображений с использованием диффузионных моделей». arXiv : 2210.12100 [ cs.CV ].
  54. ^ Бюльманн, Матиас (28 сентября 2022 г.). «Стабильное диффузионное сжатие изображения» . Середина . Архивировано из оригинала 2 ноября 2022 года . Проверено 2 ноября 2022 г.
  55. ^ Чжан, Львмин (10 февраля 2023 г.). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [ cs.CV ].
  56. ^ «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 17 августа 2023 г.
  57. ^ «КомпВис (КомпВис)» . Huggingface.co . 23 августа 2023 г. . Проверено 6 марта 2024 г.
  58. ^ "runwayml/stable-diffusion-v1-5 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
  59. ^ Перейти обратно: а б "stabilityai/stable-diffusion-2 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
  60. ^ "stabilityai/stable-diffusion-2-base · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.
  61. ^ "stabilityai/stable-diffusion-2-1 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
  62. ^ "stabilityai/stable-diffusion-xl-base-1.0 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 17 августа 2023 г.
  63. ^ «Анонсируем SDXL 1.0» . Стабильность ИИ . Проверено 1 января 2024 г.
  64. ^ "stabilityai/sdxl-turbo · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.
  65. ^ «Состязательная диффузионная дистилляция» . Стабильность ИИ . Проверено 1 января 2024 г.
  66. ^ «Стабильная диффузия 3» . Стабильность ИИ . Проверено 5 марта 2024 г.
  67. ^ Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела (26 февраля 2021 г.). «Изучение переносимых визуальных моделей под контролем естественного языка». arXiv : 2103.00020 [ cs.CV ].
  68. ^ Мэн, Чэньлин; Сун, Ян; Ву, Цзяцзюнь; Эрмон, Стефано (4 января 2022 г.). arXiv : 2108.01073 [ cs.CV ].
  69. ^ Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьорн (2022). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии» . Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) . стр. 10684–10695. arXiv : 2112.10752 .
  70. ^ «LICENSE.md · Sustainableai/stable-diffusion-xl-base-1.0 at main» . Huggingface.co . 26 июля 2023 г. Проверено 1 января 2024 г.
  71. ^ Хейккиля, Мелисса (16 сентября 2022 г.). «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 26 сентября 2022 г.
  72. ^ Перейти обратно: а б Рё Симидзу (26 августа 2022 г.). «Превзошел ли он Midjourney? Почему мы можем сказать, что #StableDiffusion, бесплатный ИИ для рисования, демократизировал ИИ» . Business Insider Japan (на японском языке). Архивировано из оригинала 10 декабря. 2022. Проверено 4 октября 2022 года .
  73. ^ Кай, Кенрик. «Стартап AI Image Generator Stable Diffusion ведет переговоры о привлечении инвестиций при оценке до 1 миллиарда долларов» . Форбс . Архивировано из оригинала 30 сентября 2023 года . Проверено 31 октября 2022 г.
  74. ^ «Разоблачена незаконная торговля изображениями сексуального насилия над детьми, созданными искусственным интеллектом» . Новости BBC . 27 июня 2023 года. Архивировано из оригинала 21 сентября 2023 года . Проверено 26 сентября 2023 г.
  75. ^ Винсент, Джеймс (16 января 2023 г.). «Инструменты искусственного интеллекта Stable Diffusion и Midjourney подверглись иску о нарушении авторских прав» . Грань . Архивировано из оригинала 9 марта 2023 года . Проверено 16 января 2023 г.
  76. ^ Корн, Дженнифер (17 января 2023 г.). «Getty Images подает в суд на создателей популярного инструмента искусственного интеллекта за кражу фотографий» . CNN . Архивировано из оригинала 1 марта 2023 года . Проверено 22 января 2023 г.
  77. ^ Бриттен, Блейк (19 июля 2023 г.). «Американский судья нашел недостатки в иске художников против компаний, занимающихся искусственным интеллектом» . Рейтер . Архивировано из оригинала 6 сентября 2023 года . Проверено 6 августа 2023 г.
  78. ^ «Публичный выпуск стабильной диффузии» . Стабильность.Ай . Архивировано из оригинала 30 августа 2022 года . Проверено 31 августа 2022 г.
  79. ^ «От RAIL к Open RAIL: Топологии лицензий RAIL» . Лицензии на ответственный ИИ (RAIL) . 18 августа 2022 года. Архивировано из оригинала 27 июля 2023 года . Проверено 20 февраля 2023 г.
  80. ^ «Готовы вы или нет, но массовые видео-дипфейки грядут» . Вашингтон Пост . 30 августа 2022 года. Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.
  81. ^ «Лицензия — пространство для обнимания лица от CompVis» . Huggingface.co . Архивировано из оригинала 4 сентября 2022 года . Проверено 5 сентября 2022 г.
  82. ^ Кацуо Исида (26 августа 2022 г.) «Stable Diffusion» использует удивительный искусственный интеллект для рисования изображений на основе устных инструкций — изображения можно использовать в коммерческих целях» . Impress Corporation (на японском языке). Архивировано из оригинала 14 ноября 2022 г. Проверено 4 октября 2022 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: F3063ECECB760F39F2C19AC0B8EDCBDA__1717691820
URL1:https://en.wikipedia.org/wiki/Stable_Diffusion
Заголовок, (Title) документа по адресу, URL1:
Stable Diffusion - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)