Jump to content

DreamBooth

Демонстрация использования DreamBooth для точной настройки модели распространения Stable Diffusion v1.5 с использованием обучающих данных, полученных из категории: Джимми Уэйлса на Wikimedia Commons . Здесь изображены алгоритмически сгенерированные изображения Джимми Уэйлса , сооснователя Википедии, выполняющего упражнения по жиму лежа в фитнес-зале.

DreamBooth — это модель генерации глубокого обучения , используемая для персонализации существующих моделей преобразования текста в изображение путем тонкой настройки . Он был разработан исследователями из Google Research и Бостонского университета компании Google в 2022 году. Первоначально разработанный с использованием собственной модели преобразования текста в изображение Imagen , реализации DreamBooth могут применяться к другим моделям преобразования текста в изображение, где это может позволить модели генерировать больше точно настроенные и персонализированные результаты после тренировки на трех-пяти изображениях объекта. [1] [2] [3]

Технология

[ редактировать ]

текста в изображение Предварительно обученные модели диффузии , хотя часто способны предлагать широкий спектр различных типов вывода изображений, лишены специфичности, необходимой для создания изображений менее известных объектов, и ограничены в своей способности отображать известные объекты в различных ситуациях и контексты. [1] Методика, используемая для реализации DreamBooth, включает в себя тонкую настройку всего компонента UNet модели распространения с использованием нескольких изображений (обычно 3–5), изображающих конкретный предмет. Изображения сопровождаются текстовыми подсказками, содержащими название класса, к которому принадлежит субъект, а также уникальный идентификатор. В качестве примера: a photograph of a [Nissan R34 GTR] car, с car быть классом); применяется потеря предварительного сохранения для конкретного класса, чтобы побудить модель генерировать различные экземпляры объекта на основе того, на чем модель уже обучена для исходного класса. [1] Пары изображений с низким и высоким разрешением, взятые из набора входных изображений, используются для точной настройки компонентов сверхвысокого разрешения , позволяя сохранить мельчайшие детали объекта. [1]

Использование

[ редактировать ]

DreamBooth можно использовать для точной настройки таких моделей, как Stable Diffusion , где он может устранить общий недостаток Stable Diffusion, который не позволяет адекватно генерировать изображения конкретных отдельных людей. [4] Однако такой вариант использования требует большого объема видеопамяти и, следовательно, является непомерно дорогим для пользователей-любителей. [4] В частности, адаптация DreamBooth для Stable Diffusion выпущена как бесплатный проект с открытым исходным кодом, основанный на технологии, изложенной в оригинальной статье, опубликованной Ruiz et. ал. в 2022 году. [5] Высказывались опасения по поводу способности злоумышленников использовать DreamBooth для создания вводящих в заблуждение изображений в вредоносных целях, а также по поводу того, что ее открытый исходный код позволяет любому использовать или даже улучшать эту технологию. [6] Кроме того, художники выразили опасения по поводу этичности использования DreamBooth для обучения контрольно-пропускных пунктов моделей, которые специально предназначены для имитации определенных художественных стилей, связанных с людьми-художниками; Одним из таких критиков является Холли Менгерт, иллюстратор Disney и Penguin Random House , чей художественный стиль был обучен модели контрольно-пропускного пункта через DreamBooth и опубликован в Интернете без ее согласия. [7] [8]

  1. ^ Jump up to: а б с д Руис, Натаниэль; Ли, Юаньчжэнь; Джампани, Варун; Притч, Яэль; Рубинштейн, Майкл; Аберман, Кфир (25 августа 2022 г.). «DreamBooth: точная настройка моделей распространения текста в изображение для создания предметно-ориентированной генерации». arXiv : 2208.12242 [ cs.CV ].
  2. ^ Юки Ямашита (1 сентября 2022 г.). «ИИ, который может генерировать составные изображения вашей собаки. Косплей, просто давая текстовые инструкции. Разработано Google» ( . на японском языке). Архивировано из оригинала 31 августа 2022 г. Это предметно-ориентированная модель преобразования текста в изображение, разработанная исследовательской группой из Google Research и Бостонского университета, которая использует несколько изображений объекта и ввод текста для создания нового составного изображения, которое сочетается с данным предметом. [... разработанная исследовательской группой из Google Research и Бостонского университета, представляет собой объектно-ориентированную модель преобразования текста в изображение, которая использует несколько изображений объекта и текстовые подсказки для создания новых изображений с изображением этого объекта.]
  3. ^ Брендан Мерфи (13 октября 2022 г.). «Создание изображений с помощью ИИ развивается с астрономической скоростью. Можем ли мы еще определить, является ли изображение поддельным?» . Разговор . Архивировано из оригинала 30 октября 2022 года. Недавно Google выпустила Dream Booth, альтернативный, более сложный метод внедрения конкретных людей, объектов или даже художественных стилей в системы искусственного интеллекта для преобразования текста в изображение.
  4. ^ Jump up to: а б Рё Симидзу (26 октября 2022 г.). «Настоящая «мировая революция»: что случилось с ИИ, генерирующим изображения, за последние два месяца? » . Yahoo! News Japan (на японском языке). Архивировано из оригинала 26 октября 2022 года. Stable Diffusion обычно не подходит для показа личных фотографий или конкретных людей, но если вы хотите поделиться несколькими фотографиями своих домашних животных или друзей. Технология под названием «Dreambooth» была разработана для обучения на количестве листов, и это также привлекло внимание. Однако проблема Dreambooth заключалась в том, что для него требовался огромный объем памяти графического процессора, что делало практически невозможным работу с графическими процессорами, которые отдельные пользователи могли купить для хобби. [Стабильная диффузия, как правило, не подходит для создания личных фотографий или конкретных людей, однако разработка «Drebooth» позволяет тренироваться на небольшом количестве фотографий с участием ваших домашних животных или друзей, что вызывает настоящий ажиотаж. Однако недостатком является то, что Dreambooth требует большого количества фотографий. объем памяти графического процессора, что делает практически невозможным работу на графических процессорах, которые отдельные пользователи могут себе позволить в пределах своего ценового диапазона для любителей.]
  5. ^ Бендж Эдвардс (9 декабря 2022 г.). «Технология генерации изображений с помощью искусственного интеллекта теперь может с легкостью создавать разрушительные для жизни дипфейки» . Арс Техника . Архивировано из оригинала 12 декабря 2022 года. Но вскоре после анонса кто-то адаптировал технику Dreambooth для работы со Stable Diffusion и бесплатно выпустил код как проект с открытым исходным кодом.
  6. ^ Кевин Цзян (1 декабря 2022 г.). «Эти изображения ИИ выглядят так же, как я. Что это значит для будущего дипфейков?» . Торонто Стар . Архивировано из оригинала 8 декабря 2022 года. Например, DreamBooth можно использовать для копирования подписей или официальных вывесок на поддельные документы, создания вводящих в заблуждение фотографий или видео политиков, производства порномести отдельных лиц и многого другого... Особая проблема с DreamBooth. и Stable Diffusion заключается в том, что они имеют открытый исходный код, продолжил Гупта. В отличие от централизованных моделей создания искусственного интеллекта, которые могут устанавливать правила и барьеры для создания изображений, децентрализованные модели, такие как DreamBooth, означают, что каждый может получить доступ к технологии и улучшить ее.
  7. ^ Изабель Бервик; София Смит (14 декабря 2022 г.). «Заменит ли ИИ людей-работников?» . Файнэншл Таймс . Иллюстратор Холли Менгерт, чьи работы использовались для обучения модели ИИ без ее согласия, публично выступила против практики обучения моделей ИИ на работах художников без разрешения.
  8. ^ "Генеративные нейросети и этика: появилась модель, копирующая стиль конкретного художника" . DTF (in Russian). November 9, 2022. Archived from the original on November 9, 2022. Так, совсем недавно известная художница и иллюстратор Холли Менгерт стала своеобразным датасетом для новой нейросети (не давая на то согласия)... «В первую очередь мне показалось бестактным то, что моё имя фигурировало в этом инструменте. Я ничего о нём не знала и меня об этом не спрашивали. А если бы меня спросили, можно ли это сделать, я бы не согласилась». [So, quite recently, the artist and illustrator Hollie Mengert became the data source for a new neural network (without giving her consent)... "My initial reaction was that it felt invasive that my name was on this tool, I didn’t know anything about it and wasn’t asked about it. If I had been asked if they could do this, I wouldn’t have said yes."]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 350d052f030a8b56740d5d53ee6f6ac9__1699101900
URL1:https://arc.ask3.ru/arc/aa/35/c9/350d052f030a8b56740d5d53ee6f6ac9.html
Заголовок, (Title) документа по адресу, URL1:
DreamBooth - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)