Jump to content

Персонализация преобразования текста в изображение

Персонализация преобразования текста в изображение — это задача глубокого обучения компьютерной графике , которая дополняет предварительно обученные текста в изображение генеративные модели преобразования . В этой задаче генеративная модель, обученная на крупномасштабных данных (обычно базовая модель ), адаптируется таким образом, что она может генерировать изображения новых концепций, предоставленных пользователем. [1] [2] Эти концепции обычно невидимы во время обучения и могут представлять собой конкретные объекты (например, домашнее животное пользователя) или более абстрактные категории (новый художественный стиль). [3] или объектные отношения [4] ).

Методы персонализации преобразования текста в изображение обычно связывают новую (личную) концепцию с новыми словами в словаре модели. Эти слова затем можно будет использовать в будущих подсказках , чтобы вызвать концепцию субъектно-ориентированной генерации. [5] роспись , перенос стиля [6] и даже исправить отклонения в модели. Для этого модели либо оптимизируют встраивание слов , настраивают саму генеративную модель, либо используют комбинацию обоих подходов.

Технология

[ редактировать ]

Персонализация преобразования текста в изображение была впервые предложена в августе 2022 года в двух параллельных работах — Textual Inversion. [7] и DreamBooth . [8]

В обоих случаях пользователь предоставляет несколько изображений (обычно 3–5) понятия, например своей собственной собаки, вместе с приблизительным дескриптором класса понятия (например, словом «собака»). Затем модель учится представлять объект с помощью цели, основанной на реконструкции, где ожидается, что подсказки, относящиеся к объекту, восстановят изображения из обучающего набора.

При текстовой инверсии персонализированные понятия вводятся в модель преобразования текста в изображение путем добавления новых слов в словарь модели. Типичные модели преобразования текста в изображение представляют слова (а иногда и части слов) как токены или индексы в предопределенном словаре. Во время генерации приглашение ввода преобразуется в такие токены, каждый из которых преобразуется в «встраивание слов»: непрерывное векторное представление, которое изучается для каждого токена в рамках обучения модели. Текстовая инверсия предлагает оптимизировать новый вектор встраивания слов для представления новой концепции. Затем этот новый вектор внедрения можно присвоить выбранной пользователем строке и вызывать всякий раз, когда приглашение пользователя содержит эту строку. [7]

В DreamBooth вместо оптимизации нового вектора слов выполняется тонкая настройка самой полной генеративной модели. Пользователь сначала выбирает существующий токен, обычно тот, который редко появляется в подсказках. Сам субъект затем представляется строкой, содержащей этот токен, за которым следует приблизительный дескриптор класса субъекта. Подсказка с описанием предмета тогда примет форму: «Фотография <токена> <класса>» (например, «фотография кота sks» при обучении изображению конкретного кота). Затем модель преобразования текста в изображение настраивается так, что подсказки этой формы будут генерировать изображения объекта. [8]

Текстовая инверсия

[ редактировать ]

Ключевая идея текстовой инверсии заключается в добавлении в словарь диффузионной модели нового термина, соответствующего новому (персонализированному) понятию. Текстовая инверсия оптимизирует векторное внедрение этого нового термина, так что использование его в качестве входной текстовой подсказки будет генерировать изображения, похожие на приведенные примеры изображений этой концепции. Полученная модель чрезвычайно легка в расчете на одну концепцию: ее длина составляет всего 1 КБ, но она позволяет закодировать подробные визуальные свойства концепции.

Расширения

[ редактировать ]

Было предложено несколько подходов для уточнения и улучшения исходных методов. К ним относятся следующие.

  1. Низкоранговая адаптация (LoRA) — метод эффективной точной настройки моделей на основе адаптеров. [9] В случае моделей преобразования текста в изображение LoRA обычно используется для изменения перекрестного внимания слоев модели диффузии . [10]
  2. Перфузия — метод обновления низкого ранга, который также фиксирует активации ключевой матрицы в слоях перекрестного внимания модели диффузии с грубым классом концепции. [11]
  3. Расширенная текстовая инверсия — метод, который изучает встраивание отдельных слов для каждого слоя в сети шумоподавления диффузионной модели. [12]
  4. Методы на основе кодировщика, которые используют другую нейронную сеть для быстрой персонализации модели. [13] [14]

Проблемы и ограничения

[ редактировать ]

Методы персонализации преобразования текста в изображение должны решать несколько проблем. В их основе лежит цель достижения высокой точности личной концепции при сохранении высокого соответствия между новыми подсказками, содержащими предмет, и сгенерированными изображениями (обычно называемыми «редактируемостью»).

Еще одна проблема, с которой приходится сталкиваться методам персонализации, — это требования к памяти. Первоначальные реализации методов персонализации требовали более 20 гигабайт памяти графического процессора, а в более поздних подходах требовалось более 40 гигабайт. [13] Однако такие оптимизации, как Flash Attention [15] с тех пор значительно сократили это требование.

Подходы, настраивающие всю генеративную модель, также могут создавать контрольные точки размером в несколько гигабайт, что затрудняет совместное использование или хранение многих моделей. Подходы, основанные на встраивании, требуют всего несколько килобайт, но обычно с трудом сохраняют идентичность при сохранении редактируемости. Более поздние подходы предложили цели гибридной настройки, которые оптимизируют как встраивание, так и подмножество весов сети. Это может снизить требования к объему хранилища до 100 килобайт, обеспечивая при этом качество, сравнимое с методами полной настройки. [11]

Наконец, процессы оптимизации могут быть длительными и требовать несколько минут настройки для каждой новой концепции. Методы кодирования и быстрой настройки направлены на то, чтобы сократить это время до секунд или меньше. [16]

  1. ^ Мерфи, Брендан Пол (12 октября 2022 г.). «Создание изображений с помощью ИИ развивается с астрономической скоростью. Можем ли мы еще определить, является ли изображение поддельным?» . Разговор . Проверено 14 сентября 2023 г.
  2. ^ «ИИ массово производит изображения, напоминающие ваших любимых персонажей» — технология, которая сжимает концепцию в «слова» и может использоваться в качестве входного текста» . ITmedia NEWS (на японском языке) . Проверено 14 сентября 2023 г.
  3. ^ Байо, Энди (01 ноября 2022 г.). «Инвазионное распространение: как одна невольная иллюстраторша превратилась в модель искусственного интеллекта» . Waxy.org . Проверено 14 сентября 2023 г.
  4. ^ Хуан, Цзыци; У, Тяньсин; Цзян, Юмин; Чан, Кельвин С.К.; Лю, Цивэй (2023). «ReVersion: инверсия отношений на основе диффузии из изображений». arXiv : 2303.13495 [ cs.CV ].
  5. ^ Младший, Эдвард Онгвесо (14 октября 2022 г.). «Люди теперь делают фальшивые селфи с помощью искусственного интеллекта» . Порок . Проверено 20 сентября 2023 г.
  6. ^ Дэйв Джеймс (27 декабря 2022 г.). «Я 8 часов подряд бил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман» . ПК-геймер . Проверено 20 сентября 2023 г.
  7. ^ Перейти обратно: а б Гал, Ринон; Алалуф, Юваль; Ацмон, Юваль; Паташник, Ор; Бермано, Амит Хаим; Чечик, Гал; Коэн-ор, Дэниел (29 сентября 2022 г.). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии» . arXiv : 2208.01618 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  8. ^ Перейти обратно: а б Руис, Натаниэль; Ли, Юаньчжэнь; Джампани, Варун; Притч, Яэль; Рубинштейн, Майкл; Аберман, Кфир (2023). «DreamBooth: точная настройка моделей распространения текста в изображение для создания предметно-ориентированной генерации» : 22500–22510. arXiv : 2208.12242 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  9. ^ Сингх, Нихарика (18 февраля 2023 г.). «HuggingFace публикует сценарии LoRA для эффективной стабильной точной настройки диффузии» . МаркТехПост . Проверено 14 сентября 2023 г.
  10. ^ Ху, Эдвард Дж.; Шен, Йелун; Аллен-Чжу, Цзэюань; Ван, Шин; Чен, Вэйчжу (06 октября 2021 г.) . больших языковых моделей» . arXiv : 2106.09685 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  11. ^ Перейти обратно: а б Тевел, Йоад; Гал, Ринон; Чечик, Гал; Ацмон, Юваль (23 июля 2023 г.). «Редактирование первого ранга с блокировкой клавиш для персонализации преобразования текста в изображение» . Специальная группа по интересам по компьютерной графике и интерактивным технологиям. Материалы конференции . СИГРАФ '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–11. arXiv : 2305.01644 . дои : 10.1145/3588432.3591506 . ISBN  979-8-4007-0159-7 . S2CID   258436985 .
  12. ^ Лоренци, Даниэле (22 июля 2023 г.). «Знакомьтесь с P+: богатое пространство встраивания для расширенной текстовой инверсии при преобразовании текста в изображение» . МаркТехПост . Проверено 29 августа 2023 г.
  13. ^ Перейти обратно: а б Гал, Ринон; Арар, Моав; Ацмон, Юваль; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (26 июля 2023 г.). «Настройка домена на основе кодировщика для быстрой персонализации моделей преобразования текста в изображение» . Транзакции ACM с графикой . 42 (4): 150:1–150:13. arXiv : 2302.12228 . дои : 10.1145/3592133 . ISSN   0730-0301 . S2CID   257364757 .
  14. ^ Цзо, Ванмэн (2023 Вэй, Юйсян, Ябо ; Цзи, Цзиньфэн ; ) . cs.CV ].
  15. ^ Дао, Три; Фу, Дэниел Ю.; Эрмон, Стефано; Рудра, Атри; Ре, Кристофер (2022). «FlashAttention: быстрое и эффективное использование памяти точное внимание с учетом ввода-вывода». arXiv : 2205.14135 [ cs.LG ].
  16. ^ Ши, Цзин; Сюн, Вэй; Линь, Чжэ; Чон, Хён Джун (2023). «InstantBooth: персонализированное преобразование текста в изображение без точной настройки во время тестирования». arXiv : 2304.03411 [ cs.CV ].
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8618baacf8a53eee1fc4f7c3578ab9a5__1719390180
URL1:https://arc.ask3.ru/arc/aa/86/a5/8618baacf8a53eee1fc4f7c3578ab9a5.html
Заголовок, (Title) документа по адресу, URL1:
Text-to-image personalization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)