Персонализация преобразования текста в изображение
Персонализация преобразования текста в изображение — это задача глубокого обучения компьютерной графике , которая дополняет предварительно обученные текста в изображение генеративные модели преобразования . В этой задаче генеративная модель, обученная на крупномасштабных данных (обычно базовая модель ), адаптируется таким образом, что она может генерировать изображения новых концепций, предоставленных пользователем. [1] [2] Эти концепции обычно невидимы во время обучения и могут представлять собой конкретные объекты (например, домашнее животное пользователя) или более абстрактные категории (новый художественный стиль). [3] или объектные отношения [4] ).
Методы персонализации преобразования текста в изображение обычно связывают новую (личную) концепцию с новыми словами в словаре модели. Эти слова затем можно будет использовать в будущих подсказках , чтобы вызвать концепцию субъектно-ориентированной генерации. [5] роспись , перенос стиля [6] и даже исправить отклонения в модели. Для этого модели либо оптимизируют встраивание слов , настраивают саму генеративную модель, либо используют комбинацию обоих подходов.
Технология
[ редактировать ]Персонализация преобразования текста в изображение была впервые предложена в августе 2022 года в двух параллельных работах — Textual Inversion. [7] и DreamBooth . [8]
В обоих случаях пользователь предоставляет несколько изображений (обычно 3–5) понятия, например своей собственной собаки, вместе с приблизительным дескриптором класса понятия (например, словом «собака»). Затем модель учится представлять объект с помощью цели, основанной на реконструкции, где ожидается, что подсказки, относящиеся к объекту, восстановят изображения из обучающего набора.
При текстовой инверсии персонализированные понятия вводятся в модель преобразования текста в изображение путем добавления новых слов в словарь модели. Типичные модели преобразования текста в изображение представляют слова (а иногда и части слов) как токены или индексы в предопределенном словаре. Во время генерации приглашение ввода преобразуется в такие токены, каждый из которых преобразуется в «встраивание слов»: непрерывное векторное представление, которое изучается для каждого токена в рамках обучения модели. Текстовая инверсия предлагает оптимизировать новый вектор встраивания слов для представления новой концепции. Затем этот новый вектор внедрения можно присвоить выбранной пользователем строке и вызывать всякий раз, когда приглашение пользователя содержит эту строку. [7]
В DreamBooth вместо оптимизации нового вектора слов выполняется тонкая настройка самой полной генеративной модели. Пользователь сначала выбирает существующий токен, обычно тот, который редко появляется в подсказках. Сам субъект затем представляется строкой, содержащей этот токен, за которым следует приблизительный дескриптор класса субъекта. Подсказка с описанием предмета тогда примет форму: «Фотография <токена> <класса>» (например, «фотография кота sks» при обучении изображению конкретного кота). Затем модель преобразования текста в изображение настраивается так, что подсказки этой формы будут генерировать изображения объекта. [8]
Текстовая инверсия
[ редактировать ]Ключевая идея текстовой инверсии заключается в добавлении в словарь диффузионной модели нового термина, соответствующего новому (персонализированному) понятию. Текстовая инверсия оптимизирует векторное внедрение этого нового термина, так что использование его в качестве входной текстовой подсказки будет генерировать изображения, похожие на приведенные примеры изображений этой концепции. Полученная модель чрезвычайно легка в расчете на одну концепцию: ее длина составляет всего 1 КБ, но она позволяет закодировать подробные визуальные свойства концепции.
Расширения
[ редактировать ]Было предложено несколько подходов для уточнения и улучшения исходных методов. К ним относятся следующие.
- Низкоранговая адаптация (LoRA) — метод эффективной точной настройки моделей на основе адаптеров. [9] В случае моделей преобразования текста в изображение LoRA обычно используется для изменения перекрестного внимания слоев модели диффузии . [10]
- Перфузия — метод обновления низкого ранга, который также фиксирует активации ключевой матрицы в слоях перекрестного внимания модели диффузии с грубым классом концепции. [11]
- Расширенная текстовая инверсия — метод, который изучает встраивание отдельных слов для каждого слоя в сети шумоподавления диффузионной модели. [12]
- Методы на основе кодировщика, которые используют другую нейронную сеть для быстрой персонализации модели. [13] [14]
Проблемы и ограничения
[ редактировать ]Методы персонализации преобразования текста в изображение должны решать несколько проблем. В их основе лежит цель достижения высокой точности личной концепции при сохранении высокого соответствия между новыми подсказками, содержащими предмет, и сгенерированными изображениями (обычно называемыми «редактируемостью»).
Еще одна проблема, с которой приходится сталкиваться методам персонализации, — это требования к памяти. Первоначальные реализации методов персонализации требовали более 20 гигабайт памяти графического процессора, а в более поздних подходах требовалось более 40 гигабайт. [13] Однако такие оптимизации, как Flash Attention [15] с тех пор значительно сократили это требование.
Подходы, настраивающие всю генеративную модель, также могут создавать контрольные точки размером в несколько гигабайт, что затрудняет совместное использование или хранение многих моделей. Подходы, основанные на встраивании, требуют всего несколько килобайт, но обычно с трудом сохраняют идентичность при сохранении редактируемости. Более поздние подходы предложили цели гибридной настройки, которые оптимизируют как встраивание, так и подмножество весов сети. Это может снизить требования к объему хранилища до 100 килобайт, обеспечивая при этом качество, сравнимое с методами полной настройки. [11]
Наконец, процессы оптимизации могут быть длительными и требовать несколько минут настройки для каждой новой концепции. Методы кодирования и быстрой настройки направлены на то, чтобы сократить это время до секунд или меньше. [16]
Ссылки
[ редактировать ]- ^ Мерфи, Брендан Пол (12 октября 2022 г.). «Создание изображений с помощью ИИ развивается с астрономической скоростью. Можем ли мы еще определить, является ли изображение поддельным?» . Разговор . Проверено 14 сентября 2023 г.
- ^ «ИИ массово производит изображения, напоминающие ваших любимых персонажей» — технология, которая сжимает концепцию в «слова» и может использоваться в качестве входного текста» . ITmedia NEWS (на японском языке) . Проверено 14 сентября 2023 г.
- ^ Байо, Энди (01 ноября 2022 г.). «Инвазионное распространение: как одна невольная иллюстраторша превратилась в модель искусственного интеллекта» . Waxy.org . Проверено 14 сентября 2023 г.
- ^ Хуан, Цзыци; У, Тяньсин; Цзян, Юмин; Чан, Кельвин С.К.; Лю, Цивэй (2023). «ReVersion: инверсия отношений на основе диффузии из изображений». arXiv : 2303.13495 [ cs.CV ].
- ^ Младший, Эдвард Онгвесо (14 октября 2022 г.). «Люди теперь делают фальшивые селфи с помощью искусственного интеллекта» . Порок . Проверено 20 сентября 2023 г.
- ^ Дэйв Джеймс (27 декабря 2022 г.). «Я 8 часов подряд бил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман» . ПК-геймер . Проверено 20 сентября 2023 г.
- ^ Перейти обратно: а б Гал, Ринон; Алалуф, Юваль; Ацмон, Юваль; Паташник, Ор; Бермано, Амит Хаим; Чечик, Гал; Коэн-ор, Дэниел (29 сентября 2022 г.). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии» . arXiv : 2208.01618 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Перейти обратно: а б Руис, Натаниэль; Ли, Юаньчжэнь; Джампани, Варун; Притч, Яэль; Рубинштейн, Майкл; Аберман, Кфир (2023). «DreamBooth: точная настройка моделей распространения текста в изображение для создания предметно-ориентированной генерации» : 22500–22510. arXiv : 2208.12242 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Сингх, Нихарика (18 февраля 2023 г.). «HuggingFace публикует сценарии LoRA для эффективной стабильной точной настройки диффузии» . МаркТехПост . Проверено 14 сентября 2023 г.
- ^ Ху, Эдвард Дж.; Шен, Йелун; Аллен-Чжу, Цзэюань; Ван, Шин; Чен, Вэйчжу (06 октября 2021 г.) . больших языковых моделей» . arXiv : 2106.09685 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Перейти обратно: а б Тевел, Йоад; Гал, Ринон; Чечик, Гал; Ацмон, Юваль (23 июля 2023 г.). «Редактирование первого ранга с блокировкой клавиш для персонализации преобразования текста в изображение» . Специальная группа по интересам по компьютерной графике и интерактивным технологиям. Материалы конференции . СИГРАФ '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–11. arXiv : 2305.01644 . дои : 10.1145/3588432.3591506 . ISBN 979-8-4007-0159-7 . S2CID 258436985 .
- ^ Лоренци, Даниэле (22 июля 2023 г.). «Знакомьтесь с P+: богатое пространство встраивания для расширенной текстовой инверсии при преобразовании текста в изображение» . МаркТехПост . Проверено 29 августа 2023 г.
- ^ Перейти обратно: а б Гал, Ринон; Арар, Моав; Ацмон, Юваль; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (26 июля 2023 г.). «Настройка домена на основе кодировщика для быстрой персонализации моделей преобразования текста в изображение» . Транзакции ACM с графикой . 42 (4): 150:1–150:13. arXiv : 2302.12228 . дои : 10.1145/3592133 . ISSN 0730-0301 . S2CID 257364757 .
- ^ Цзо, Ванмэн (2023 Вэй, Юйсян, Ябо ; Цзи, Цзиньфэн ; ) . cs.CV ].
- ^ Дао, Три; Фу, Дэниел Ю.; Эрмон, Стефано; Рудра, Атри; Ре, Кристофер (2022). «FlashAttention: быстрое и эффективное использование памяти точное внимание с учетом ввода-вывода». arXiv : 2205.14135 [ cs.LG ].
- ^ Ши, Цзин; Сюн, Вэй; Линь, Чжэ; Чон, Хён Джун (2023). «InstantBooth: персонализированное преобразование текста в изображение без точной настройки во время тестирования». arXiv : 2304.03411 [ cs.CV ].