Модель преобразования текста в изображение
Модель преобразования текста в изображение — это модель машинного обучения , которая принимает входное описание на естественном языке и создает изображение, соответствующее этому описанию.
Модели преобразования текста в изображение начали разрабатываться в середине 2010-х годов, в начале бума искусственного интеллекта , в результате достижений в области глубоких нейронных сетей . В 2022 году результаты современных моделей преобразования текста в изображение, таких как DALL-E 2 от OpenAI , Google Brain от Imagen от Stability AI , Stable Diffusion и Midjourney , стали считаться приближающимися к качеству. настоящих фотографий нарисованных людьми и произведений искусства, .
Модели преобразования текста в изображение обычно сочетают в себе языковую модель , которая преобразует входной текст в скрытое представление , и генеративную модель изображения , которая создает изображение, обусловленное этим представлением. Наиболее эффективные модели, как правило, обучались на огромных объемах изображений и текстовых данных, взятых из Интернета . [1]
История
[ редактировать ]До появления глубокого обучения попытки создания моделей преобразования текста в изображение ограничивались коллажами путем компоновки существующих изображений компонентов, например, из базы данных клипартов . [2] [3]
Обратная задача — создание подписей к изображениям — была более простой, и ряд моделей глубокого обучения для подписей к изображениям появился раньше, чем первые модели преобразования текста в изображение. [4]
Первая современная модель преобразования текста в изображение, alignDRAW, была представлена в 2015 году исследователями из Университета Торонто . alignDRAW расширил ранее представленную архитектуру DRAW (которая использовала рекуррентный вариационный автокодировщик с механизмом внимания ) для обработки текстовых последовательностей. [4] Изображения, созданные с помощью alignDRAW, имели небольшое разрешение (32×32 пикселя, полученное в результате изменения размера ) и считались «низкими по разнообразию». Модель смогла обобщить объекты, не представленные в обучающих данных (например, красный школьный автобус), и соответствующим образом обработать новые подсказки, такие как «знак остановки летит в голубом небе», демонстрируя выходные данные, которые она не просто «запоминала». данные из обучающего набора . [4] [5]
В 2016 году Рид, Аката, Ян и др. стал первым, кто использовал генеративно-состязательные сети для преобразования текста в изображение. [5] [7] С помощью моделей, обученных на узких наборах данных, специфичных для предметной области, они смогли генерировать «визуально правдоподобные» изображения птиц и цветов из текстовых подписей, таких как «полностью черная птица с отчетливым толстым закругленным клювом» . Модель, обученная на более разнообразном наборе данных COCO (Общие объекты в контексте), создавала изображения, которые были «на расстоянии... обнадеживающими», но которым не хватало связности в деталях. [5] Более поздние системы включают VQGAN-CLIP, [8] XMC-GAN и GauGAN2. [9]
Одной из первых моделей преобразования текста в изображение, привлекших широкое внимание общественности, была OpenAI от DALL-E , система -трансформер , анонсированная в январе 2021 года. [10] Преемник DALL-E 2, способный генерировать более сложные и реалистичные изображения, был представлен в апреле 2022 года. [11] за ним последовал Stable Diffusion , который был публично выпущен в августе 2022 года. [12] В августе 2022 года персонализация преобразования текста в изображение позволяет обучить модель новому понятию, используя небольшой набор изображений нового объекта, который не был включен в обучающий набор базовой модели преобразования текста в изображение. Это достигается путем текстовой инверсии , а именно нахождения нового текстового термина, соответствующего этим изображениям.
Следуя другим моделям преобразования текста в изображение, основе языковых моделей платформы преобразования текста в видео на , такие как Runway, Make-A-Video, [13] Изображение Видео, [14] Середина пути, [15] и Фенаки [16] может генерировать видео из текстовых и/или текстовых/изображений подсказок. [17]
Архитектура и обучение
[ редактировать ]Модели преобразования текста в изображение были построены с использованием различных архитектур. Этап кодирования текста может выполняться с помощью рекуррентной нейронной сети, такой как сеть долговременной краткосрочной памяти (LSTM), хотя модели преобразователей с тех пор стали более популярным вариантом. На этапе генерации изображений условные генеративно-состязательные сети обычно используются (GAN), при этом диффузионные модели также становятся популярным вариантом в последние годы. Вместо того, чтобы напрямую обучать модель выведению изображения с высоким разрешением, обусловленного встраиванием текста, популярный метод состоит в том, чтобы обучить модель генерировать изображения с низким разрешением и использовать одну или несколько вспомогательных моделей глубокого обучения для ее масштабирования, заполняя более мелкие детали. подробности.
Модели преобразования текста в изображение обучаются на больших наборах данных пар (текст, изображение), часто взятых из Интернета. В своей модели Imagen 2022 года компания Google Brain сообщила о положительных результатах использования большой языковой модели, обученной отдельно на текстовом корпусе (с последующим замораживанием ее весов), что является отходом от ранее стандартного подхода. [18]
Наборы данных
[ редактировать ]Для обучения модели преобразования текста в изображение требуется набор данных изображений в сочетании с текстовыми подписями. Одним из наборов данных, обычно используемых для этой цели, является набор данных COCO. Выпущенный Microsoft в 2014 году, COCO состоит из около 123 000 изображений, изображающих разнообразные объекты с пятью подписями к каждому изображению, созданных аннотаторами-людьми. Oxford-120 Flowers и CUB-200 Birds — это небольшие наборы данных, содержащие около 10 000 изображений каждый, ограниченные цветами и птицами соответственно. Считается менее сложным обучить высококачественную модель преобразования текста в изображение с помощью этих наборов данных из-за их узкого диапазона тематики. [7]
Оценка качества
[ редактировать ]Оценка и сравнение качества моделей преобразования текста в изображение — это проблема, связанная с оценкой множества желательных свойств. Желанием, специфичным для моделей преобразования текста в изображение, является то, чтобы создаваемые изображения семантически согласовывались с текстовыми подписями, используемыми для их создания. Для оценки этих качеств был разработан ряд схем, некоторые из которых автоматизированы, а другие основаны на человеческом суждении. [7]
Распространенной алгоритмической метрикой для оценки качества и разнообразия изображений является начальный показатель (IS), который основан на распределении меток, предсказанном предварительно обученной моделью Inceptionv3 классификации изображений при применении к выборке изображений, сгенерированных моделью преобразования текста в изображение. . Оценка увеличивается, когда модель классификации изображений с высокой вероятностью предсказывает одну метку - схема, предназначенная для предпочтения «отдельных» сгенерированных изображений. Другой популярной метрикой является связанное с ней начальное расстояние Фреше , которое сравнивает распределение сгенерированных изображений и реальных обучающих изображений в соответствии с признаками, извлеченными одним из последних слоев предварительно обученной модели классификации изображений. [7]
Влияние и применение
[ редактировать ]Список известных моделей преобразования текста в изображение
[ редактировать ]Имя | Дата выпуска | Разработчик | Лицензия |
---|---|---|---|
ДАЛЛ-И | январь 2021 г. | ОпенАИ | Собственный |
ОТ-Е 2 | апрель 2022 г. | ||
ОТ-Е 3 | сентябрь 2023 г. | ||
Изображение | |||
Изображение 2 | декабрь 2023 г. [22] | ||
Вечеринка | Неизданный | ||
Светлячок | июнь 2023 г. | Adobe Inc. | |
Середина пути | июль 2022 г. | Мидджорни, Инк. | |
Стабильная диффузия | август 2022 г. | Стабильность ИИ | CreativeML Открытый РЕЙЛ-М |
RunwayML | 2018 | Взлетно-посадочная полоса AI, Inc. | Собственный |
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Винсент, Джеймс (24 мая 2022 г.). «Все эти изображения были созданы с помощью новейшего искусственного интеллекта Google для преобразования текста в изображение» . Грань . Вокс Медиа . Проверено 28 мая 2022 г.
- ^ Аньезе, Хорхе; Эррера, Джонатан; Тао, Хайчэн; Чжу, Синцюань (октябрь 2019 г.), Обзор и таксономия состязательных нейронных сетей для синтеза текста в изображение , arXiv : 1910.09399
- ^ Чжу, Сяоцзинь; Голдберг, Эндрю Б.; Эльдави, Мохамед; Дайер, Чарльз Р.; Строк, Брэдли (2007). «Система синтеза текста в изображение для улучшения коммуникации» (PDF) . АААИ . 7 : 1590–1595.
- ^ Перейти обратно: а б с Мансимов, Эльман; Паризотто, Эмилио; Лей Ба, Джимми; Салахутдинов, Руслан (ноябрь 2015 г.). «Создание изображений из подписей с вниманием». ИКЛР . arXiv : 1511.02793 .
- ^ Перейти обратно: а б с Рид, Скотт; Аката, Зейнеп; Логесваран, Лаянуген; Шиле, Бернт; Ли, Хонглак (июнь 2016 г.). «Генераторно-состязательный синтез текста в изображение» (PDF) . Международная конференция по машинному обучению . arXiv : 1605.05396 .
- ^ Мансимов, Эльман; Паризотто, Эмилио; Ба, Джимми Лей; Салахутдинов Руслан (29 февраля 2016 г.). «Создание изображений из подписей с вниманием». Международная конференция по обучению представлений . arXiv : 1511.02793 .
- ^ Перейти обратно: а б с д Фролов Станислав; Хинц, Тобиас; Рауэ, Федерико; Хис, Йорн; Денгель, Андреас (декабрь 2021 г.). «Состязательный синтез текста в изображение: обзор» . Нейронные сети . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . ПМИД 34500257 . S2CID 231698782 .
- ^ Родригес, Хесус (27 сентября 2022 г.). «🌅 Edge#229: VQGAN + CLIP» . Этиquence.substack.com . Проверено 10 октября 2022 г.
- ^ Родригес, Хесус (4 октября 2022 г.). «🎆🌆 Edge#231: Синтез текста в изображение с помощью GAN» . Этиquence.substack.com . Проверено 10 октября 2022 г.
- ^ Колдьюи, Девин (5 января 2021 г.). «DALL-E OpenAI создает правдоподобные изображения буквально всего, что вы попросите» . ТехКранч .
- ^ Колдьюи, Девин (6 апреля 2022 г.). «Новая модель DALL-E от OpenAI рисует что угодно, но больше, лучше и быстрее, чем раньше» . ТехКранч .
- ^ «Публичный выпуск стабильной диффузии» . Стабильность.Ай . Проверено 27 октября 2022 г.
- ^ Кумар, Ашиш (3 октября 2022 г.). «Meta AI представляет «Make-A-Video»: систему искусственного интеллекта, которая генерирует видео из текста» . МаркТехПост . Проверено 3 октября 2022 г.
- ^ Эдвардс, Бендж (05 октября 2022 г.). «Новейший генератор искусственного интеллекта от Google создает HD-видео из текстовых подсказок» . Арс Техника . Проверено 25 октября 2022 г.
- ^ Родригес, Хесус (25 октября 2022 г.). «🎨 Edge#237: Что такое Midjourney?» . Этиquence.substack.com . Проверено 26 октября 2022 г.
- ^ «Фенаки» . phenaki.видео . Проверено 3 октября 2022 г.
- ^ Эдвардс, Бендж (9 сентября 2022 г.). «Runway демонстрирует возможность редактирования текста в видео с помощью искусственного интеллекта с использованием письменных подсказок» . Арс Техника . Проверено 12 сентября 2022 г.
- ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [ cs.CV ].
- ^ Перейти обратно: а б с Элган, Майк (1 ноября 2022 г.). «Как «синтетические медиа» навсегда изменят бизнес» . Компьютерный мир . Проверено 9 ноября 2022 г.
- ^ Руз, Кевин (21 октября 2022 г.). «Искусство, созданное искусственным интеллектом, уже трансформирует творческую работу» . Нью-Йорк Таймс . Проверено 16 ноября 2022 г.
- ^ Перейти обратно: а б Лесвинг, Киф. «Почему Кремниевая долина так взволнована неуклюжими рисунками, сделанными искусственным интеллектом» . CNBC . Проверено 16 ноября 2022 г.
- ^ «Imagen 2 на Vertex AI теперь общедоступен» . Блог Google Cloud . Проверено 02 января 2024 г.