Модель преобразования текста в изображение

Модель преобразования текста в изображение — это модель машинного обучения , которая принимает входное описание на естественном языке и создает изображение, соответствующее этому описанию.

Модели преобразования текста в изображение начали разрабатываться в середине 2010-х годов, в начале бума искусственного интеллекта , в результате достижений в области глубоких нейронных сетей . В 2022 году результаты современных моделей преобразования текста в изображение, таких как DALL-E 2 от OpenAI , Google Brain от Imagen от Stability AI , Stable Diffusion и Midjourney , стали считаться приближающимися к качеству. настоящих фотографий нарисованных людьми и произведений искусства, .

Модели преобразования текста в изображение обычно сочетают в себе языковую модель , которая преобразует входной текст в скрытое представление , и генеративную модель изображения , которая создает изображение, обусловленное этим представлением. Наиболее эффективные модели, как правило, обучались на огромных объемах изображений и текстовых данных, взятых из Интернета . ^[1]

История [ править ]

До появления глубокого обучения попытки создания моделей преобразования текста в изображение ограничивались коллажами путем компоновки существующих изображений компонентов, например, из базы данных клипартов . ^[2]^[3]

Обратная задача — создание подписей к изображениям — была более простой, и ряд моделей глубокого обучения для подписей к изображениям появился раньше первых моделей преобразования текста в изображение. ^[4]

Первая современная модель преобразования текста в изображение, alignDRAW, была представлена в 2015 году исследователями из Университета Торонто . alignDRAW расширил ранее представленную архитектуру DRAW (которая использовала рекуррентный вариационный автокодировщик с механизмом внимания ) для обработки текстовых последовательностей. ^[4] Изображения, созданные с помощью alignDRAW, имели небольшое разрешение (32×32 пикселя, полученное в результате изменения размера ) и считались «низкими по разнообразию». Модель смогла обобщить объекты, не представленные в обучающих данных (например, красный школьный автобус), и соответствующим образом обработать новые подсказки, такие как «знак остановки летит в голубом небе», демонстрируя выходные данные, которые она не просто «запоминала». данные из обучающего набора . ^[4]^[5]

Восемь изображений, созданных из текстовой подсказки «Знак остановки летит в голубом небе». автор AlignDRAW (2015). Увеличено, чтобы показать детали. ^[6]

В 2016 году Рид, Аката, Ян и др. стал первым, кто использовал генеративно-состязательные сети для преобразования текста в изображение. ^[5]^[7] С помощью моделей, обученных на узких наборах данных, специфичных для конкретной предметной области, они смогли генерировать «визуально правдоподобные» изображения птиц и цветов из текстовых подписей, таких как «полностью черная птица с отчетливым толстым закругленным клювом». Модель, обученная на более разнообразном наборе данных COCO (Общие объекты в контексте), создавала изображения, которые были «на расстоянии... обнадеживающими», но которым не хватало связности в деталях. ^[5] Более поздние системы включают VQGAN-CLIP, ^[8] XMC-GAN и GauGAN2. ^[9]

Аппараты DALL·E 2 (вверху, апрель 2022 г.) и DALL·E 3 (внизу, сентябрь 2023 г.) создали изображения для подсказки «Знак остановки летит в голубом небе».

Одной из первых моделей преобразования текста в изображение, привлекших широкое внимание общественности, была OpenAI от DALL-E , система -трансформер , анонсированная в январе 2021 года. ^[10] Преемник DALL-E 2, способный генерировать более сложные и реалистичные изображения, был представлен в апреле 2022 года. ^[11] за ним последовал Stable Diffusion , который был публично выпущен в августе 2022 года. ^[12] В августе 2022 года персонализация преобразования текста в изображение позволяет обучить модель новому понятию, используя небольшой набор изображений нового объекта, который не был включен в обучающий набор базовой модели преобразования текста в изображение. Это достигается путем текстовой инверсии , а именно нахождения нового текстового термина, соответствующего этим изображениям.

Следуя другим моделям преобразования текста в изображение, основе языковых моделей платформы преобразования текста в видео на , такие как Runway, Make-A-Video, ^[13] Изображение Видео, ^[14] Середина пути, ^[15] и Фенаки ^[16] может генерировать видео из текстовых и/или текстовых/изображений подсказок. ^[17]

и Архитектура обучение

Модели преобразования текста в изображение были построены с использованием различных архитектур. Этап кодирования текста может выполняться с помощью рекуррентной нейронной сети, такой как сеть долговременной краткосрочной памяти (LSTM), хотя модели преобразователей с тех пор стали более популярным вариантом. На этапе генерации изображений условные генеративно-состязательные сети обычно используются (GAN), при этом диффузионные модели также становятся популярным вариантом в последние годы. Вместо того, чтобы напрямую обучать модель для вывода изображения с высоким разрешением, обусловленного встраиванием текста, популярный метод состоит в том, чтобы обучить модель генерировать изображения с низким разрешением и использовать одну или несколько вспомогательных моделей глубокого обучения для ее масштабирования, заполняя более мелкие детали. подробности.

Модели преобразования текста в изображение обучаются на больших наборах данных пар (текст, изображение), часто взятых из Интернета. В своей модели Imagen 2022 года компания Google Brain сообщила о положительных результатах использования большой языковой модели, обученной отдельно на текстовом корпусе (с последующим замораживанием ее весов), что является отходом от ранее стандартного подхода. ^[18]

Наборы данных [ править ]

Для обучения модели преобразования текста в изображение требуется набор данных изображений в сочетании с текстовыми подписями. Одним из наборов данных, обычно используемых для этой цели, является набор данных COCO. Выпущенный Microsoft в 2014 году, COCO состоит из около 123 000 изображений, изображающих разнообразные объекты с пятью подписями к каждому изображению, созданных аннотаторами-людьми. Oxford-120 Flowers и CUB-200 Birds — это небольшие наборы данных, содержащие около 10 000 изображений каждый, ограниченные цветами и птицами соответственно. Считается менее сложным обучить высококачественную модель преобразования текста в изображение с помощью этих наборов данных из-за их узкого диапазона тематики. ^[7]

Оценка качества [ править ]

Оценка и сравнение качества моделей преобразования текста в изображение — это проблема, связанная с оценкой множества желательных свойств. Желанием, специфичным для моделей преобразования текста в изображение, является то, чтобы создаваемые изображения семантически согласовывались с текстовыми подписями, используемыми для их создания. Для оценки этих качеств был разработан ряд схем, некоторые из которых автоматизированы, а другие основаны на человеческом суждении. ^[7]

Распространенной алгоритмической метрикой для оценки качества и разнообразия изображений является начальный показатель (IS), который основан на распределении меток, предсказанном предварительно обученной моделью Inceptionv3 классификации изображений при применении к выборке изображений, сгенерированных моделью преобразования текста в изображение. . Оценка увеличивается, когда модель классификации изображений с высокой вероятностью предсказывает одну метку - схема, предназначенная для предпочтения «отдельных» сгенерированных изображений. Другой популярной метрикой является связанное с ней начальное расстояние Фреше , которое сравнивает распределение сгенерированных изображений и реальных обучающих изображений в соответствии с признаками, извлеченными одним из последних слоев предварительно обученной модели классификации изображений. ^[7]

Влияние и применение [ править ]

ИИ обладает потенциалом для социальной трансформации , которая может включать расширение некоммерческих нишевых жанров (таких как производные от киберпанка , такие как солярпанк ) любителями, новые развлечения, быстрое прототипирование, ^[19] повышение доступности произведений искусства, ^[19] и художественный результат в расчете на усилия и/или затраты и/или время ^[19]— например, посредством создания черновиков, черновых доработок и компонентов изображения ( inpainting ). Сгенерированные изображения иногда используются в качестве эскизов. ^[20] недорогие эксперименты, ^[21] вдохновение или иллюстрации идей на этапе проверки концепции . Дополнительные функциональные возможности или улучшения могут также относиться к ручному редактированию после создания (т. е. доработке), например, к последующей настройке с помощью редактора изображений. ^[21]

Список известных моделей в изображение текста преобразования


Имя	Дата выпуска	Разработчик	Лицензия
ДАЛЛ-И	январь 2021 г.	ОпенАИ	Собственный
ОТ-Е 2	апрель 2022 г.
ОТ-Е 3	сентябрь 2023 г.
Изображение		Google
Изображение 2	декабрь 2023 г. ^[22]
Вечеринка	Неизданный
Светлячок	июнь 2023 г.	Adobe Inc.
Середина пути	июль 2022 г.	Мидджорни, Инк.
Стабильная диффузия	август 2022 г.	Стабильность ИИ	Креативный ML, OpenRAIL-M}
RunwayML	2018	Взлетно-посадочная полоса AI, Inc.	Собственный

См. также [ править ]

Искусство искусственного интеллекта

Ссылки [ править ]

^ Винсент, Джеймс (24 мая 2022 г.). «Все эти изображения были созданы с помощью новейшего искусственного интеллекта Google для преобразования текста в изображение» . Грань . Вокс Медиа . Проверено 28 мая 2022 г.
^ Аньезе, Хорхе; Эррера, Джонатан; Тао, Хайчэн; Чжу, Синцюань (октябрь 2019 г.), Обзор и таксономия состязательных нейронных сетей для синтеза текста в изображение , arXiv : 1910.09399
^ Чжу, Сяоцзинь; Голдберг, Эндрю Б.; Эльдави, Мохамед; Дайер, Чарльз Р.; Строк, Брэдли (2007). «Система синтеза текста в изображение для улучшения коммуникации» (PDF) . АААИ . 7 : 1590–1595.
^ Jump up to: Перейти обратно: ^а ^б ^с Мансимов, Эльман; Паризотто, Эмилио; Лей Ба, Джимми; Салахутдинов, Руслан (ноябрь 2015 г.). «Создание изображений из подписей с вниманием». ИКЛР . arXiv : 1511.02793 .
^ Jump up to: Перейти обратно: ^а ^б ^с Рид, Скотт; Аката, Зейнеп; Логесваран, Лаянуген; Шиле, Бернт; Ли, Хонглак (июнь 2016 г.). «Генераторно-состязательный синтез текста в изображение» (PDF) . Международная конференция по машинному обучению .
^ Мансимов, Эльман; Паризотто, Эмилио; Ба, Джимми Лей; Салахутдинов Руслан (29 февраля 2016 г.). «Создание изображений из подписей с вниманием». Международная конференция по обучению представлений . arXiv : 1511.02793 .
^ Jump up to: Перейти обратно: ^а ^б ^с ^д Фролов Станислав; Хинц, Тобиас; Рауэ, Федерико; Хис, Йорн; Денгель, Андреас (декабрь 2021 г.). «Состязательный синтез текста в изображение: обзор» . Нейронные сети . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . ПМИД 34500257 . S2CID 231698782 .
^ Родригес, Хесус. «🌅 Edge#229: VQGAN + CLIP» . Этиquence.substack.com . Проверено 10 октября 2022 г.
^ Родригес, Хесус. «🎆🌆 Edge#231: Синтез текста в изображение с помощью GAN» . Этиquence.substack.com . Проверено 10 октября 2022 г.
^ Колдьюи, Девин (5 января 2021 г.). «DALL-E OpenAI создает правдоподобные изображения буквально всего, что вы попросите» . ТехКранч .
^ Колдьюи, Девин (6 апреля 2022 г.). «Новая модель DALL-E от OpenAI рисует что угодно, но больше, лучше и быстрее, чем раньше» . ТехКранч .
^ «Публичный выпуск стабильной диффузии» . Стабильность.Ай . Проверено 27 октября 2022 г.
^ Кумар, Ашиш (3 октября 2022 г.). «Meta AI представляет «Make-A-Video»: систему искусственного интеллекта, которая генерирует видео из текста» . МаркТехПост . Проверено 3 октября 2022 г.
^ Эдвардс, Бендж (05 октября 2022 г.). «Новейший генератор искусственного интеллекта Google создает HD-видео из текстовых подсказок» . Арс Техника . Проверено 25 октября 2022 г.
^ Родригес, Хесус. «🎨 Edge#237: Что такое Midjourney?» . Этиquence.substack.com . Проверено 26 октября 2022 г.
^ «Фенаки» . phenaki.видео . Проверено 3 октября 2022 г.
^ Эдвардс, Бендж (9 сентября 2022 г.). «Подиум демонстрирует возможность редактирования текста в видео с помощью искусственного интеллекта с использованием письменных подсказок» . Арс Техника . Проверено 12 сентября 2022 г.
^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [ cs.CV ].
^ Jump up to: Перейти обратно: ^а ^б ^с Элган, Майк (1 ноября 2022 г.). «Как «синтетические медиа» навсегда изменят бизнес» . Компьютерный мир . Проверено 9 ноября 2022 г.
^ Руз, Кевин (21 октября 2022 г.). «Искусство, созданное искусственным интеллектом, уже трансформирует творческую работу» . Нью-Йорк Таймс . Проверено 16 ноября 2022 г.
^ Jump up to: Перейти обратно: ^а ^б Лесвинг, Киф. «Почему Кремниевая долина так взволнована неуклюжими рисунками, сделанными искусственным интеллектом» . CNBC . Проверено 16 ноября 2022 г.
^ «Imagen 2 на Vertex AI теперь общедоступен» . Блог Google Cloud . Проверено 02 января 2024 г.

[imagen-verge-1] Винсент, Джеймс (24 мая 2022 г.). «Все эти изображения были созданы с помощью новейшего искусственного интеллекта Google для преобразования текста в изображение» . Грань . Вокс Медиа . Проверено 28 мая 2022 г.

[agnese-2] Аньезе, Хорхе; Эррера, Джонатан; Тао, Хайчэн; Чжу, Синцюань (октябрь 2019 г.), Обзор и таксономия состязательных нейронных сетей для синтеза текста в изображение , arXiv : 1910.09399

[zhu-2007-3] Чжу, Сяоцзинь; Голдберг, Эндрю Б.; Эльдави, Мохамед; Дайер, Чарльз Р.; Строк, Брэдли (2007). «Система синтеза текста в изображение для улучшения коммуникации» (PDF) . АААИ . 7 : 1590–1595.

[mansimov-2015-4] Jump up to: Перейти обратно: ^а ^б ^с Мансимов, Эльман; Паризотто, Эмилио; Лей Ба, Джимми; Салахутдинов, Руслан (ноябрь 2015 г.). «Создание изображений из подписей с вниманием». ИКЛР . arXiv : 1511.02793 .

[reed-2016-5] Jump up to: Перейти обратно: ^а ^б ^с Рид, Скотт; Аката, Зейнеп; Логесваран, Лаянуген; Шиле, Бернт; Ли, Хонглак (июнь 2016 г.). «Генераторно-состязательный синтез текста в изображение» (PDF) . Международная конференция по машинному обучению .

[6] Мансимов, Эльман; Паризотто, Эмилио; Ба, Джимми Лей; Салахутдинов Руслан (29 февраля 2016 г.). «Создание изображений из подписей с вниманием». Международная конференция по обучению представлений . arXiv : 1511.02793 .

[frolov-7] Jump up to: Перейти обратно: ^а ^б ^с ^д Фролов Станислав; Хинц, Тобиас; Рауэ, Федерико; Хис, Йорн; Денгель, Андреас (декабрь 2021 г.). «Состязательный синтез текста в изображение: обзор» . Нейронные сети . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . ПМИД 34500257 . S2CID 231698782 .

[8] Родригес, Хесус. «🌅 Edge#229: VQGAN + CLIP» . Этиquence.substack.com . Проверено 10 октября 2022 г.

[9] Родригес, Хесус. «🎆🌆 Edge#231: Синтез текста в изображение с помощью GAN» . Этиquence.substack.com . Проверено 10 октября 2022 г.

[tc-dalle-10] Колдьюи, Девин (5 января 2021 г.). «DALL-E OpenAI создает правдоподобные изображения буквально всего, что вы попросите» . ТехКранч .

[tc-dalle-2-11] Колдьюи, Девин (6 апреля 2022 г.). «Новая модель DALL-E от OpenAI рисует что угодно, но больше, лучше и быстрее, чем раньше» . ТехКранч .

[12] «Публичный выпуск стабильной диффузии» . Стабильность.Ай . Проверено 27 октября 2022 г.

[13] Кумар, Ашиш (3 октября 2022 г.). «Meta AI представляет «Make-A-Video»: систему искусственного интеллекта, которая генерирует видео из текста» . МаркТехПост . Проверено 3 октября 2022 г.

[14] Эдвардс, Бендж (05 октября 2022 г.). «Новейший генератор искусственного интеллекта Google создает HD-видео из текстовых подсказок» . Арс Техника . Проверено 25 октября 2022 г.

[15] Родригес, Хесус. «🎨 Edge#237: Что такое Midjourney?» . Этиquence.substack.com . Проверено 26 октября 2022 г.

[16] «Фенаки» . phenaki.видео . Проверено 3 октября 2022 г.

[17] Эдвардс, Бендж (9 сентября 2022 г.). «Подиум демонстрирует возможность редактирования текста в видео с помощью искусственного интеллекта с использованием письменных подсказок» . Арс Техника . Проверено 12 сентября 2022 г.

[imagen-paper-18] Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [ cs.CV ].

[Artificial_intelligence_art_computerworld-19] Jump up to: Перейти обратно: ^а ^б ^с Элган, Майк (1 ноября 2022 г.). «Как «синтетические медиа» навсегда изменят бизнес» . Компьютерный мир . Проверено 9 ноября 2022 г.

[Artificial_intelligence_art_nytimesRoose-20] Руз, Кевин (21 октября 2022 г.). «Искусство, созданное искусственным интеллектом, уже трансформирует творческую работу» . Нью-Йорк Таймс . Проверено 16 ноября 2022 г.

[Artificial_intelligence_art_CNBCLeswing-21] Jump up to: Перейти обратно: ^а ^б Лесвинг, Киф. «Почему Кремниевая долина так взволнована неуклюжими рисунками, сделанными искусственным интеллектом» . CNBC . Проверено 16 ноября 2022 г.

[22] «Imagen 2 на Vertex AI теперь общедоступен» . Блог Google Cloud . Проверено 02 января 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]