Jump to content

Модель преобразования текста в изображение

(Перенаправлено из «Текст в изображение» )
Изображение, созданное на основе подсказки «Астронавт верхом на лошади, автор Хиросигэ », созданное с помощью Stable Diffusion , крупномасштабной модели преобразования текста в изображение, выпущенной в 2022 году.

Модель преобразования текста в изображение — это модель машинного обучения , которая принимает входное описание на естественном языке и создает изображение, соответствующее этому описанию.

Модели преобразования текста в изображение начали разрабатываться в середине 2010-х годов, в начале бума искусственного интеллекта , в результате достижений в области глубоких нейронных сетей . В 2022 году результаты современных моделей преобразования текста в изображение, таких как DALL-E 2 от OpenAI , Google Brain от Imagen от Stability AI , Stable Diffusion и Midjourney , стали считаться приближающимися к качеству. настоящих фотографий нарисованных людьми и произведений искусства, .

Модели преобразования текста в изображение обычно сочетают в себе языковую модель , которая преобразует входной текст в скрытое представление , и генеративную модель изображения , которая создает изображение, обусловленное этим представлением. Наиболее эффективные модели, как правило, обучались на огромных объемах изображений и текстовых данных, взятых из Интернета . [1]

До появления глубокого обучения попытки создания моделей преобразования текста в изображение ограничивались коллажами путем компоновки существующих изображений компонентов, например, из базы данных клипартов . [2] [3]

Обратная задача — создание подписей к изображениям — была более простой, и ряд моделей глубокого обучения для подписей к изображениям появился раньше, чем первые модели преобразования текста в изображение. [4]

Первая современная модель преобразования текста в изображение, alignDRAW, была представлена ​​в 2015 году исследователями из Университета Торонто . alignDRAW расширил ранее представленную архитектуру DRAW (которая использовала рекуррентный вариационный автокодировщик с механизмом внимания ) для обработки текстовых последовательностей. [4] Изображения, созданные с помощью alignDRAW, имели небольшое разрешение (32×32 пикселя, полученное в результате изменения размера ) и считались «низкими по разнообразию». Модель смогла обобщить объекты, не представленные в обучающих данных (например, красный школьный автобус), и соответствующим образом обработать новые подсказки, такие как «знак остановки летит в голубом небе», демонстрируя выходные данные, которые она не просто «запоминала». данные из обучающего набора . [4] [5]

Восемь изображений, созданных из текстовой подсказки «Знак остановки летит в голубом небе». автор AlignDRAW (2015). Увеличено, чтобы показать детали. [6]

В 2016 году Рид, Аката, Ян и др. стал первым, кто использовал генеративно-состязательные сети для преобразования текста в изображение. [5] [7] С помощью моделей, обученных на узких наборах данных, специфичных для предметной области, они смогли генерировать «визуально правдоподобные» изображения птиц и цветов из текстовых подписей, таких как «полностью черная птица с отчетливым толстым закругленным клювом» . Модель, обученная на более разнообразном наборе данных COCO (Общие объекты в контексте), создавала изображения, которые были «на расстоянии... обнадеживающими», но которым не хватало связности в деталях. [5] Более поздние системы включают VQGAN-CLIP, [8] XMC-GAN и GauGAN2. [9]

DALL·E 2 (вверху, апрель 2022 г.) и DALL·E 3 (внизу, сентябрь 2023 г.) создали изображения для подсказки «Знак остановки летит в голубом небе».

Одной из первых моделей преобразования текста в изображение, привлекших широкое внимание общественности, была OpenAI от DALL-E , система -трансформер , анонсированная в январе 2021 года. [10] Преемник DALL-E 2, способный генерировать более сложные и реалистичные изображения, был представлен в апреле 2022 года. [11] за ним последовал Stable Diffusion , который был публично выпущен в августе 2022 года. [12] В августе 2022 года персонализация преобразования текста в изображение позволяет обучить модель новому понятию, используя небольшой набор изображений нового объекта, который не был включен в обучающий набор базовой модели преобразования текста в изображение. Это достигается путем текстовой инверсии , а именно нахождения нового текстового термина, соответствующего этим изображениям.

Следуя другим моделям преобразования текста в изображение, основе языковых моделей платформы преобразования текста в видео на , такие как Runway, Make-A-Video, [13] Изображение Видео, [14] Середина пути, [15] и Фенаки [16] может генерировать видео из текстовых и/или текстовых/изображений подсказок. [17]

Архитектура и обучение

[ редактировать ]
Архитектура высокого уровня, показывающая современное состояние моделей машинного обучения искусственного интеллекта, а также известные модели и приложения в виде интерактивной карты изображений SVG.

Модели преобразования текста в изображение были построены с использованием различных архитектур. Этап кодирования текста может выполняться с помощью рекуррентной нейронной сети, такой как сеть долговременной краткосрочной памяти (LSTM), хотя модели преобразователей с тех пор стали более популярным вариантом. На этапе генерации изображений условные генеративно-состязательные сети обычно используются (GAN), при этом диффузионные модели также становятся популярным вариантом в последние годы. Вместо того, чтобы напрямую обучать модель выведению изображения с высоким разрешением, обусловленного встраиванием текста, популярный метод состоит в том, чтобы обучить модель генерировать изображения с низким разрешением и использовать одну или несколько вспомогательных моделей глубокого обучения для ее масштабирования, заполняя более мелкие детали. подробности.

Модели преобразования текста в изображение обучаются на больших наборах данных пар (текст, изображение), часто взятых из Интернета. В своей модели Imagen 2022 года компания Google Brain сообщила о положительных результатах использования большой языковой модели, обученной отдельно на текстовом корпусе (с последующим замораживанием ее весов), что является отходом от ранее стандартного подхода. [18]

Наборы данных

[ редактировать ]
Примеры изображений и подписей из трех общедоступных наборов данных, которые обычно используются для обучения моделей преобразования текста в изображение.

Для обучения модели преобразования текста в изображение требуется набор данных изображений в сочетании с текстовыми подписями. Одним из наборов данных, обычно используемых для этой цели, является набор данных COCO. Выпущенный Microsoft в 2014 году, COCO состоит из около 123 000 изображений, изображающих разнообразные объекты с пятью подписями к каждому изображению, созданных аннотаторами-людьми. Oxford-120 Flowers и CUB-200 Birds — это небольшие наборы данных, содержащие около 10 000 изображений каждый, ограниченные цветами и птицами соответственно. Считается менее сложным обучить высококачественную модель преобразования текста в изображение с помощью этих наборов данных из-за их узкого диапазона тематики. [7]

Оценка качества

[ редактировать ]

Оценка и сравнение качества моделей преобразования текста в изображение — это проблема, связанная с оценкой множества желательных свойств. Желанием, специфичным для моделей преобразования текста в изображение, является то, чтобы создаваемые изображения семантически согласовывались с текстовыми подписями, используемыми для их создания. Для оценки этих качеств был разработан ряд схем, некоторые из которых автоматизированы, а другие основаны на человеческом суждении. [7]

Распространенной алгоритмической метрикой для оценки качества и разнообразия изображений является начальный показатель (IS), который основан на распределении меток, предсказанном предварительно обученной моделью Inceptionv3 классификации изображений при применении к выборке изображений, сгенерированных моделью преобразования текста в изображение. . Оценка увеличивается, когда модель классификации изображений с высокой вероятностью предсказывает одну метку - схема, предназначенная для предпочтения «отдельных» сгенерированных изображений. Другой популярной метрикой является связанное с ней начальное расстояние Фреше , которое сравнивает распределение сгенерированных изображений и реальных обучающих изображений в соответствии с признаками, извлеченными одним из последних слоев предварительно обученной модели классификации изображений. [7]

Влияние и применение

[ редактировать ]
ИИ обладает потенциалом для социальной трансформации , которая может включать расширение некоммерческих нишевых жанров (таких как производные от киберпанка , такие как солярпанк ) любителями, новые развлечения, быстрое прототипирование, [19] повышение доступности произведений искусства, [19] и художественный результат в расчете на усилия и/или затраты и/или время [19] — например, посредством создания черновиков, черновых уточнений и компонентов изображения ( inpainting ). Сгенерированные изображения иногда используются в качестве эскизов. [20] недорогие эксперименты, [21] вдохновение или иллюстрации идей на этапе проверки концепции . Дополнительные функциональные возможности или улучшения могут также относиться к ручному редактированию после создания (т. е. доработке), например, к последующей настройке с помощью редактора изображений. [21]

Список известных моделей преобразования текста в изображение

[ редактировать ]
Имя Дата выпуска Разработчик Лицензия
ДАЛЛ-И январь 2021 г. ОпенАИ Собственный
ОТ-Е 2 апрель 2022 г.
ОТ-Е 3 сентябрь 2023 г.
Изображение Google
Изображение 2 декабрь 2023 г. [22]
Вечеринка Неизданный
Светлячок июнь 2023 г. Adobe Inc.
Середина пути июль 2022 г. Мидджорни, Инк.
Стабильная диффузия август 2022 г. Стабильность ИИ CreativeML Открытый РЕЙЛ-М
RunwayML 2018 Взлетно-посадочная полоса AI, Inc. Собственный

См. также

[ редактировать ]
  1. ^ Винсент, Джеймс (24 мая 2022 г.). «Все эти изображения были созданы с помощью новейшего искусственного интеллекта Google для преобразования текста в изображение» . Грань . Вокс Медиа . Проверено 28 мая 2022 г.
  2. ^ Аньезе, Хорхе; Эррера, Джонатан; Тао, Хайчэн; Чжу, Синцюань (октябрь 2019 г.), Обзор и таксономия состязательных нейронных сетей для синтеза текста в изображение , arXiv : 1910.09399
  3. ^ Чжу, Сяоцзинь; Голдберг, Эндрю Б.; Эльдави, Мохамед; Дайер, Чарльз Р.; Строк, Брэдли (2007). «Система синтеза текста в изображение для улучшения коммуникации» (PDF) . АААИ . 7 : 1590–1595.
  4. ^ Перейти обратно: а б с Мансимов, Эльман; Паризотто, Эмилио; Лей Ба, Джимми; Салахутдинов, Руслан (ноябрь 2015 г.). «Создание изображений из подписей с вниманием». ИКЛР . arXiv : 1511.02793 .
  5. ^ Перейти обратно: а б с Рид, Скотт; Аката, Зейнеп; Логесваран, Лаянуген; Шиле, Бернт; Ли, Хонглак (июнь 2016 г.). «Генераторно-состязательный синтез текста в изображение» (PDF) . Международная конференция по машинному обучению . arXiv : 1605.05396 .
  6. ^ Мансимов, Эльман; Паризотто, Эмилио; Ба, Джимми Лей; Салахутдинов Руслан (29 февраля 2016 г.). «Создание изображений из подписей с вниманием». Международная конференция по обучению представлений . arXiv : 1511.02793 .
  7. ^ Перейти обратно: а б с д Фролов Станислав; Хинц, Тобиас; Рауэ, Федерико; Хис, Йорн; Денгель, Андреас (декабрь 2021 г.). «Состязательный синтез текста в изображение: обзор» . Нейронные сети . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . ПМИД   34500257 . S2CID   231698782 .
  8. ^ Родригес, Хесус (27 сентября 2022 г.). «🌅 Edge#229: VQGAN + CLIP» . Этиquence.substack.com . Проверено 10 октября 2022 г.
  9. ^ Родригес, Хесус (4 октября 2022 г.). «🎆🌆 Edge#231: Синтез текста в изображение с помощью GAN» . Этиquence.substack.com . Проверено 10 октября 2022 г.
  10. ^ Колдьюи, Девин (5 января 2021 г.). «DALL-E OpenAI создает правдоподобные изображения буквально всего, что вы попросите» . ТехКранч .
  11. ^ Колдьюи, Девин (6 апреля 2022 г.). «Новая модель DALL-E от OpenAI рисует что угодно, но больше, лучше и быстрее, чем раньше» . ТехКранч .
  12. ^ «Публичный выпуск стабильной диффузии» . Стабильность.Ай . Проверено 27 октября 2022 г.
  13. ^ Кумар, Ашиш (3 октября 2022 г.). «Meta AI представляет «Make-A-Video»: систему искусственного интеллекта, которая генерирует видео из текста» . МаркТехПост . Проверено 3 октября 2022 г.
  14. ^ Эдвардс, Бендж (05 октября 2022 г.). «Новейший генератор искусственного интеллекта от Google создает HD-видео из текстовых подсказок» . Арс Техника . Проверено 25 октября 2022 г.
  15. ^ Родригес, Хесус (25 октября 2022 г.). «🎨 Edge#237: Что такое Midjourney?» . Этиquence.substack.com . Проверено 26 октября 2022 г.
  16. ^ «Фенаки» . phenaki.видео . Проверено 3 октября 2022 г.
  17. ^ Эдвардс, Бендж (9 сентября 2022 г.). «Runway демонстрирует возможность редактирования текста в видео с помощью искусственного интеллекта с использованием письменных подсказок» . Арс Техника . Проверено 12 сентября 2022 г.
  18. ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [ cs.CV ].
  19. ^ Перейти обратно: а б с Элган, Майк (1 ноября 2022 г.). «Как «синтетические медиа» навсегда изменят бизнес» . Компьютерный мир . Проверено 9 ноября 2022 г.
  20. ^ Руз, Кевин (21 октября 2022 г.). «Искусство, созданное искусственным интеллектом, уже трансформирует творческую работу» . Нью-Йорк Таймс . Проверено 16 ноября 2022 г.
  21. ^ Перейти обратно: а б Лесвинг, Киф. «Почему Кремниевая долина так взволнована неуклюжими рисунками, сделанными искусственным интеллектом» . CNBC . Проверено 16 ноября 2022 г.
  22. ^ «Imagen 2 на Vertex AI теперь общедоступен» . Блог Google Cloud . Проверено 02 января 2024 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f3716dc08f6a05c091f14260ac913305__1720609560
URL1:https://arc.ask3.ru/arc/aa/f3/05/f3716dc08f6a05c091f14260ac913305.html
Заголовок, (Title) документа по адресу, URL1:
Text-to-image model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)