~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ B2B63FD17371268B8932EA980CD401F2__1717001040 ✰
Заголовок документа оригинал.:
✰ Text-to-image model - Wikipedia ✰
Заголовок документа перевод.:
✰ Модель преобразования текста в изображение — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Text-to-image_model ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/b2/f2/b2b63fd17371268b8932ea980cd401f2.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/b2/f2/b2b63fd17371268b8932ea980cd401f2__translat.html ✰
Дата и время сохранения документа:
✰ 09.06.2024 13:27:41 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 29 May 2024, at 19:44 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Модель преобразования текста в изображение — Википедия Jump to content

Модель преобразования текста в изображение

Из Википедии, бесплатной энциклопедии
Изображение, созданное на основе подсказки «Астронавт верхом на лошади, автор Хиросигэ », созданное с помощью Stable Diffusion , крупномасштабной модели преобразования текста в изображение, выпущенной в 2022 году.

Модель преобразования текста в изображение — это модель машинного обучения , которая принимает входное описание на естественном языке и создает изображение, соответствующее этому описанию.

Модели преобразования текста в изображение начали разрабатываться в середине 2010-х годов, в начале бума искусственного интеллекта , в результате достижений в области глубоких нейронных сетей . В 2022 году результаты современных моделей преобразования текста в изображение, таких как DALL-E 2 от OpenAI , Google Brain от Imagen от Stability AI , Stable Diffusion и Midjourney , стали считаться приближающимися к качеству. настоящих фотографий , нарисованных людьми и произведений искусства .

Модели преобразования текста в изображение обычно сочетают в себе языковую модель , которая преобразует входной текст в скрытое представление , и генеративную модель изображения , которая создает изображение, обусловленное этим представлением. Наиболее эффективные модели, как правило, обучались на огромных объемах изображений и текстовых данных, взятых из Интернета . [1]

История [ править ]

До появления глубокого обучения попытки создания моделей преобразования текста в изображение ограничивались коллажами путем компоновки существующих изображений компонентов, например, из базы данных клипартов . [2] [3]

Обратная задача — создание подписей к изображениям — была более простой, и ряд моделей глубокого обучения для подписей к изображениям появился раньше, чем первые модели преобразования текста в изображение. [4]

Первая современная модель преобразования текста в изображение, alignDRAW, была представлена ​​в 2015 году исследователями из Университета Торонто . alignDRAW расширил ранее представленную архитектуру DRAW (которая использовала рекуррентный вариационный автокодировщик с механизмом внимания ) для обработки текстовых последовательностей. [4] Изображения, созданные с помощью alignDRAW, имели небольшое разрешение (32×32 пикселя, полученное в результате изменения размера ) и считались «низкими по разнообразию». Модель смогла обобщить объекты, не представленные в обучающих данных (например, красный школьный автобус), и соответствующим образом обработать новые подсказки, такие как «знак остановки летит в голубом небе», демонстрируя выходные данные, которые она не просто «запоминала». данные из обучающего набора . [4] [5]

Восемь изображений, созданных из текстовой подсказки «Знак остановки летит в голубом небе». автор AlignDRAW (2015). Увеличено, чтобы показать детали. [6]

В 2016 году Рид, Аката, Ян и др. стал первым, кто использовал генеративно-состязательные сети для преобразования текста в изображение. [5] [7] С помощью моделей, обученных на узких наборах данных, специфичных для предметной области, они смогли генерировать «визуально правдоподобные» изображения птиц и цветов из текстовых подписей, таких как «полностью черная птица с отчетливым толстым закругленным клювом». Модель, обученная на более разнообразном наборе данных COCO (Общие объекты в контексте), создавала изображения, которые были «на расстоянии... обнадеживающими», но которым не хватало связности в деталях. [5] Более поздние системы включают VQGAN-CLIP, [8] XMC-GAN и GauGAN2. [9]

Аппараты DALL·E 2 (вверху, апрель 2022 г.) и DALL·E 3 (внизу, сентябрь 2023 г.) создали изображения для подсказки «Знак остановки летит в голубом небе».

Одной из первых моделей преобразования текста в изображение, привлекших широкое внимание общественности, была OpenAI от DALL-E , система- трансформер , анонсированная в январе 2021 года. [10] Преемник DALL-E 2, способный генерировать более сложные и реалистичные изображения, был представлен в апреле 2022 года. [11] за ним последовал Stable Diffusion , который был публично выпущен в августе 2022 года. [12] В августе 2022 года персонализация преобразования текста в изображение позволяет обучить модель новому понятию, используя небольшой набор изображений нового объекта, который не был включен в обучающий набор базовой модели преобразования текста в изображение. Это достигается путем текстовой инверсии , а именно нахождения нового текстового термина, соответствующего этим изображениям.

Следуя другим моделям преобразования текста в изображение, языковых моделей, на основе платформы преобразования текста в видео такие как Runway, Make-A-Video, [13] Изображение Видео, [14] Середина пути, [15] и Фенаки [16] может генерировать видео из текстовых и/или текстовых/изображений подсказок. [17]

и обучение Архитектура

Архитектура высокого уровня, показывающая современное состояние моделей машинного обучения искусственного интеллекта, а также известные модели и приложения в виде интерактивной карты изображений SVG.

Модели преобразования текста в изображение были построены с использованием различных архитектур. Этап кодирования текста может выполняться с помощью рекуррентной нейронной сети, такой как сеть долговременной краткосрочной памяти (LSTM), хотя модели трансформаторов с тех пор стали более популярным вариантом. На этапе генерации изображений условные генеративно-состязательные сети обычно используются (GAN), при этом диффузионные модели также становятся популярным вариантом в последние годы. Вместо того, чтобы напрямую обучать модель для вывода изображения с высоким разрешением, обусловленного встраиванием текста, популярный метод состоит в том, чтобы обучить модель генерировать изображения с низким разрешением и использовать одну или несколько вспомогательных моделей глубокого обучения для ее масштабирования, заполняя более мелкие детали. подробности.

Модели преобразования текста в изображение обучаются на больших наборах данных пар (текст, изображение), часто взятых из Интернета. В своей модели Imagen 2022 года компания Google Brain сообщила о положительных результатах использования большой языковой модели , обученной отдельно на текстовом корпусе (с последующим замораживанием ее весов), что является отходом от ранее стандартного подхода. [18]

Наборы данных [ править ]

Примеры изображений и подписей из трех общедоступных наборов данных, которые обычно используются для обучения моделей преобразования текста в изображение.

Для обучения модели преобразования текста в изображение требуется набор данных изображений в сочетании с текстовыми подписями. Одним из наборов данных, обычно используемых для этой цели, является набор данных COCO. Выпущенный Microsoft в 2014 году, COCO состоит из около 123 000 изображений, изображающих разнообразные объекты с пятью подписями к каждому изображению, созданных аннотаторами-людьми. Oxford-120 Flowers и CUB-200 Birds — это небольшие наборы данных, содержащие около 10 000 изображений каждый, ограниченные цветами и птицами соответственно. Считается менее сложным обучить высококачественную модель преобразования текста в изображение с помощью этих наборов данных из-за их узкого диапазона тематики. [7]

Оценка качества [ править ]

Оценка и сравнение качества моделей преобразования текста в изображение — это проблема, связанная с оценкой множества желательных свойств. Желанием, специфичным для моделей преобразования текста в изображение, является то, чтобы создаваемые изображения семантически согласовывались с текстовыми подписями, используемыми для их создания. Для оценки этих качеств был разработан ряд схем, некоторые из которых автоматизированы, а другие основаны на человеческом суждении. [7]

Распространенной алгоритмической метрикой для оценки качества и разнообразия изображений является начальный показатель (IS), который основан на распределении меток, предсказанном предварительно обученной Inceptionv3 моделью классификации изображений при применении к выборке изображений, сгенерированных моделью преобразования текста в изображение. . Оценка увеличивается, когда модель классификации изображений с высокой вероятностью предсказывает одну метку - схема, предназначенная для предпочтения «отдельных» сгенерированных изображений. Другой популярной метрикой является связанное с ней начальное расстояние Фреше , которое сравнивает распределение сгенерированных изображений и реальных обучающих изображений в соответствии с признаками, извлеченными одним из последних слоев предварительно обученной модели классификации изображений. [7]

Влияние и применение [ править ]

ИИ обладает потенциалом для социальной трансформации , которая может включать расширение некоммерческих нишевых жанров (таких как производные от киберпанка, такие как солярпанк ) любителями, новые развлечения, быстрое прототипирование, [19] повышение доступности произведений искусства, [19] и художественный результат в расчете на усилия и/или затраты и/или время [19] — например, посредством создания черновиков, черновых доработок и компонентов изображения ( inpainting ). Сгенерированные изображения иногда используются в качестве эскизов. [20] недорогие эксперименты, [21] вдохновение или иллюстрации идей на этапе проверки концепции . Дополнительные функциональные возможности или улучшения могут также относиться к ручному редактированию после создания (т. е. доработке), например, к последующей настройке с помощью редактора изображений. [21]

Список известных моделей преобразования в текста изображение

Имя Дата выпуска Разработчик Лицензия
ДАТЬ ЕЙ январь 2021 г. ОпенАИ Собственный
ОТ-Е 2 апрель 2022 г.
ОТ-Е 3 сентябрь 2023 г.
Изображение Google
Изображение 2 декабрь 2023 г. [22]
Вечеринка Неизданный
Светляк июнь 2023 г. Adobe Inc.
Середина пути июль 2022 г. Мидджорни, Инк.
Стабильная диффузия август 2022 г. Стабильность ИИ Креативный ML, OpenRAIL-M}
RunwayML 2018 Взлетно-посадочная полоса AI, Inc. Собственный

См. также [ править ]

Ссылки [ править ]

  1. ^ Винсент, Джеймс (24 мая 2022 г.). «Все эти изображения были созданы с помощью новейшего искусственного интеллекта Google для преобразования текста в изображение» . Грань . Вокс Медиа . Проверено 28 мая 2022 г.
  2. ^ Аньезе, Хорхе; Эррера, Джонатан; Тао, Хайчэн; Чжу, Синцюань (октябрь 2019 г.), Обзор и таксономия состязательных нейронных сетей для синтеза текста в изображение , arXiv : 1910.09399
  3. ^ Чжу, Сяоцзинь; Голдберг, Эндрю Б.; Эльдави, Мохамед; Дайер, Чарльз Р.; Строк, Брэдли (2007). «Система синтеза текста в изображение для улучшения коммуникации» (PDF) . АААИ . 7 : 1590–1595.
  4. ^ Перейти обратно: а б с Мансимов, Эльман; Парисотто, Эмили; Земля, Джимми; Салахутдинов, Россия (ноябрь 2015 г.). «Создание изображений из подписей с вниманием» ИКЛР . arXiv : 1511.02793 .
  5. ^ Перейти обратно: а б с Рид, Скотт; Аката, Зейнеп; Логесваран, Лаянуген; Шиле, Бернт; Ли, Хонглак (июнь 2016 г.). «Генераторно-состязательный синтез текста в изображение» (PDF) . Международная конференция по машинному обучению .
  6. ^ Мансимов, Эльман; Паризотто, Эмилио; Ба, Джимми Лей; Салахутдинов Руслан (29 февраля 2016 г.). «Создание изображений из подписей с вниманием». Международная конференция по обучению представлений . arXiv : 1511.02793 .
  7. ^ Перейти обратно: а б с д Фролов Станислав; Хинц, Тобиас; Рауэ, Федерико; Хис, Йорн; Денгель, Андреас (декабрь 2021 г.). «Состязательный синтез текста в изображение: обзор» . Нейронные сети . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . ПМИД   34500257 . S2CID   231698782 .
  8. ^ Родригес, Хесус. «🌅 Edge#229: VQGAN + CLIP» . Этиquence.substack.com . Проверено 10 октября 2022 г.
  9. ^ Родригес, Хесус. «🎆🌆 Edge#231: Синтез текста в изображение с помощью GAN» . Этиquence.substack.com . Проверено 10 октября 2022 г.
  10. ^ Колдьюи, Девин (5 января 2021 г.). «DALL-E от OpenAI создает правдоподобные изображения буквально всего, что вы попросите» . ТехКранч .
  11. ^ Колдьюи, Девин (6 апреля 2022 г.). «Новая модель DALL-E от OpenAI рисует что угодно, но больше, лучше и быстрее, чем раньше» . ТехКранч .
  12. ^ «Публичный выпуск стабильной диффузии» . Стабильность.Ай . Проверено 27 октября 2022 г.
  13. ^ Кумар, Ашиш (3 октября 2022 г.). «Meta AI представляет «Make-A-Video»: систему искусственного интеллекта, которая генерирует видео из текста» . МаркТехПост . Проверено 3 октября 2022 г.
  14. ^ Эдвардс, Бендж (05 октября 2022 г.). «Новейший генератор искусственного интеллекта от Google создает HD-видео из текстовых подсказок» . Арс Техника . Проверено 25 октября 2022 г.
  15. ^ Родригес, Хесус. «🎨 Edge#237: Что такое Midjourney?» . Этиquence.substack.com . Проверено 26 октября 2022 г.
  16. ^ «Фенаки» . phenaki.видео . Проверено 3 октября 2022 г.
  17. ^ Эдвардс, Бендж (9 сентября 2022 г.). «Runway демонстрирует возможность редактирования текста в видео с помощью искусственного интеллекта с использованием письменных подсказок» . Арс Техника . Проверено 12 сентября 2022 г.
  18. ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [ cs.CV ].
  19. ^ Перейти обратно: а б с Элган, Майк (1 ноября 2022 г.). «Как «синтетические медиа» навсегда изменят бизнес» . Компьютерный мир . Проверено 9 ноября 2022 г.
  20. ^ Руз, Кевин (21 октября 2022 г.). «Искусство, созданное искусственным интеллектом, уже трансформирует творческую работу» . Нью-Йорк Таймс . Проверено 16 ноября 2022 г.
  21. ^ Перейти обратно: а б Лесвинг, Киф. «Почему Кремниевая долина так взволнована неуклюжими рисунками, сделанными искусственным интеллектом» . CNBC . Проверено 16 ноября 2022 г.
  22. ^ «Imagen 2 на Vertex AI теперь общедоступен» . Блог Google Cloud . Проверено 02 января 2024 г.
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: B2B63FD17371268B8932EA980CD401F2__1717001040
URL1:https://en.wikipedia.org/wiki/Text-to-image_model
Заголовок, (Title) документа по адресу, URL1:
Text-to-image model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)