Jump to content

Модель преобразования текста в видео

Продолжительность: 1 минута и 1 секунда.
Видео, созданное с использованием модели преобразования текста в видео OpenAI Sora , с использованием подсказки A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Модель преобразования текста в видео — это модель машинного обучения , которая принимает в качестве входных данных описание естественного языка и создает видео , соответствующее входному тексту. [1] Недавние достижения в создании высококачественных видео с текстовым сопровождением во многом были обусловлены разработкой моделей распространения видео. [2]

Существуют разные модели, в том числе модели с открытым исходным кодом . Демо-версия CogVideo — это ранняя модель преобразования текста в видео «с 9,4 миллиардами параметров», коды которой представлены на GitHub . [3] Meta Platforms имеет частичную технологию преобразования текста в видео. [примечание 1] модель под названием «Сделай видео». [4] [5] [6] Brain Компания Google выпустила исследовательскую работу, представляющую Imagen Video, модель преобразования текста в видео с помощью 3D U-Net . [7] [8] [9] [10] [11]

В марте 2023 года была опубликована знаковая исследовательская работа Alibaba, в которой многие принципы моделей диффузии скрытых изображений были применены к генерации видео. [12] [13] Такие сервисы, как Kaiber и Reemix, с тех пор применили аналогичные подходы к созданию видео в своих продуктах.

Маттиас Нисснер и Лурдес Агапито из компании Synthesia , занимающейся искусственным интеллектом , работают над разработкой методов 3D-нейронного рендеринга, которые могут синтезировать реалистичное видео, используя 2D- и 3D-нейронные представления формы, внешнего вида и движения для управляемого видеосинтеза аватаров. [14]

Существуют альтернативные подходы к моделям преобразования текста в видео. [15]

См. также

[ редактировать ]
  1. ^ Он также может создавать видео из изображений, вставлять видео между двумя изображениями и изменять видео.
  1. ^ Отчет об индексе искусственного интеллекта за 2023 год (PDF) (Отчет). Стэнфордский институт человекоориентированного искусственного интеллекта. п. 98. В 2022 году было выпущено множество высококачественных моделей преобразования текста в видео, систем искусственного интеллекта, которые могут генерировать видеоклипы из подсказок текста.
  2. ^ Мельник, Андрей; Люблянац, Михал; Лу, Конг; Ян, Ци; Рен, Вейминг; Риттер, Хельге (06 мая 2024 г.). «Модели распространения видео: обзор». arXiv : 2405.03150 [ cs.CV ].
  3. ^ CogVideo , THUDM, 12 октября 2022 г. , получено 12 октября 2022 г.
  4. ^ Дэвис, Тели (29 сентября 2022 г.). «Создание видео: новая модель Meta AI для преобразования текста в видео» . Веса и предвзятости . Проверено 12 октября 2022 г.
  5. ^ Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки» . Середина . Проверено 12 октября 2022 г.
  6. ^ «ИИ Make-A-Video от Meta создает видео из текста» . www.fonearena.com . Проверено 12 октября 2022 г.
  7. ^ «Google: Google бросает вызов Meta и представляет собственный искусственный интеллект, генерирующий видео» . Экономические времена . 6 октября 2022 г. Проверено 12 октября 2022 г.
  8. ^ Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки» . Середина . Проверено 12 октября 2022 г.
  9. ^ «Ну-ну, Мета, мы тоже можем создать искусственный интеллект для преобразования текста в видео», — говорит Google . www.theregister.com . Проверено 12 октября 2022 г.
  10. ^ «Документы с кодом — смотри, планируй, прогнозируй: когнитивное планирование с языковым управлением и видеопрогнозированием» . paperswithcode.com . Проверено 12 октября 2022 г.
  11. ^ «Документы с кодом — прогнозирование видео на основе текста» . paperswithcode.com . Проверено 12 октября 2022 г.
  12. ^ «Дом — Академия ДАМО» . damo.alibaba.com . Проверено 12 августа 2023 г.
  13. ^ Ло, Чжэнсюн; Чжан, Инья; Ван, Лян, Чжао, Дели; Чжоу, Тан, Тиеню (2023). Генерация». arXiv : 2303.08320 [ cs.CV ].
  14. ^ «Преобразование текста в речь для видео» . Проверено 17 октября 2023 г.
  15. ^ Text2Video-Zero , Picsart AI Research (PAIR), 12 августа 2023 г. , получено 12 августа 2023 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ef70a8bd8f6a1b2fa871ad9247964060__1721214720
URL1:https://arc.ask3.ru/arc/aa/ef/60/ef70a8bd8f6a1b2fa871ad9247964060.html
Заголовок, (Title) документа по адресу, URL1:
Text-to-video model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)