Модель преобразования текста в видео
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Модель преобразования текста в видео — это модель машинного обучения , которая принимает в качестве входных данных описание естественного языка и создает видео , соответствующее входному тексту. [1] Недавние достижения в создании высококачественных видео с текстовым сопровождением во многом были обусловлены разработкой моделей распространения видео. [2]
Модели
[ редактировать ]![]() | Этот раздел необходимо обновить . ( февраль 2024 г. ) |
Существуют разные модели, в том числе модели с открытым исходным кодом . Демо-версия CogVideo — это ранняя модель преобразования текста в видео «с 9,4 миллиардами параметров», коды которой представлены на GitHub . [3] Meta Platforms имеет частичную технологию преобразования текста в видео. [примечание 1] модель под названием «Сделай видео». [4] [5] [6] Brain Компания Google выпустила исследовательскую работу, представляющую Imagen Video, модель преобразования текста в видео с помощью 3D U-Net . [7] [8] [9] [10] [11]
В марте 2023 года была опубликована знаковая исследовательская работа Alibaba, в которой многие принципы моделей диффузии скрытых изображений были применены к генерации видео. [12] [13] Такие сервисы, как Kaiber и Reemix, с тех пор применили аналогичные подходы к созданию видео в своих продуктах.
Маттиас Нисснер и Лурдес Агапито из компании Synthesia , занимающейся искусственным интеллектом , работают над разработкой методов 3D-нейронного рендеринга, которые могут синтезировать реалистичное видео, используя 2D- и 3D-нейронные представления формы, внешнего вида и движения для управляемого видеосинтеза аватаров. [14]
Существуют альтернативные подходы к моделям преобразования текста в видео. [15]
См. также
[ редактировать ]- Модель преобразования текста в изображение
- VideoPoet , неизданная модель Google, предшественник Люмьера.
- Сора , неизданная модель OpenAI
- Runway — компания, разрабатывающая модели Gen-1 и Gen-2.
Сноски
[ редактировать ]- ^ Он также может создавать видео из изображений, вставлять видео между двумя изображениями и изменять видео.
Ссылки
[ редактировать ]- ^ Отчет об индексе искусственного интеллекта за 2023 год (PDF) (Отчет). Стэнфордский институт человекоориентированного искусственного интеллекта. п. 98.
В 2022 году было выпущено множество высококачественных моделей преобразования текста в видео, систем искусственного интеллекта, которые могут генерировать видеоклипы из подсказок текста.
- ^ Мельник, Андрей; Люблянац, Михал; Лу, Конг; Ян, Ци; Рен, Вейминг; Риттер, Хельге (06 мая 2024 г.). «Модели распространения видео: обзор». arXiv : 2405.03150 [ cs.CV ].
- ^ CogVideo , THUDM, 12 октября 2022 г. , получено 12 октября 2022 г.
- ^ Дэвис, Тели (29 сентября 2022 г.). «Создание видео: новая модель Meta AI для преобразования текста в видео» . Веса и предвзятости . Проверено 12 октября 2022 г.
- ^ Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки» . Середина . Проверено 12 октября 2022 г.
- ^ «ИИ Make-A-Video от Meta создает видео из текста» . www.fonearena.com . Проверено 12 октября 2022 г.
- ^ «Google: Google бросает вызов Meta и представляет собственный искусственный интеллект, генерирующий видео» . Экономические времена . 6 октября 2022 г. Проверено 12 октября 2022 г.
- ^ Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки» . Середина . Проверено 12 октября 2022 г.
- ^ «Ну-ну, Мета, мы тоже можем создать искусственный интеллект для преобразования текста в видео», — говорит Google . www.theregister.com . Проверено 12 октября 2022 г.
- ^ «Документы с кодом — смотри, планируй, прогнозируй: когнитивное планирование с языковым управлением и видеопрогнозированием» . paperswithcode.com . Проверено 12 октября 2022 г.
- ^ «Документы с кодом — прогнозирование видео на основе текста» . paperswithcode.com . Проверено 12 октября 2022 г.
- ^ «Дом — Академия ДАМО» . damo.alibaba.com . Проверено 12 августа 2023 г.
- ^ Ло, Чжэнсюн; Чжан, Инья; Ван, Лян, Чжао, Дели; Чжоу, Тан, Тиеню (2023). Генерация». arXiv : 2303.08320 [ cs.CV ].
- ^ «Преобразование текста в речь для видео» . Проверено 17 октября 2023 г.
- ^ Text2Video-Zero , Picsart AI Research (PAIR), 12 августа 2023 г. , получено 12 августа 2023 г.