Модель преобразования текста в видео

Видео, созданное с использованием модели преобразования текста в видео OpenAI Sora , с использованием подсказки

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Модель преобразования текста в видео — это модель машинного обучения , которая принимает в качестве входных данных описание естественного языка и создает видео , соответствующее входному тексту. ^[1] Недавние достижения в создании высококачественных видео с текстовым сопровождением во многом были обусловлены разработкой моделей распространения видео. ^[2]

Модели

Существуют разные модели, в том числе модели с открытым исходным кодом . Демо-версия CogVideo — это ранняя модель преобразования текста в видео «с 9,4 миллиардами параметров», коды которой представлены на GitHub . ^[3] Meta Platforms имеет частичную технологию преобразования текста в видео. ^{[примечание 1]} модель под названием «Сделай видео». ^[4]^[5]^[6] Brain Компания Google выпустила исследовательскую работу, представляющую Imagen Video, модель преобразования текста в видео с помощью 3D U-Net . ^[7]^[8]^[9]^[10]^[11]

В марте 2023 года была опубликована знаковая исследовательская работа Alibaba, в которой многие принципы моделей диффузии скрытых изображений были применены к генерации видео. ^[12]^[13] Такие сервисы, как Kaiber и Reemix, с тех пор применили аналогичные подходы к созданию видео в своих продуктах.

Маттиас Нисснер и Лурдес Агапито из компании Synthesia , занимающейся искусственным интеллектом , работают над разработкой методов 3D-нейронного рендеринга, которые могут синтезировать реалистичное видео, используя 2D- и 3D-нейронные представления формы, внешнего вида и движения для управляемого видеосинтеза аватаров. ^[14]

Существуют альтернативные подходы к моделям преобразования текста в видео. ^[15]

См. также

Модель преобразования текста в изображение
VideoPoet , неизданная модель Google, предшественник Люмьера.
Сора , неизданная модель OpenAI
Runway — компания, разрабатывающая модели Gen-1 и Gen-2.

Сноски

^ Он также может создавать видео из изображений, вставлять видео между двумя изображениями и изменять видео.

Ссылки

^ Отчет об индексе искусственного интеллекта за 2023 год (PDF) (Отчет). Стэнфордский институт человекоориентированного искусственного интеллекта. п. 98. В 2022 году было выпущено множество высококачественных моделей преобразования текста в видео, систем искусственного интеллекта, которые могут генерировать видеоклипы из подсказок текста.
^ Мельник, Андрей; Люблянац, Михал; Лу, Конг; Ян, Ци; Рен, Вейминг; Риттер, Хельге (06 мая 2024 г.). «Модели распространения видео: обзор». arXiv : 2405.03150 [ cs.CV ].
^ CogVideo , THUDM, 12 октября 2022 г. , получено 12 октября 2022 г.
^ Дэвис, Тели (29 сентября 2022 г.). «Создание видео: новая модель Meta AI для преобразования текста в видео» . Веса и предвзятости . Проверено 12 октября 2022 г.
^ Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки» . Середина . Проверено 12 октября 2022 г.
^ «ИИ Make-A-Video от Meta создает видео из текста» . www.fonearena.com . Проверено 12 октября 2022 г.
^ «Google: Google бросает вызов Meta и представляет собственный искусственный интеллект, генерирующий видео» . Экономические времена . 6 октября 2022 г. Проверено 12 октября 2022 г.
^ Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки» . Середина . Проверено 12 октября 2022 г.
^ «Ну-ну, Мета, мы тоже можем создать искусственный интеллект для преобразования текста в видео», — говорит Google . www.theregister.com . Проверено 12 октября 2022 г.
^ «Документы с кодом — смотри, планируй, прогнозируй: когнитивное планирование с языковым управлением и видеопрогнозированием» . paperswithcode.com . Проверено 12 октября 2022 г.
^ «Документы с кодом — прогнозирование видео на основе текста» . paperswithcode.com . Проверено 12 октября 2022 г.
^ «Дом — Академия ДАМО» . damo.alibaba.com . Проверено 12 августа 2023 г.
^ Ло, Чжэнсюн; Чжан, Инья; Ван, Лян, Чжао, Дели; Чжоу, Тан, Тиеню (2023). Генерация». arXiv : 2303.08320 [ cs.CV ].
^ «Преобразование текста в речь для видео» . Проверено 17 октября 2023 г.
^ Text2Video-Zero , Picsart AI Research (PAIR), 12 августа 2023 г. , получено 12 августа 2023 г.

[4] Он также может создавать видео из изображений, вставлять видео между двумя изображениями и изменять видео.

[AIIR-1] Отчет об индексе искусственного интеллекта за 2023 год (PDF) (Отчет). Стэнфордский институт человекоориентированного искусственного интеллекта. п. 98. В 2022 году было выпущено множество высококачественных моделей преобразования текста в видео, систем искусственного интеллекта, которые могут генерировать видеоклипы из подсказок текста.

[2] Мельник, Андрей; Люблянац, Михал; Лу, Конг; Ян, Ци; Рен, Вейминг; Риттер, Хельге (06 мая 2024 г.). «Модели распространения видео: обзор». arXiv : 2405.03150 [ cs.CV ].

[3] CogVideo , THUDM, 12 октября 2022 г. , получено 12 октября 2022 г.

[5] Дэвис, Тели (29 сентября 2022 г.). «Создание видео: новая модель Meta AI для преобразования текста в видео» . Веса и предвзятости . Проверено 12 октября 2022 г.

[6] Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки» . Середина . Проверено 12 октября 2022 г.

[7] «ИИ Make-A-Video от Meta создает видео из текста» . www.fonearena.com . Проверено 12 октября 2022 г.

[8] «Google: Google бросает вызов Meta и представляет собственный искусственный интеллект, генерирующий видео» . Экономические времена . 6 октября 2022 г. Проверено 12 октября 2022 г.

[9] Монж, Джим Клайд (3 августа 2022 г.). «Этот ИИ может создавать видео из текстовой подсказки» . Середина . Проверено 12 октября 2022 г.

[10] «Ну-ну, Мета, мы тоже можем создать искусственный интеллект для преобразования текста в видео», — говорит Google . www.theregister.com . Проверено 12 октября 2022 г.

[11] «Документы с кодом — смотри, планируй, прогнозируй: когнитивное планирование с языковым управлением и видеопрогнозированием» . paperswithcode.com . Проверено 12 октября 2022 г.

[12] «Документы с кодом — прогнозирование видео на основе текста» . paperswithcode.com . Проверено 12 октября 2022 г.

[13] «Дом — Академия ДАМО» . damo.alibaba.com . Проверено 12 августа 2023 г.

[14] Ло, Чжэнсюн; Чжан, Инья; Ван, Лян, Чжао, Дели; Чжоу, Тан, Тиеню (2023). Генерация». arXiv : 2303.08320 [ cs.CV ].

[15] «Преобразование текста в речь для видео» . Проверено 17 октября 2023 г.

[16] Text2Video-Zero , Picsart AI Research (PAIR), 12 августа 2023 г. , получено 12 августа 2023 г.

[1]

[2]

[3]

[примечание 1]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]