Сора (модель преобразования текста в видео)

Сора
	Видео создано Сорой. На нем изображен виадук Гленфиннан , но с двумя железнодорожными линиями, а не с одной, а поезд напоминает «Якобита» с двумя дымоходами , а не с одним.
Разработчик(и)	ОпенАИ
Платформа	ОпенАИ
Тип	Модель преобразования текста в видео
Веб-сайт	опенай .с /сора

Sora — это будущая модель генеративного искусственного интеллекта , разработанная OpenAI , которая специализируется на преобразовании текста в видео . Модель принимает от пользователей текстовые описания, известные как подсказки , и генерирует короткие видеоклипы, соответствующие этим описаниям. В подсказках можно указать художественные стили, фантастические образы или сценарии из реального мира. При создании реальных сценариев может потребоваться ввод данных пользователем для обеспечения фактической точности, в противном случае функции могут быть добавлены ошибочно . Sora хвалят за способность создавать видеоролики с высоким уровнем визуальной детализации, включая сложные движения камеры и персонажей, демонстрирующих самые разные эмоции. Кроме того, модель обладает функцией расширения существующих коротких видеороликов путем создания нового контента, который плавно предшествует исходному клипу или следует за ним. ^[1]^[2]^[3] По состоянию на май 2024 г. ^[update] он не выпущен и еще не доступен публике. ^[4]

История [ править ]

До Sora было создано несколько других моделей преобразования текста в видео, в том числе Meta Make-A-Video от Runway , Gen-2 от и Lumiere от Google , последняя из которых по состоянию на февраль 2024 года ^[update] также все еще находится на стадии исследования. ^[5] OpenAI , компания, стоящая за Sora, выпустила DALL·E 3 , третью из своих моделей преобразования текста в изображение DALL-E , в сентябре 2023 года. ^[6]

Команда, разработавшая Сора, назвала его в честь японского слова «небо», что означает его «безграничный творческий потенциал». ^[1] 15 февраля 2024 года OpenAI впервые представила Sora, выпустив несколько видеороликов высокой четкости созданных ею , в том числе внедорожник, едущий по горной дороге, анимацию «короткого пушистого монстра» рядом со свечой, двух проходящих мимо людей. Токио в снегу и фальшивые исторические кадры золотой лихорадки в Калифорнии , а также заявил, что способен создавать видеоролики продолжительностью до одной минуты. ^[5] Затем компания поделилась техническим отчетом, в котором были освещены методы, использованные для обучения модели. ^[2]^[7] Генеральный директор OpenAI Сэм Альтман также опубликовал серию твитов, отвечая на запросы пользователей Twitter видео с подсказками, созданными Sora.

OpenAI заявила, что планирует сделать Sora общедоступной, но сделает это не скоро; не уточняется, когда. ^[5]^[4] Компания предоставила ограниченный доступ небольшой « красной команде », включающей экспертов по дезинформации и предвзятости, для проведения состязательного тестирования модели. ^[6] Компания также поделилась Sora с небольшой группой творческих профессионалов, включая создателей видео и художников, чтобы узнать отзывы о ее полезности в творческих областях. ^[8]

Возможности и ограничения [ править ]

Созданное Сорой видео, на котором кто-то лежит на кровати с кошкой, содержащее несколько ошибок.

Технология, лежащая в основе Sora, представляет собой адаптацию технологии DALL-E 3 . Согласно OpenAI, Sora — это диффузионный преобразователь. ^[9] – модель скрытой диффузии шумоподавления с одним трансформатором в качестве шумоподавителя. Видео создается в скрытом пространстве путем шумоподавления трехмерных «патчей», а затем преобразуется в стандартное пространство с помощью видеодекомпрессора. Повторные субтитры используются для дополнения обучающих данных за счет использования модели преобразования видео в текст для создания подробных подписей к видео. ^[7]

OpenAI обучила модель, используя общедоступные видео, а также видео, защищенные авторским правом и лицензированные для этой цели, но не раскрыла количество или точный источник видео. ^[1] После своего выпуска OpenAI признал некоторые недостатки Sora, в том числе его трудности с моделированием сложной физики, пониманием причинно-следственной связи и различением левого и правого. ^[10] Один из примеров показывает, как группа волчат, казалось бы, размножается и сближается, создавая трудно реализуемый сценарий. ^[11] OpenAI также заявила, что, следуя существующим правилам безопасности компании, Sora ограничит текстовые подсказки с изображениями сексуального характера, насилия, ненависти или знаменитостей, а также контент, содержащий уже существующую интеллектуальную собственность . ^[6]

Тим Брукс, исследователь Sora, заявил, что модель научилась создавать 3D-графику только на основе своего набора данных, а Билл Пиблс, также исследователь Sora, сказал, что модель автоматически создавала различные ракурсы видео без каких-либо подсказок. ^[5] Согласно OpenAI, видео, созданные Sora, помечаются метаданными C2PA, чтобы указать, что они были созданы искусственным интеллектом. ^[1]

Прием [ править ]

Уилл Дуглас Хевен из MIT Technology Review назвал демонстрационные видеоролики «впечатляющими», но отметил, что они, должно быть, были тщательно отобраны и могут не отражать типичные результаты Соры. ^[8] Американский академик Орен Эциони выразил обеспокоенность по поводу способности технологии создавать онлайн- дезинформацию для политических кампаний. ^[1] Для Wired также написал , Стивен Леви что у него есть потенциал стать «крушением поезда дезинформации», и высказал мнение, что его превью-клипы были «впечатляющими», но «не идеальными» и что они «демонстрируют [редактирование] новое понимание кинематографической грамматики». из-за неожиданных изменений кадров. Леви добавил: «Пройдет очень много времени, если вообще когда-либо произойдет, прежде чем преобразование текста в видео станет угрожать реальному кинопроизводству». ^[5] Лиза Лейси из CNET назвала примеры видеороликов «удивительно реалистичными - за исключением, пожалуй, случаев, когда человеческое лицо появляется крупным планом или когда плавают морские существа». ^[6]

Режиссер Тайлер Перри объявил, что приостановит запланированное расширение своей студии в Атланте стоимостью 800 миллионов долларов , выразив обеспокоенность по поводу потенциального влияния Соры на киноиндустрию. ^[12]^[13]

См. также [ править ]

VideoPoet — модель преобразования текста в видео от Google.

Ссылки [ править ]

^ Перейти обратно: ^а ^б ^с ^д ^и Мец, Кейд (15 февраля 2024 г.). «OpenAI представляет искусственный интеллект, который мгновенно создает потрясающие видеоролики» . Нью-Йорк Таймс . Архивировано из оригинала 15 февраля 2024 года . Проверено 15 февраля 2024 г.
^ Перейти обратно: ^а ^б Брукс, Тим; Пиблс, Билл; Холмс, Коннор; ДеПью, Уилл; Го, Юфэй; Цзин, Ли; Шнурр, Дэвид; Тейлор, Джо; Луман, Трой; Луман, Эрик; Нг, Кларенс Винг Инь; Ван, Рики; Рамеш, Адитья (15 февраля 2024 г.). «Модели видеогенерации как симуляторы мира» . ОпенАИ . Архивировано из оригинала 16 февраля 2024 года . Проверено 16 февраля 2024 г.
^ Рот, Эмма (15 февраля 2024 г.). «OpenAI представляет Sora, свою модель искусственного интеллекта для преобразования текста в видео» . Грань . Архивировано из оригинала 21 февраля 2024 года . Проверено 21 февраля 2024 г.
^ Перейти обратно: ^а ^б Ян, Анжела (15 февраля 2024 г.). «OpenAI анонсирует Sora, свою новую модель искусственного интеллекта для преобразования текста в видео» . Новости Эн-Би-Си . Архивировано из оригинала 15 февраля 2024 года . Проверено 16 февраля 2024 г.
^ Перейти обратно: ^а ^б ^с ^д ^и Леви, Стивен (15 февраля 2024 г.). «Sora от OpenAI превращает подсказки искусственного интеллекта в фотореалистичные видеоролики» . Проводной . Архивировано из оригинала 15 февраля 2024 года . Проверено 16 февраля 2024 г.
^ Перейти обратно: ^а ^б ^с ^д Лейси, Лиза (15 февраля 2024 г.). «Знакомьтесь, Sora, генератор текста в видео OpenAI» . CNET . Архивировано из оригинала 16 февраля 2024 года . Проверено 16 февраля 2024 г.
^ Перейти обратно: ^а ^б Эдвардс, Бендж (16 февраля 2024 г.). «OpenAI разрушает медиа-реальность с помощью Sora, фотореалистичного видеогенератора с искусственным интеллектом» . Арс Техника . Архивировано из оригинала 17 февраля 2024 года . Проверено 17 февраля 2024 г.
^ Перейти обратно: ^а ^б Небеса, Уилл Дуглас (15 февраля 2024 г.). «OpenAI анонсирует потрясающую новую модель генеративного видео под названием Sora» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 15 февраля 2024 года . Проверено 15 февраля 2024 г.
^ Пиблс, Уильям; Се, Сайнин (2023). «Масштабируемые диффузионные модели с трансформаторами» . Международная конференция IEEE/CVF по компьютерному зрению (ICCV) , 2023 г. стр. 4172–4182. arXiv : 2212.09748 . дои : 10.1109/ICCV51070.2023.00387 . ISBN 979-8-3503-0718-4 . ISSN 2380-7504 . S2CID 254854389 . Архивировано из оригинала 17 февраля 2024 года . Проверено 17 февраля 2024 г.
^ Пекеньо IV, Антонио (15 февраля 2024 г.). «OpenAI представляет «Sora»: видеомодель AI, способную выдавать реалистичные подсказки для преобразования текста в видео» . Форбс . Архивировано из оригинала 15 февраля 2024 года . Проверено 15 февраля 2024 г.
^ «Созданное Сорой видео, на котором волки играют, с некоторыми проблемами с видео» . Новости ABC Австралия . Проверено 16 мая 2024 г.
^ Килкенни, Кэти (23 февраля 2024 г.). «Тайлер Перри приостановил расширение студии стоимостью 800 миллионов долларов после просмотра Sora OpenAI: «Работы будут потеряны» » . Голливудский репортер . Архивировано из оригинала 26 февраля 2024 года . Проверено 26 февраля 2024 г.
^ Эдвардс, Бендж (23 февраля 2024 г.). «Тайлер Перри приостанавливает расширение студии стоимостью 800 миллионов долларов из-за Sora от OpenAI» . Арс Техника . Архивировано из оригинала 26 февраля 2024 года . Проверено 26 февраля 2024 г.

Внешние ссылки [ править ]

Официальный сайт

[NYT_CM_2024_02_15-1] Перейти обратно: ^а ^б ^с ^д ^и Мец, Кейд (15 февраля 2024 г.). «OpenAI представляет искусственный интеллект, который мгновенно создает потрясающие видеоролики» . Нью-Йорк Таймс . Архивировано из оригинала 15 февраля 2024 года . Проверено 15 февраля 2024 г.

[OAI_research-2] Перейти обратно: ^а ^б Брукс, Тим; Пиблс, Билл; Холмс, Коннор; ДеПью, Уилл; Го, Юфэй; Цзин, Ли; Шнурр, Дэвид; Тейлор, Джо; Луман, Трой; Луман, Эрик; Нг, Кларенс Винг Инь; Ван, Рики; Рамеш, Адитья (15 февраля 2024 г.). «Модели видеогенерации как симуляторы мира» . ОпенАИ . Архивировано из оригинала 16 февраля 2024 года . Проверено 16 февраля 2024 г.

[3] Рот, Эмма (15 февраля 2024 г.). «OpenAI представляет Sora, свою модель искусственного интеллекта для преобразования текста в видео» . Грань . Архивировано из оригинала 21 февраля 2024 года . Проверено 21 февраля 2024 г.

[NBC-4] Перейти обратно: ^а ^б Ян, Анжела (15 февраля 2024 г.). «OpenAI анонсирует Sora, свою новую модель искусственного интеллекта для преобразования текста в видео» . Новости Эн-Би-Си . Архивировано из оригинала 15 февраля 2024 года . Проверено 16 февраля 2024 г.

[Wired-5] Перейти обратно: ^а ^б ^с ^д ^и Леви, Стивен (15 февраля 2024 г.). «Sora от OpenAI превращает подсказки искусственного интеллекта в фотореалистичные видеоролики» . Проводной . Архивировано из оригинала 15 февраля 2024 года . Проверено 16 февраля 2024 г.

[CNET-6] Перейти обратно: ^а ^б ^с ^д Лейси, Лиза (15 февраля 2024 г.). «Знакомьтесь, Sora, генератор текста в видео OpenAI» . CNET . Архивировано из оригинала 16 февраля 2024 года . Проверено 16 февраля 2024 г.

[ars-7] Перейти обратно: ^а ^б Эдвардс, Бендж (16 февраля 2024 г.). «OpenAI разрушает медиа-реальность с помощью Sora, фотореалистичного видеогенератора с искусственным интеллектом» . Арс Техника . Архивировано из оригинала 17 февраля 2024 года . Проверено 17 февраля 2024 г.

[WDH_MIT_2024_02_15-8] Перейти обратно: ^а ^б Небеса, Уилл Дуглас (15 февраля 2024 г.). «OpenAI анонсирует потрясающую новую модель генеративного видео под названием Sora» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 15 февраля 2024 года . Проверено 15 февраля 2024 г.

[9] Пиблс, Уильям; Се, Сайнин (2023). «Масштабируемые диффузионные модели с трансформаторами» . Международная конференция IEEE/CVF по компьютерному зрению (ICCV) , 2023 г. стр. 4172–4182. arXiv : 2212.09748 . дои : 10.1109/ICCV51070.2023.00387 . ISBN 979-8-3503-0718-4 . ISSN 2380-7504 . S2CID 254854389 . Архивировано из оригинала 17 февраля 2024 года . Проверено 17 февраля 2024 г.

[10] Пекеньо IV, Антонио (15 февраля 2024 г.). «OpenAI представляет «Sora»: видеомодель AI, способную выдавать реалистичные подсказки для преобразования текста в видео» . Форбс . Архивировано из оригинала 15 февраля 2024 года . Проверено 15 февраля 2024 г.

[11] «Созданное Сорой видео, на котором волки играют, с некоторыми проблемами с видео» . Новости ABC Австралия . Проверено 16 мая 2024 г.

[12] Килкенни, Кэти (23 февраля 2024 г.). «Тайлер Перри приостановил расширение студии стоимостью 800 миллионов долларов после просмотра Sora OpenAI: «Работы будут потеряны» » . Голливудский репортер . Архивировано из оригинала 26 февраля 2024 года . Проверено 26 февраля 2024 г.

[13] Эдвардс, Бендж (23 февраля 2024 г.). «Тайлер Перри приостанавливает расширение студии стоимостью 800 миллионов долларов из-за Sora от OpenAI» . Арс Техника . Архивировано из оригинала 26 февраля 2024 года . Проверено 26 февраля 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]