Сора (модель преобразования текста в видео)
Видео создано Сорой. На нем изображен виадук Гленфиннан , но с двумя железнодорожными линиями, а не с одной, а поезд напоминает «Якобита» с двумя дымоходами , а не с одним. | |
Разработчик(и) | ОпенАИ |
---|---|
Платформа | ОпенАИ |
Тип | Модель преобразования текста в видео |
Веб-сайт | опенай ![]() |
Часть серии о |
Искусственный интеллект |
---|
![]() |
Sora — это будущая модель генеративного искусственного интеллекта , разработанная OpenAI , которая специализируется на преобразовании текста в видео . Модель принимает от пользователей текстовые описания, известные как подсказки , и генерирует короткие видеоклипы, соответствующие этим описаниям. В подсказках можно указать художественные стили, фантастические образы или сценарии из реального мира. При создании реальных сценариев может потребоваться ввод данных пользователем для обеспечения фактической точности, в противном случае функции могут быть добавлены ошибочно . Sora хвалят за способность создавать видеоролики с высоким уровнем визуальной детализации, включая сложные движения камеры и персонажей, демонстрирующих самые разные эмоции. Кроме того, модель обладает функцией расширения существующих коротких видеороликов путем создания нового контента, который плавно предшествует исходному клипу или следует за ним. [1] [2] [3] По состоянию на май 2024 г. [update] он не выпущен и еще не доступен публике. [4]
История [ править ]
До Sora было создано несколько других моделей преобразования текста в видео, в том числе Meta Make-A-Video от Runway , Gen-2 от и Lumiere от Google , последняя из которых по состоянию на февраль 2024 года [update] также все еще находится на стадии исследования. [5] OpenAI , компания, стоящая за Sora, выпустила DALL·E 3 , третью из своих моделей преобразования текста в изображение DALL-E , в сентябре 2023 года. [6]
Команда, разработавшая Сора, назвала его в честь японского слова «небо», что означает его «безграничный творческий потенциал». [1] 15 февраля 2024 года OpenAI впервые представила Sora, выпустив несколько видеороликов высокой четкости созданных ею , в том числе внедорожник, едущий по горной дороге, анимацию «короткого пушистого монстра» рядом со свечой, двух проходящих мимо людей. Токио в снегу и фальшивые исторические кадры золотой лихорадки в Калифорнии , а также заявил, что способен создавать видеоролики продолжительностью до одной минуты. [5] Затем компания поделилась техническим отчетом, в котором были освещены методы, использованные для обучения модели. [2] [7] Генеральный директор OpenAI Сэм Альтман также опубликовал серию твитов, отвечая на запросы пользователей Twitter видео с подсказками, созданными Sora.
OpenAI заявила, что планирует сделать Sora общедоступной, но сделает это не скоро; не уточняется, когда. [5] [4] Компания предоставила ограниченный доступ небольшой « красной команде », включающей экспертов по дезинформации и предвзятости, для проведения состязательного тестирования модели. [6] Компания также поделилась Sora с небольшой группой творческих профессионалов, включая создателей видео и художников, чтобы узнать отзывы о ее полезности в творческих областях. [8]
Возможности и ограничения [ править ]
Технология, лежащая в основе Sora, представляет собой адаптацию технологии DALL-E 3 . Согласно OpenAI, Sora — это диффузионный преобразователь. [9] – модель скрытой диффузии шумоподавления с одним трансформатором в качестве шумоподавителя. Видео создается в скрытом пространстве путем шумоподавления трехмерных «патчей», а затем преобразуется в стандартное пространство с помощью видеодекомпрессора. Повторные субтитры используются для дополнения обучающих данных за счет использования модели преобразования видео в текст для создания подробных подписей к видео. [7]
OpenAI обучила модель, используя общедоступные видео, а также видео, защищенные авторским правом и лицензированные для этой цели, но не раскрыла количество или точный источник видео. [1] После своего выпуска OpenAI признал некоторые недостатки Sora, в том числе его трудности с моделированием сложной физики, пониманием причинно-следственной связи и различением левого и правого. [10] Один из примеров показывает, как группа волчат, казалось бы, размножается и сближается, создавая трудно реализуемый сценарий. [11] OpenAI также заявила, что, следуя существующим правилам безопасности компании, Sora ограничит текстовые подсказки с изображениями сексуального характера, насилия, ненависти или знаменитостей, а также контент, содержащий уже существующую интеллектуальную собственность . [6]
Тим Брукс, исследователь Sora, заявил, что модель научилась создавать 3D-графику только на основе своего набора данных, а Билл Пиблс, также исследователь Sora, сказал, что модель автоматически создавала различные ракурсы видео без каких-либо подсказок. [5] Согласно OpenAI, видео, созданные Sora, помечаются метаданными C2PA, чтобы указать, что они были созданы искусственным интеллектом. [1]
Прием [ править ]
Уилл Дуглас Хевен из MIT Technology Review назвал демонстрационные видеоролики «впечатляющими», но отметил, что они, должно быть, были тщательно отобраны и могут не отражать типичные результаты Соры. [8] Американский академик Орен Эциони выразил обеспокоенность по поводу способности технологии создавать онлайн- дезинформацию для политических кампаний. [1] Для Wired также написал , Стивен Леви что у него есть потенциал стать «крушением поезда дезинформации», и высказал мнение, что его превью-клипы были «впечатляющими», но «не идеальными» и что они «демонстрируют [редактирование] новое понимание кинематографической грамматики». из-за неожиданных изменений кадров. Леви добавил: «Пройдет очень много времени, если вообще когда-либо произойдет, прежде чем преобразование текста в видео станет угрожать реальному кинопроизводству». [5] Лиза Лейси из CNET назвала примеры видеороликов «удивительно реалистичными - за исключением, пожалуй, случаев, когда человеческое лицо появляется крупным планом или когда плавают морские существа». [6]
Режиссер Тайлер Перри объявил, что приостановит запланированное расширение своей студии в Атланте стоимостью 800 миллионов долларов , выразив обеспокоенность по поводу потенциального влияния Соры на киноиндустрию. [12] [13]
См. также [ править ]
- VideoPoet — модель преобразования текста в видео от Google.
Ссылки [ править ]
- ^ Перейти обратно: а б с д и Мец, Кейд (15 февраля 2024 г.). «OpenAI представляет искусственный интеллект, который мгновенно создает потрясающие видеоролики» . Нью-Йорк Таймс . Архивировано из оригинала 15 февраля 2024 года . Проверено 15 февраля 2024 г.
- ^ Перейти обратно: а б Брукс, Тим; Пиблс, Билл; Холмс, Коннор; ДеПью, Уилл; Го, Юфэй; Цзин, Ли; Шнурр, Дэвид; Тейлор, Джо; Луман, Трой; Луман, Эрик; Нг, Кларенс Винг Инь; Ван, Рики; Рамеш, Адитья (15 февраля 2024 г.). «Модели видеогенерации как симуляторы мира» . ОпенАИ . Архивировано из оригинала 16 февраля 2024 года . Проверено 16 февраля 2024 г.
- ^ Рот, Эмма (15 февраля 2024 г.). «OpenAI представляет Sora, свою модель искусственного интеллекта для преобразования текста в видео» . Грань . Архивировано из оригинала 21 февраля 2024 года . Проверено 21 февраля 2024 г.
- ^ Перейти обратно: а б Ян, Анжела (15 февраля 2024 г.). «OpenAI анонсирует Sora, свою новую модель искусственного интеллекта для преобразования текста в видео» . Новости Эн-Би-Си . Архивировано из оригинала 15 февраля 2024 года . Проверено 16 февраля 2024 г.
- ^ Перейти обратно: а б с д и Леви, Стивен (15 февраля 2024 г.). «Sora от OpenAI превращает подсказки искусственного интеллекта в фотореалистичные видеоролики» . Проводной . Архивировано из оригинала 15 февраля 2024 года . Проверено 16 февраля 2024 г.
- ^ Перейти обратно: а б с д Лейси, Лиза (15 февраля 2024 г.). «Знакомьтесь, Sora, генератор текста в видео OpenAI» . CNET . Архивировано из оригинала 16 февраля 2024 года . Проверено 16 февраля 2024 г.
- ^ Перейти обратно: а б Эдвардс, Бендж (16 февраля 2024 г.). «OpenAI разрушает медиа-реальность с помощью Sora, фотореалистичного видеогенератора с искусственным интеллектом» . Арс Техника . Архивировано из оригинала 17 февраля 2024 года . Проверено 17 февраля 2024 г.
- ^ Перейти обратно: а б Небеса, Уилл Дуглас (15 февраля 2024 г.). «OpenAI анонсирует потрясающую новую модель генеративного видео под названием Sora» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 15 февраля 2024 года . Проверено 15 февраля 2024 г.
- ^ Пиблс, Уильям; Се, Сайнин (2023). «Масштабируемые диффузионные модели с трансформаторами» . Международная конференция IEEE/CVF по компьютерному зрению (ICCV) , 2023 г. стр. 4172–4182. arXiv : 2212.09748 . дои : 10.1109/ICCV51070.2023.00387 . ISBN 979-8-3503-0718-4 . ISSN 2380-7504 . S2CID 254854389 . Архивировано из оригинала 17 февраля 2024 года . Проверено 17 февраля 2024 г.
- ^ Пекеньо IV, Антонио (15 февраля 2024 г.). «OpenAI представляет «Sora»: видеомодель AI, способную выдавать реалистичные подсказки для преобразования текста в видео» . Форбс . Архивировано из оригинала 15 февраля 2024 года . Проверено 15 февраля 2024 г.
- ^ «Созданное Сорой видео, на котором волки играют, с некоторыми проблемами с видео» . Новости ABC Австралия . Проверено 16 мая 2024 г.
- ^ Килкенни, Кэти (23 февраля 2024 г.). «Тайлер Перри приостановил расширение студии стоимостью 800 миллионов долларов после просмотра Sora OpenAI: «Работы будут потеряны» » . Голливудский репортер . Архивировано из оригинала 26 февраля 2024 года . Проверено 26 февраля 2024 г.
- ^ Эдвардс, Бендж (23 февраля 2024 г.). «Тайлер Перри приостанавливает расширение студии стоимостью 800 миллионов долларов из-за Sora от OpenAI» . Арс Техника . Архивировано из оригинала 26 февраля 2024 года . Проверено 26 февраля 2024 г.
Внешние ссылки [ править ]
