• Образ жизни
  • Технологии
Технологии

OpenAI показала новую революционную нейросеть Sora — она может генерировать потрясающе реалистичные видео! Что о ней известно?

Вечером 15 февраля компания OpenAI, создавшая ChatGPT и DALL-E, представила публике новую нейросеть Sora. Эта модель может генерировать на основе текстового описания невероятно правдоподобные видео, которые почти невозможно отличить от реальной съемки. Что известно о новинке? Кто уже получил к ней доступ? Какие отзывы дали о Sora профессионалы? Собрали все, что известно на данный момент. 

«Создание видео на основе текста» — так скромно и лаконично озаглавлен новый релиз на сайте компании OpenAI — компании, создавшей ChatGPT и DALL-E. За этим неброским названием скрывается презентация новой революционной модели искусственного интеллекта Sora (от японского 空, что значит небо), предназначенной для создания видеоконтента. 

Меньше чем за сутки Sora стала сенсацией, о которой пишут ведущие издания мира, а многочисленные видео, сгенерированные ею, заполнили собой соцсети всех, кто интересуется новыми технологиями. Новая разработка OpenAI умеет генерировать короткие ролики продолжительностью до одной минуты. Это могут быть фотореалистичные видео, анимация и даже имитация игрового процесса в Minecraft. Причем ролики могут быть как горизонтальными, так и вертикальными. 

В качестве иллюстрации возможностей Sora компания-разработчик опубликовала 48 роликов: среди них мамонты, несущиеся по заснеженной равнине; корги, делающий селфи на тропическом пляже; стильная девушка, идущая по улицам Токио, залитым светом неоновых ламп, детализированная панорама американского города времен золотой лихорадки. Кроме того, сооснователь OpenAI Сэм Альтман в своих соцсетях принимает «заявки» от пользователей и выкладывает сгенерированные видео. 

«Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями как самого объекта, так и фона. Модель понимает не только то, что пользователь запросил в командной строке, но и то, как эти вещи существуют в физическом мире», — явно не без гордости отмечают в OpenAI.

Как это работает?

Сообщается, что в основе работы Sora лежат технологии DALL-E 3, алгоритма позволяющего генерировать статичные изображения по текстовому запросу. Это так называемая диффузионная модель, которая позволяет превратить мешанину из пикселей в изображение.

Однако, отмечают эксперты, диффузионные модели используют и другие алгоритмы, которые позволяют генерировать изображение по тексту. Революционной Sora делает тот факт, что она также использует еще один принцип — так называемую модель-трансформер. Трансформеры используют в частности для текстовых моделей, таких как GPT-4 — они хорошо справляются с обработкой и генерацией текста. Однако использование такой технологии для создания видео потребовало изобретательности, ведь в видео нет слов и предложений. 

В результате сотрудникам OpenAI пришлось найти способ разрезать видео (и даже отдельные кадры!) на фрагменты, чтобы модель могла обращаться с ними, как со словами. «Это как если бы у вас была стопка всех видеокадров, и вы вырезали из нее маленькие кубики», — приводит MIT Technology Review (издание Массачусетского технологического института — одного из ведущих вузов мира) слова сотрудника OpenAI Тима Брукса. 

«[Сочетание технологий, лежащих в основе DALL-E и GPT], позволяет обрабатывать видеоданные инновационными способами, существенно улучшая существующие модели преобразования текста в видео, — пишет гонконгское издание BNN Braking. — Технология выделяется своей способностью поддерживать связное видеоповествование — подвиг, который одновременно произвел впечатление и оставил некоторую тревогу как у экспертов, так и у энтузиастов».

«Прыжок за пределы воображения»

Первые отзывы на Sora от журналистов и экспертов, пишущих о технологиях, преисполнены восторгами. Так, журнал Fortune озаглавил свой материал о новом алгоритме словами: «OpenAI только что перенесла битву ИИ-[алгоритмов] в Голливуд». 

«Не от мира сего» — такие слова одного из интернет-пользователей вынесла в заголовок статьи о Sora катарская Al Jazeera. В материале BNN Braking новинка называется «прыжком за пределы воображения». «Потенциальное применение такого инструмента может ознаменовать сейсмический сдвиг в том, как создается, потребляется и концептуализируется визуальный контент», — делает вывод издание.

«Кажется, все уже устали удивляться искусственному интеллекту и тому, с какой скоростью происходят перемены, — делится своими впечатлениями от релиза Sora в беседе с «Собака.ru» художник Никита Реплянский. — Невероятное качество, интересно будет увидеть возможность контролировать содержание этих видео. И мне как художнику особенно интересна возможность интеграции своего стиля и работа с ним внутри видео». 


Никита Реплянский

Художник:

Сейчас я вижу два основных направления [возможного применения этой технологии]. Первое — отдельный жанр искусства, где ИИ используется для реализации идей как медиа. Второе — прикладное использование в уже существующих видах искусства: разработка концептов, набросков, элементов, текстур или сопроводительных материалов к произведению. 

«Это определенно новое слово в генерации видео,  — добавляет в беседе с «Собака.ru»  Виталий Роговой, сотрудник факультета безопасности информационных технологий ИТМО. — Просто восторг! то, как здесь воссоздаются свет, тень, отражения и прозрачность материалов. К тому же отсутствие видимых артефактов, глаза, которые смотрят в одну точку... Это очень круто».

В свою очередь директор по стратегическому маркетингу компании «Яндекс» Андрей Себрант в комментарии для «Собака.ru»  напоминает, что по презентации пока рано судить о реальных возможностях Sora. «Публикация [OpenAL] не содержит [самой] модели,  это очень общее описание результатов ее работы без объяснений, почему получается именно так, — поясняет он. — Пока точно видно, что в генерации изображений, видео и, возможно, видеоигр достигнут качественный скачок. Теперь предстоит изучать, что он означает, помимо возможности создавать убедительные четки видосики». 

По мнению Себранта, потенциально самым интересным здесь является даже не возможность генерировать впечатляющие видео, а заявления OpenAI о том, что Sora приближает человечество к созданию подлинного искусственного интеллекта. 


Андрей Себрант

Директор по стратегическому маркетингу компании «Яндекс»:

Есть важная текущая проблема: отсутствие здравого смысла и понимания физики мира в современных моделях ИИ. Эта проблема ведет к пресловутым галлюцинациям. Если окажется, что физику мира не обязательно описывать отдельно и явно, а можно качественно передать глубокие знания о ней в процессе просто наблюдения (обучение на большом объеме хорошо аннотированных видео — это и есть наблюдения), это сможет качественно улучшить и уже существующие модели, и новые создавать другого класса. А вот насколько эти надежды разработчиков оправданы, пока сказать невозможно, нет исследований. Поэтому и надо ждать, когда про SOTA будет понимание «почему так», а не «что она умеет».

В свою очередь Игорь Котенков, специалист по машинному обучению, автор Telegram-канала «Сиолошная», также считает, что самым интересным в Sora является не сама по себе возможность генерации видео, а те перспективы, которые этот алгоритм открывает перед нейросетями в будущем. «Sora — это не инсрумент генерации видео, это инструмент создания картины мира внутри модели, чтобы нам не приходилось вручную программировать, что такое тень, физика снега, воды, — настаивает он, — Даже сам анонс техничесого описания от OpenAI называется "модели генерации видео как симуляторы мира". Все дело в том, что для хорошего предсказания кадров динамичного видео нужно действительно понимать (или выучить на основе данных, чем и занимаются нейросети), что такое перспектива, как устроен мир и так далее».

«Генерация видео просто удобный способ это выучить. Воспринимать этот анонс как "вау новый инструмент для creative creators" - значит не видеть большей картины. Это как смотреть на GPT и говорить "ого, умеет средненько генерировать стихи". Между тем GPT "перевернула стол" и теперь оказывает реальное влияние на продуктивность людей в самых разных индустриях», —  заключает Котенков.

Продолжение экспериментов

В самой OpenAI признают, что у Sora пока остаются слабые места, в том числе «моделирование сложной физики сцены»: «например, человек может откусить кусочек печенья, но после этого на печенье может не остаться следа от укуса», — говорится в тексте компании. Также разработчики признают, что пока Sora может путать право и лево. 

Впрочем, эти проблемы в OpenAI, очевидно, планируют решить в будущем, тем более что пока их новая разработка недоступна широкой публике. Сейчас с новинкой работают отдельные группы профессионалов, в том числе эксперты в области Fake news, вопросов этики, борьбы с языком ненависти. 

Когда разработка будет доступна широкой публике, не сообщается. При этом в компании отмечают, что «если модель будет развернута в рамках продукта OpenAI», то в ней будет предусмотрено использование специальных метаданных, которые позволят сказать, что изображение было сгенерировано Sora, а не снято на реальную камеру. 

«Мы будем привлекать политиков, преподавателей и художников по всему миру, чтобы понять, [какие] беспокойства вызывает у них наша технология, и определить положительные сценарии ее использования. Несмотря на обширные исследования и испытания, мы не можем предсказать все полезные варианты применения нашей технологии, а также все способы злоупотребления ее возможностями. Вот почему мы считаем, что обучение на примере реального использования является важнейшим компонентом создания и выпуска все более безопасных систем искусственного интеллекта», — заключают в OpenAI.

Комментарии (0)

Купить журнал:

Выберите проект: