Google объявил во вторник Люмьервидеогенератор с искусственным интеллектом под названием «Модель пространственно-временной диффузии для реалистичной генерации видео». Сопроводительный лист препринта. Но давайте не будем обманывать себя: он отлично справляется с созданием видеороликов с милыми животными в глупых ситуациях, например, катании на роликовых коньках, вождении автомобиля или игре на пианино. Конечно, он может больше, но это, вероятно, самый продвинутый видеогенератор на базе искусственного интеллекта, преобразующий текст в анимацию.
По данным Google, Люмьер использует уникальную структуру для создания всей продолжительности видео за один раз. Или, как выразилась компания: «Мы предлагаем пространственно-временную архитектуру U-Net, которая генерирует полную временную продолжительность видео сразу, за один проход в модели. Это в отличие от существующих видеомоделей, которые собирают длинные данные». ключевые кадры на расстоянии, за которыми следует сверхвысокое временное разрешение: «Это подход, который затрудняет достижение глобальной временной согласованности».
С точки зрения непрофессионала, технология Google предназначена для одновременной обработки аспектов пространства (где объекты находятся в видео) и времени (как объекты движутся и меняются на протяжении всего видео). Таким образом, вместо того, чтобы создавать видео путем сшивания множества мелких частей или кадров, он может создать все видео, от начала до конца, за один цельный процесс.
Люмьер также умеет делать множество трюков для вечеринок, которые хорошо изложены на примерах. Демо-страница Google. Например, он может выполнять преобразование текста в видео (преобразование письменной подсказки в видео), конвертировать неподвижные изображения в видеоклипы, создавать видеоролики в определенных стилях с использованием эталонного изображения, применять согласованное редактирование видео с использованием текстовых подсказок и создавать Кинематографические сегменты Путем перемещения определенных областей изображения и отображения видео com.inpainting Способности (например, могут менять тип одежды, которую носит человек).
В статье Люмьера исследователи Google сообщили, что модель искусственного интеллекта создает пятисекундные видеоролики с разрешением 1024 x 1024 пикселей, которые они описывают как «низкое разрешение». Несмотря на эти ограничения, исследователи провели исследование пользователей и заявили, что результаты Люмьера предпочтительнее моделей синтеза видео на основе искусственного интеллекта.
Что касается данных обучения, Google не уточнил, откуда они взяли видео, которые передали в Lumiere, написав: «Мы обучаем собственное устройство T2V». [text to video] Модель на наборе данных, содержащем 30 миллионов видеороликов вместе с их текстовыми заголовками. [sic] Видео длиной 80 кадров со скоростью 16 кадров в секунду (5 секунд). Базовая модель была обучена на разрешении 128 x 128».
Видео, генерируемое искусственным интеллектом, все еще находится в зачаточном состоянии, но за последние пару лет его качество улучшилось. В октябре 2022 года мы рассказали о первой публично представленной модели композиции изображений Google — Imagen Video. Он может создавать короткие видеоролики размером 1280 x 768 из набранной подсказки со скоростью 24 кадра в секунду, но результаты не всегда были последовательными. До этого Meta представила собственный генератор видео с искусственным интеллектом Make-A-Video. В июне прошлого года модель компоновки видео Gen2 от Runway позволила создавать двухсекундные видеоролики из текстовых подсказок, создавая сюрреалистические, сатирические рекламные ролики. А в ноябре мы рассказали о Stable Video Diffusion, который позволяет создавать короткие клипы из неподвижных изображений.
Компании, занимающиеся искусственным интеллектом, часто предлагают видеогенераторы с милыми животными, потому что создание связных, неискаженных людей в настоящее время затруднено, тем более что мы, люди (вы ведь люди, верно?), хорошо умеем замечать любые недостатки в телах людей или в том, как они двигаются. Просто посмотрите на Уилла Смита, созданного искусственным интеллектом, который ест спагетти.
Судя по примерам Google (а мы сами их не используем), Lumiere, похоже, превосходит другие модели создания видео на основе искусственного интеллекта. Но поскольку Google стремится держать свои исследовательские модели в области искусственного интеллекта при себе, мы не уверены, когда у общественности появится возможность опробовать их на себе.
Как всегда, когда мы видим, что модели синтеза текста в видео становятся более функциональными, мы не можем не подумать… Будущие последствия Для нашего онлайн-сообщества, которое занимается обменом медиа-элементами – и общим предположением, что «реалистичное» видео обычно представляет реальные вещи в реальных ситуациях, снятых на камеру. Будущие более мощные инструменты видеокомпозиции Lumiere сделают создание обманных дипфейков чрезвычайно простым.
С этой целью исследователи написали в разделе «Влияние на общество» статьи Люмьера: «Наша основная цель в этой работе — дать возможность начинающим пользователям создавать визуальный контент творческим и гибким способом. [sic] Однако существует риск неправомерного использования нашей технологии для создания фальшивого или вредного контента, и мы считаем, что необходимо разработать и внедрить инструменты для выявления предвзятостей и вредоносных случаев использования, чтобы обеспечить безопасное и добросовестное использование.
«Чрезвычайный решатель проблем. Ниндзя для путешествий. Типичный веб-наркоман. Проводник. Писатель. Читатель. Неизлечимый организатор».
More Stories
Сложный подъем для велосипедистов
AirPods Pro в списке «лучших изобретений» показывает, что Apple по-прежнему впечатляет
Apple включает неожиданные улучшения функций в свой MacBook Pro начального уровня