Google отвечает OpenAI прототипом ИИ-агента Project Astra.

Приблизить / Кадр из видео демонстрации Project Astra на конференции Google I/O в Маунтин-Вью 14 мая 2024 года.

Google

Всего через день после того, как OpenAI представила GPT-4o, который, по ее словам, способен понимать и рассказывать о том, что происходит в видеопотоке, Google объявила… Астра Проект, исследовательская модель с аналогичными возможностями понимания видео. Объявление было сделано генеральным директором Google DeepMind Демисом Хассабисом во вторник на конференции Google I/O в Маунтин-Вью, Калифорния.

Хассабис охарактеризовал Астру как «универсальное средство, полезное в повседневной жизни». Во время демонстрации модель поиска продемонстрировала свои возможности, определяя объекты, издающие звук, обеспечивая творческую аллитерацию, объясняя код на экране и находя неуместные предметы. Искусственный интеллект-помощник также продемонстрировал свой потенциал в портативных устройствах, таких как умные очки, где он может анализировать графики, предлагать улучшения и остроумно отвечать на визуальные подсказки.

Google утверждает, что Astra использует камеру и микрофон на устройстве пользователя для оказания помощи в повседневной жизни. Благодаря непрерывной обработке и кодированию видеокадров и речевого ввода Astra создает временную шкалу событий и кэширует информацию для быстрого вызова. Компания заявляет, что это позволяет ИИ идентифицировать объекты, отвечать на вопросы и запоминать увиденные вещи, которых больше нет в кадре камеры.

Project Astra: видение Google будущего помощников с искусственным интеллектом.

Хотя Project Astra все еще находится на ранней стадии и не имеет конкретных планов по запуску, Google намекнул, что некоторые из этих возможностей могут быть интегрированы в такие продукты, как приложение Gemini, позднее в этом году (в функции под названием «Gemini Live»), отмечая важную шаг вперед в разработке полезных помощников ИИ. Это попытка создать агента с «агентством», который сможет «думать наперед, рассуждать и планировать за вас», по словам генерального директора Google Сундара Пичаи.

Еще в Google AI: 2 миллиона иконок

Во время Google I/O компания обнародовала множество объявлений, связанных с искусственным интеллектом, некоторые из которых мы можем осветить в отдельных публикациях в будущем. А пока вот краткий обзор.

В начале своего выступления Пичаи упомянул «улучшенную» версию февральского выпуска Gemini 1.5 Pro (как ни странно, тот же номер сборки), которая выйдет в ближайшее время. Он будет иметь контекстное окно, содержащее 2 миллиона значков, что означает, что он может одновременно обрабатывать большое количество документов или длинные фрагменты зашифрованного видео. Токены — это фрагменты данных, которые модели языка ИИ используют для обработки информации, а контекстное окно определяет максимальное количество токенов, которые модель ИИ может обработать одновременно. В настоящее время 1.5 Pro лидирует с 1 миллионом токенов (для сравнения, OpenAI GPT-4 Turbo имеет окно в 128 000 токенов).

Мы спросили исследователя искусственного интеллекта Саймона Уиллисона, который не работает в Google, но появился в рекламном видеоролике во время основного выступления, что он думает о рекламе в контекстном окне. «Иметь 2 миллиона токенов — это здорово», — ответил он в текстовом сообщении, сидя в основной аудитории. «Но стоит помнить о цене: 7 долларов за миллион токенов означают, что одна претензия может стоить вам 14 долларов!» Google сборы 7 долларов США за миллион входных токенов против 1,5 долларов США за заявки длиной более 150 000 токенов через API.

Во время выступления на Google I/O 2024 компания Google заявила, что ее Gemini Advanced — Приблизить / Во время своего выступления на Google I/O 2024 компания Google заявила, что Gemini Advanced имеет «самое длинное контекстное окно в мире» с 1 миллионом токенов — и скоро достигнет 2 миллионов.

Google

Говоря о токенах, Google объявил, что ранее анонсированное контекстное окно на 1 миллион токенов для Gemini 1.5 Pro наконец-то станет доступно подписчикам Gemini Advanced. Раньше он был доступен только в интерфейсе прикладного программирования (API).

Google также анонсировала новую модель искусственного интеллекта под названием Близнецы 1.5 флэш, который описывается как облегченная, быстрая и менее дорогая версия Gemini 1.5. «1.5 Flash — это новейшее дополнение к семейству моделей Gemini и самая быстрая модель Gemini, представленная в API. Она оптимизирована для крупномасштабных и высокочастотных задач», — сообщает Google.

У Уиллисона также был комментарий по поводу Flash: «Новая модель Gemini Flash многообещающа и должна обеспечить до 2 миллионов токенов по более низкой цене». Стоимость Flash составляет 0,35 доллара США за миллион токенов для заявок длиной более 128 000 токенов и 0,70 доллара США за миллион токенов для заявок длиной более 128 000 токенов. Это десятая часть цены 1.5 Pro.

«35 центов за миллион токенов! Это самая большая новость дня, ИМХО», — сказал нам Уиллисон.

Как объявил Google Драгоценные камни, который, похоже, является версией GPT OpenAI. Gems — это специальные роли для чат-бота Google Gemini, которые будут играть определенную вами роль, позволяя вам настраивать Gemini по-разному. Google перечисляет примеры потенциальных драгоценностей, таких как «приятель по спортзалу, су-шеф, партнер по программированию или руководство по творческому письму».

Новые генеративные модели искусственного интеллекта

Приблизить / Скриншот Google Imagen 3.

Google

Также на программном докладе Google I/O во вторник компания Google анонсировала несколько новых моделей генеративного искусственного интеллекта для создания изображений, аудио и видео. Рисунок 3 Это последняя модель в линейке монтажей изображений, которая, по словам Google, является «моделью преобразования текста в изображение высочайшего качества, способной создавать изображения с большей детализацией, более насыщенным освещением и меньшим количеством отвлекающих артефактов, чем наши предыдущие модели».

Google также продемонстрировал Music AI Sandbox, которую Google описывает как «набор инструментов искусственного интеллекта, позволяющих изменить процесс создания музыки». Он сочетает в себе музыкальный проект на ютубе С л Лирия Генератор музыки с искусственным интеллектом в инструменты для музыкантов.

Как сообщила компания Google Просмотр, конструктор преобразования текста в видео, который создает видео 1080p из подсказок с качеством, которое соответствует Sora OpenAI. Google сообщает, что работает с актером Дональдом Гловером над созданием фильма-объяснения, созданного с помощью искусственного интеллекта, премьера которого скоро состоится. Это не первый создатель видео с искусственным интеллектом от Google, но он, похоже, самый способный.

В приведенном выше примере видео, предоставленном Google, использовалась следующая подсказка: «Одинокий ковбой едет на лошади по открытой равнине на фоне красивого заката, мягкого света и теплых цветов».

Google сообщает, что с сегодняшнего дня ее новые творческие инструменты искусственного интеллекта доступны только для избранных авторов в режиме частной предварительной версии, но списки ожидания открыты.

Mattia Luca

«Чрезвычайный решатель проблем. Ниндзя для путешествий. Типичный веб-наркоман. Проводник. Писатель. Читатель. Неизлечимый организатор».

Еще в Google AI: 2 миллиона иконок

Новые генеративные модели искусственного интеллекта

LG OLED G4 — это шедевр дизайна телевизора и качества изображения.

GPS-компьютер Trimm One Light на солнечной энергии

Юным футболистам необходимы более длительные периоды отдыха, чтобы предотвратить травмы и обеспечить оптимальное восстановление.

Астронавт НАСА публикует фотографию Луны над Тихим океаном: «Удивительно»

LG OLED G4 — это шедевр дизайна телевизора и качества изображения.

GPS-компьютер Trimm One Light на солнечной энергии

Юным футболистам необходимы более длительные периоды отдыха, чтобы предотвратить травмы и обеспечить оптимальное восстановление.

Main Menu

Свежие записи

Pages

Еще в Google AI: 2 миллиона иконок

Новые генеративные модели искусственного интеллекта

Добавить комментарий Отменить ответ

More Stories

LG OLED G4 — это шедевр дизайна телевизора и качества изображения.

GPS-компьютер Trimm One Light на солнечной энергии

Юным футболистам необходимы более длительные периоды отдыха, чтобы предотвратить травмы и обеспечить оптимальное восстановление.

You may have missed

Астронавт НАСА публикует фотографию Луны над Тихим океаном: «Удивительно»

LG OLED G4 — это шедевр дизайна телевизора и качества изображения.

GPS-компьютер Trimm One Light на солнечной энергии

Юным футболистам необходимы более длительные периоды отдыха, чтобы предотвратить травмы и обеспечить оптимальное восстановление.