Четверг Google раскрыть Gemini 1.5 Pro, который компания описывает как предлагающий «значительно повышенную производительность» по сравнению с предыдущей моделью. Путь компании в области искусственного интеллекта, рассматриваемый внутри компании как становится все более важным для его будущего — Он следует Представлена версия Gemini 1.0 Ultra На прошлой неделе, наряду с ребрендингом чат-бота Bard (на Gemini), чтобы обеспечить более мощные и универсальные возможности новой модели.
В своем анонсе в блоге генеральный директор Google Сундар Пичаи и генеральный директор Google DeepMind Демис Хассабис пытаются сбалансировать заверение своей аудитории в этической безопасности ИИ и рекламу возможностей своих быстро развивающихся моделей. «Наши команды продолжают расширять границы наших новейших моделей, в основе которых лежит безопасность», — подытожил Пичаи.
Компании необходимо подчеркнуть безопасность скептиков ИИ (в том числе одного… Бывший генеральный директор Google) И Государственные регуляторы. Но ей также необходимо подчеркнуть ускоряющуюся производительность своих моделей для разработчиков искусственного интеллекта, потенциальных клиентов и инвесторов, которые обеспокоены тем, что компания слишком медленно реагирует. Успех взлома OpenAI с ЧатGPT.
Пичаи и Хассабис говорят, что Gemini 1.5 Pro обеспечивает результаты, аналогичные Gemini 1.0 Ultra. Однако Gemini 1.5 работает на этом уровне более эффективно и требует меньших вычислительных затрат. Мультимедийные возможности включают обработку текста, изображений, видео, аудио или кода. По мере развития моделей ИИ они будут продолжать предлагать более разнообразный набор возможностей в одном ящике претензий (еще один недавний пример). OpenAI интегрирует генерацию изображений DALL-E 3 в ChatGPT).
Gemini 1.5 Pro также может обрабатывать до 1 миллиона токенов, а его модули моделирования данных на базе искусственного интеллекта могут обрабатывать их за один запрос. Google заявляет, что Gemini 1.5 Pro может обрабатывать более 700 000 слов, час видео, 11 часов аудио и кодовые базы с более чем 30 000 строк кода. Компания заявляет, что «успешно протестировала» версию, поддерживающую до 10 миллионов токенов.
Компания заявляет, что Gemini 1.5 Pro поддерживает высокую точность запросов с большим количеством токенов, когда у него есть больше новых данных для изучения. Она говорит, что ей понравилась модель Иголка в стоге сена. В этом тесте разработчики вставляют небольшой фрагмент информации в длинный блок текста, чтобы проверить, сможет ли модель ИИ его уловить. Google заявил, что Gemini 1.5 Pro может находить встроенный текст в 99 процентах случаев в блоках данных длиной до 1 миллиона токенов.
Google утверждает, что Gemini 1.5 Pro может отражать различные детали из 402-страничных стенограмм лунной миссии Аполлона-11. Кроме того, он может анализировать сюжетные линии и события из загруженного 44-минутного немого фильма с Бастером Китоном в главной роли. «Поскольку длинное контекстное окно 1.5 Pro является первым в своем роде среди крупномасштабных моделей, мы постоянно разрабатываем новые оценки и тесты для тестирования его новых возможностей», — написал Хассабис.
Google запускает Gemini 1.5 Pro с возможностями 128 000 токенов такое же количество Вот где модели OpenAI GPT-4 (объявленные публично) достигают своего предела. Хассабис говорит, что Google в конечном итоге представит новые ценовые уровни, поддерживающие до 1 миллиона уникальных запросов.
Gemini 1.5 Pro также умеет осваивать новые навыки на основе информации в длинных подсказках — без дополнительной настройки («обучение в контексте»). В стандарте под названием Машинный перевод одной книги,Модель выучила грамматику каламанга, языка, на котором говорят менее 200 человек по всему миру и которому раньше никогда не обучались. Компания заявляет, что Gemini 1.5 Pro изучает производительность на том же уровне, на котором человек изучает тот же контент при переводе с английского на каламанг.
В части объявления, которая привлечет внимание разработчиков, Google сообщает, что Gemini 1.5 Pro может выполнять задачи по решению проблем с помощью более длинных блоков кода. «Когда им предоставляется подсказка, содержащая более 100 000 строк кода, они могут лучше рассуждать на примерах, предлагать полезные модификации и объяснять, как работают различные фрагменты кода», — пишет Хассабис.
Что касается этики и безопасности, Google заявляет, что применяет «тот же подход к ответственной публикации», что и в моделях Gemini 1.0. Это включает в себя разработку и применение техник «красной команды», когда группа этических разработчиков по сути действует как адвокаты дьявола, проверяя «ряд потенциального вреда». Кроме того, компания заявляет, что проводит тщательную проверку в таких областях, как целостность контента и репрезентативный ущерб. Компания заявляет, что продолжает разрабатывать новые тесты этики и безопасности для своих инструментов искусственного интеллекта.
Google выпускает ранний доступ к Gemini 1.5 для разработчиков и корпоративных клиентов. Компания планирует со временем сделать его более доступным. Gemini 1.0 в настоящее время доступен потребителям вместе с Профессиональная альтернатива Это стоит 20 долларов в месяц.
«Чрезвычайный решатель проблем. Ниндзя для путешествий. Типичный веб-наркоман. Проводник. Писатель. Читатель. Неизлечимый организатор».
More Stories
Сложный подъем для велосипедистов
AirPods Pro в списке «лучших изобретений» показывает, что Apple по-прежнему впечатляет
Apple включает неожиданные улучшения функций в свой MacBook Pro начального уровня