Компания Google объявила о запуске модели искусственного интеллекта — Gemini. По заявлению генерального директора Google Сундара Пичаи, Gemini 1.0 на данный момент является самой мощной и универсальной ИИ-моделью компании. Он отметил, что технология изначально создавалась, как мультимодальная: она может обобщать, понимать, комбинировать и оперировать различными типами информации, включая текст, код, аудио, изображения и видео.
Gemini способна извлекать информацию из сотен тысяч документов посредством чтения, фильтрации и понимания, и это поможет добиться настоящего прорыва в области цифровых технологий в самых разных сферах — от науки до финансов. Gemini обучена распознавать и понимать текст, изображения, аудио и многое другое одновременно, поэтому она лучше разбирается в нюансах информации и может отвечать даже на сложные вопросы. Также новая ИИ-модель способна понимать и генерировать код на таких языках программирования, как Python, Java, C++ и Go.
Google не обучала отдельные модели для распознавания аудио и изображений, а с самого начала строила одну модель, способную воспринимать разные виды информации. И в Google обещают, что это восприятие будет только улучшаться.
"Есть еще такие вещи, как действие и прикосновение, что уже больше относится к области робототехники, — заявляет генеральный директор Google DeepMind Демис Хассабис. По его словам, со временем Gemini получит больше "чувств", станет осознанней и точнее. — Эти модели просто лучше понимают окружающий мир".
Модель Gemini 1.0 реализована в нескольких вариантах:
- Gemini Ultra — самая большая и мощная версия для решения сложных задач;
- Gemini Pro — версия среднего уровня для широкого спектра задач;
- Gemini Nano — версия для мобильных устройств.
Gemini Ultra стала первой ИИ-моделью, которая превзошла людей в многозадачном тесте под названием MMLU, который охватывает 57 предметов, включая математику, физику, право, медицину и этику. Gemini Ultra будет использоваться в новом инструменте для написания кода под названием AlphaCode2, который, по утверждению Google, способен в тестах превзойти 85% программистов-людей.
Gemini может эффективно работать на оборудовании различного типа: от центров обработки данных до мобильных устройств.
Что касается использования Gemini в продуктах Google, то чат-бот Bard уже получил Gemini Pro. Сейчас она доступна только на английском языке более чем в 170 странах, а в ближайшем будущем появится на других языках и в других местах, таких как Европа. Gemini Ultra еще тестируется и увидит свет в начале 2024 года. Ее интегрируют в продвинутую версию Bard под названием Bard Advanced. Gemini Nano будет внедряться в смартфоны. Google Pixel 8 Pro станет первым мобильным устройством с поддержкой этой технологии. В ближайшие месяцы поддержка Gemini появится в поиске, рекламе, браузере Chrome и других сервисах Google.
Подробнее о Gemini со сравнительными таблицами с GPT-4 здесь - Introducing Gemini: Google’s most capable AI model yet.