Google запустила собственную нейросеть Gemini: чем она особенна
Googe представила свою большую языковую модель (LLM) Gemini, которую в компании называют самой мощной и эффективной моделью искусственного интеллекта (ИИ) среди всех существующих.
Впервые Gemini анонсировали еще в мае этого года на мероприятии I/O 2023. Как рассказали в корпорации, в целом нейросеть нацелена на простую интеграцию с API и другими инструментами.
Gemini содержит три компоненты, каждая из которых поддерживает фото, аудио и видео:
- Ultra — самая большая и функциональная, в основном предназначенная для использования в центрах обработки данных и интеграции с корпоративными приложениями;
- Pro — для решения широкого круга задач, в будущем она станет основой для сервисов Google;
- Nano — для конкретных задач и автономной работы на Android.
Наиболее мощной среди них является Ultra, которая включает информацию по 57 предметам (математике, физике, истории, праву, медицине, этике и другим). Также она способна самостоятельно проверять факты и решать проблемы, возникающие в процессе. В общем доступе эта модель появится только в следующем году.
«Gemini — это результат совместных усилий различных команд Google. Эта модель была создана с нуля. Она может обобщать и легко понимать, обрабатывать и комбинировать различные типы информации, включая текст, код, аудио, изображения и видео», — заявил Сундар Пичаи, генеральный директор Alphabet Inc., материнской компании Google.
Начиная с 7 декабря, Google Bard использует Gemini Pro для помощи пользователям в планировании, понимании сложных тем и других задач. Также с 13 декабря разработчики и корпоративные клиенты смогут получить доступ к модели Pro через Google Generative AI Studio или Vertex AI в облачной платформе Google Cloud.
Gemini против ChatGPT
Сейчас Gemini может обрабатывать запросы только на английском, но в будущем планируется добавить поддержку других языков.
Во время презентации Gemini гендиректор Google DeepMind Демис Гассабис сообщил, что компания провела тщательное сравнение своей языковой модели с GPT-4, последней версией нейросети, лежащей в основе ChatGPT.
По его словам, Gemini опережает конкурента по 30 из 32 показателей. В некоторых тестах нейросеть Google опережает GPT-4 минимально, тогда как в других — более ощутимо.
Наибольшим преимуществом Gemini во время тестирований стала его способность понимать видео и аудио, а также взаимодействовать с ними. В целом Google придерживается идеи интегрировать эти возможности непосредственно в Gemini, в отличие от OpenAI, которая создала отдельные ИИ-модели для обработки изображений и аудио, такие как DALL-E и Whisper.
На данный момент базовые версии Gemini поддерживают только текстовый ввод и вывод, но более мощные версии алгоритма, включая Gemini Ultra, способны работать с изображениями, видео и аудио.