Обзор модели Gemma 4 31B: тесты на логику, код и зрение

Google недавно выкатила новую open-source модель Gemma 4 31B, и мы решили проверить, на что она реально способна. В меню заявлены встроенное зрение и режим рассуждения. Посмотрим, сможет ли она писать нормальный код, не завалить школьную математику и потягаться с популярными китайскими аналогами.

Характеристики и запуск через Docker

Модель на 31 миллиард параметров уже неплохо толкается локтями в рейтингах LMSYS Chatbot Arena, уверенно обходя Qwen и GLM. Чтобы завести ее локально и заставить «думать» перед ответом, потребуется vLLM.

Пример команды для запуска контейнера. Обратите внимание на флаг активации режима рассуждений.

docker run -p 8000:8000 -v ~/.cache/huggingface:/root/.cache/huggingface --gpus all vllm/vllm-openai:latest --model google/gemma-4-31b --enable-reasoning

Логика и режим рассуждения

С банальной логикой модель справляется без ошибок. Мы прогнали ее через три базовых сценария:

добраться до автомойки (предложила доехать на машине, а не идти пешком);
разобраться с кружкой, у которой запаян верх и нет дна (догадалась ее перевернуть);
решить классическую проблему вагонетки (грамотно съехала с темы, сославшись на то, что она ИИ и не принимает ничью сторону).

Генерация кода для браузерных игр

Самая полезная часть — написание рабочего кода. Gemma 4-31B выдает отличный HTML, CSS и JavaScript.

С симуляциями результат отличный. Интерактивная 3D-модель планеты получилась со второй попытки, а симуляция лодки на волнах заработала сразу. Но настоящий сюрприз модель преподнесла в играх. С одного промпта она выдала рабочий код для классических Breakout и Tetris. Более того, ИИ без проблем написал псевдо-3D шутер в стиле Doom с алгоритмом raycasting и преследователями.

Типичный промпт для таких задач выглядит так.

Write a single-file HTML/JS game similar to Doom using raycasting. Include player movement, textured walls, and basic chasing enemies.

Компьютерное зрение и работа с графикой

А вот с модулем Vision все не так однозначно. Идеального зрения пока не завезли ⚠️. Модель тестировалась в четырех графических сценариях:

верстка сайта по наброску от руки (полный провал и некрасивый дизайн);
создание сайта по скриншоту-референсу (отличный результат);
распознавание математических формул (модель не смогла правильно перенести данные в LaTeX, перепутав рукописную гамма-функцию с буквой «T»);
генерация SVG-кода (простой пеликан на велосипеде нарисовался нормально, а вот геймпад от PlayStation 5 стал подозрительно похож на контроллер от Xbox).

Gemma 4 31B — мощный инструмент, который уверенно держится на одном уровне качества с Qwen 3.5 27B. Главный недостаток кроется в ее архитектуре. Это плотная (dense) модель, поэтому токены генерируются медленнее, чем у китайских конкурентов. Плюс Google не так часто радует релизами обновлений. Тем не менее, для генерации кода и распутывания сложных логических цепочек ее мощностей хватает с запасом. Запускайте контейнер, отдавайте ей рутину и идите пить кофе.