Локальный запуск нейросети Gemma 4: тесты на ПК и Mac

Google выпустил новую линейку открытых нейросетей Gemma 4. Главная фишка релиза кроется в лицензии Apache 2.0. Для разработчиков это означает отсутствие привязки к корпоративным API, нулевой vendor lock-in и возможность легально крутить ИИ на собственном железе без риска слить конфиденциальные данные в чужое облако. Разбираемся с производительностью модели в боевых условиях на обычном макбуке и домашнем сервере.

Что под капотом у Gemma 4

Модели построены на базе технологий Gemini 3. Разработчики сделали упор на агентные рабочие процессы с нативной поддержкой вызова функций и генерацией структурированного JSON.

Отдельно стоит выделить мультимодальность. Все версии умеют работать с изображениями и видео, а младшие модели E2B и E4B напрямую понимают аудио без дополнительных костылей с транскрибацией текста. Контекстное окно составляет внушительные 128 тысяч токенов для младших моделей и 256 тысяч для старших. Этого хватит для загрузки объемных логов или документации.

Тест на макбуке: легкая модель E4B

Для первого теста берем MacBook Pro с чипом M4 Pro и 24 ГБ объединенной памяти. Большие веса сюда не влезут физически, поэтому через LM Studio скачиваем 8-битную квантованную версию E4B. В ней 7.5 миллиарда параметров, из которых 4 миллиарда активных. В оперативной памяти процесс отъедает около 12 ГБ.

Выкручиваем контекстное окно на максимум и даем базовую задачу на написание кода.

Write a Python function to sort a list of dictionaries by two keys

Модель выдала рабочий код с использованием lambda за 49 секунд. Средняя скорость составила около 31 токена в секунду, а задержка до первого токена заняла 4.5 секунды. Для локального запуска на ноутбуке это отличный результат.

Следом проверяем зрение. Загружаем фотографию рабочего стола и просим описать объекты. За 20 секунд нейросеть уверенно распознала клавиатуру, мышь, электронную книгу Kindle и даже текстуру стола. Лежащую рядом ручку она проигнорировала, но общую сцену определила точно.

Тест на десктопе: тяжелая модель 26B

Переходим к тяжелой артиллерии ⚙️. Тестовый стенд работает на Linux с процессором AMD Ryzen 7, 128 ГБ оперативной памяти и видеокартой GeForce RTX 4060 Ti на 16 ГБ. Сюда мы загружаем квантованную 26-миллиардную версию Gemma 4.

Модель целиком не помещается в видеопамять, поэтому LM Studio выгружает часть вычислений на процессор и системную RAM. Мониторинг через NVTop и HTop показывает полную утилизацию всех доступных ядер.

Повторяем тест с Python-сортировкой. На этот раз генерация заняла 1 минуту 3 секунды со скоростью 12 токенов в секунду. Падение скорости ожидаемо из-за возросшего размера весов и переброски вычислений на CPU.

Даем задачу сложнее. Просим создать полноценный инструмент для визуализации алгоритма пузырьковой сортировки.

Create a single "index.html" file that demonstrates a real-time visualization of the "Bubble Sort" algorithm. The goal is to create a clean, functional tool that helps a user understand how this specific algorithm works through movement and color.

Требования включали единый файл с JavaScript и CSS, темную тему, кнопки управления и ползунки скорости. Нейросеть сгенерировала монолитный HTML-документ, который без правок запустился в браузере. Анимация отрисовывается плавно, кастомные шрифты подключились, ползунок меняет скорость сортировки на лету.

Локальные сборки не заменят флагманские платные решения для архитектурного проектирования или рефакторинга гигантских кодовых баз. Их реальная ниша находится в закрытых контурах. Если вам нужно распарсить приватные логи, написать простую утилиту или отформатировать грязные данные без выхода в интернет, открытые модели семейства Gemma 4 закроют эти потребности полностью.