Выбор локальной модели для автогенерации кода часто сводится к скучному чтению бенчмарков. Проблема в том, что абстрактные цифры не покажут способность нейросети написать рабочее приложение с нуля. Ниже мы стравливаем две плотные модели Qwen 3.6 27B и Gemma 4 31B в боевых условиях, заставляя их самостоятельно собрать десктопный Markdown-редактор с разделенным экраном.
Подготовка к эксперименту и железо
Синтетику мы отбрасываем сразу, поэтому задача максимально приближена к реальности: пишем десктопное приложение на связке фреймворка Tauri 2, Vue и Vite.
Для запуска таких тяжеловесов понадобится:
- мощная видеокарта с большим объемом памяти (в тесте используется Radeon Pro W7800 на 32 ГБ)
- терминальный агент разработчика OpenCode
- базовый текстовый файл с подробным описанием логики будущего приложения
Сначала мы скормим каждой модели описание проекта и заставим написать пошаговый план разработки. Промпт выглядит так:
@Markdown_Editor_Desktop.md this file contains a description of the application I want to build. Please create a detailed development plan, breaking down the entire process into small tasks with descriptions. Then, save this task plan into a markdown file.
После генерации плана мы запустим команду /init для инициализации проекта и попросим нейросеть выполнить все задачи из своего же плана в автономном режиме.
Раунд первый: проверяем Qwen 3.6 27B
Модель Qwen 3.6 потратила около четырех минут на создание плана. Документ получился отличным: нейросеть аккуратно разбила разработку на логичные фазы и сохранила все в отдельный файл.
Процесс написания самого кода занял 46 минут. Для сложной задачи с нуля это адекватный результат, но без косяков не обошлось. При попытке первого запуска фронтенд упал из-за кривого конфига Vite.
В файле vite.config.ts отсутствовал целый блок настроек локального сервера. После ручного добавления порта вылезла вторая ошибка, на этот раз в коде Rust. Нейросеть использовала устаревший метод из первой версии Tauri вместо актуального макроса Tauri 2.
Мелкий ручной фикс синтаксиса позволил запустить приложение. Результат оказался достойным: редактор, окно предпросмотра и кнопки форматирования текста заработали с первой попытки без каскадных багов.
Раунд второй: тестируем Gemma 4 31B
Сбрасываем окружение и запускаем ту же задачу на модели Gemma 4 31B. Эта нейросеть справилась с этапом планирования быстрее, уложившись в две с половиной минуты. Сам план оказался более плотным: количество общих фаз уменьшилось, зато мелких задач внутри стало больше.
Запуск автономного кодинга показал впечатляющую скорость. Gemma закончила всю работу всего за 20 минут.
Тут стоит сделать лирическое отступление про энергопотребление. При активной генерации кода десктоп потреблял около 330 Вт. Если гонять тяжелые локальные модели круглосуточно, счет за электричество может неприятно удивить. Учитывайте это при сборке домашнего сервера.
При первом запуске проект от Gemma ожидаемо крашнулся. Проблема оказалась на стороне бэкенда: нейросеть не добавила плагины Tauri для работы с файловой системой в файл cargo.toml, хотя в самом коде исправно пыталась их вызывать.
Добавляем забытые зависимости руками и смотрим на итоговый билд. Приложение успешно запустилось, файлы открываются, а нейросеть даже догадалась вынести всю документацию в отдельную директорию docs, что делает структуру репозитория гораздо чище.
Но есть один серьезный провал: модель полностью проигнорировала создание кнопок на панели инструментов для форматирования текста. Она сама прописала эту задачу в плане, но по дороге просто о ней забыла.
Итоги тестирования и вердикт
Обе модели уверенно справляются с архитектурой и написанием логики, но требуют контроля со стороны разработчика. Запускать их в слепом режиме и надеяться на готовый продакшен пока рано.
Выбор конкретной LLM зависит от вашего стиля работы:
- если вам важна дотошность и соблюдение всех UI-требований, берите Qwen 3.6 27B (готовьтесь править устаревший синтаксис и ждать лишние полчаса)
- если вам нужна скорость и чистая структура файлов, выбирайте Gemma 4 31B (готовьтесь дописывать забытые куски интерфейса руками)
Идеальный вариант для локальной разработки: комбинировать обе нейросети. План и архитектуру доверять более педантичной Qwen, а рутинную кодогенерацию отдельных компонентов перекидывать на быструю Gemma.