04.06.2026
Google представила Gemma 4 12B — 12-миллиардную мультимодальную модель семейства Gemma с открытыми весами. Компания заявляет, что модель можно запускать локально на системах с 16 Гбайт VRAM или унифицированной памяти; веса доступны под лицензией Apache 2.0.
Google представила Gemma 4 12B, новую модель с открытыми весами в семействе Gemma. Она занимает промежуточное место между компактными edge-моделями E2B/E4B и более крупной Gemma 4 26B Mixture-of-Experts.
Gemma 4 12B рассчитана на локальный запуск: Google указывает, что для работы достаточно 16 Гбайт VRAM или унифицированной памяти. По утверждению компании, на стандартных бенчмарках модель приближается к 26B MoE, но требует менее половины ее объема памяти.
Главное архитектурное отличие — отказ от отдельных мультимодальных энкодеров. В техническом описании Google поясняет, что изображение и аудио напрямую проецируются в пространство входов LLM: для визуальных данных используется легкий embedding-модуль, а аудиосигнал подается через линейную проекцию. Такой подход должен снизить задержки и упростить настройку мультимодальных приложений.
Модель поддерживает текст, изображения, видео и аудио, а также поставляется с Multi-Token Prediction (MTP) drafters для снижения задержки генерации. Предобученные и instruction-tuned чекпойнты опубликованы на Hugging Face и Kaggle; запуск поддерживается через LM Studio, Ollama, Google AI Edge Gallery, LiteRT-LM, Hugging Face Transformers, llama.cpp, MLX, SGLang и vLLM.
Источник: blog.google