11.06.2026
Google DeepMind представила DiffusionGemma — экспериментальную открытую модель семейства Gemma 4, которая генерирует текст блоками, а не токен за токеном. Компания заявляет о приросте скорости до четырех раз на выделенных GPU, но предупреждает, что по качеству вывода модель уступает стандартным Gemma 4.
Google DeepMind представила DiffusionGemma — экспериментальную открытую языковую модель, построенную на семействе Gemma 4. В отличие от обычных авторегрессионных LLM, которые выдают текст слева направо по одному токену, DiffusionGemma использует текстовую диффузию: итеративно уточняет блок из 256 токенов и формирует его параллельно.
Модель имеет архитектуру Mixture of Experts: всего 26 млрд параметров, во время инференса активируются 3,8 млрд. По данным Google, на выделенных GPU она обеспечивает до четырехкратного ускорения генерации текста: более 1000 токенов в секунду на одном NVIDIA H100 и более 700 токенов в секунду на GeForce RTX 5090. В квантованном варианте DiffusionGemma должна укладываться в 18 Гбайт видеопамяти.
Google позиционирует модель не как замену Gemma 4 для продукционных систем, а как инструмент для сценариев, где важны задержка и интерактивность: локальное редактирование, быстрые итерации, infill-задачи, работа с нелинейными структурами текста или кода. Компания отдельно отмечает компромисс: ради скорости и параллельной генерации качество вывода ниже, чем у стандартных авторегрессионных Gemma 4.
Веса DiffusionGemma выпущены под лицензией Apache 2.0 и доступны на Hugging Face. Для разработчиков опубликовано руководство; запуск поддерживается через Hugging Face Transformers, vLLM, MLX, SGLang и NVIDIA NeMo, а поддержка llama.cpp заявлена как готовящаяся.
Источник: blog.google