Данные Разработка Безопасность Инфраструктура Курсы и книги

Google выпустила DiffusionGemma — модель для быстрой локальной генерации текста

CITNews

11.06.2026

Google DeepMind представила DiffusionGemma — экспериментальную открытую модель семейства Gemma 4, которая генерирует текст блоками, а не токен за токеном. Компания заявляет о приросте скорости до четырех раз на выделенных GPU, но предупреждает, что по качеству вывода модель уступает стандартным Gemma 4.

Google DeepMind представила DiffusionGemma — экспериментальную открытую языковую модель, построенную на семействе Gemma 4. В отличие от обычных авторегрессионных LLM, которые выдают текст слева направо по одному токену, DiffusionGemma использует текстовую диффузию: итеративно уточняет блок из 256 токенов и формирует его параллельно.

Модель имеет архитектуру Mixture of Experts: всего 26 млрд параметров, во время инференса активируются 3,8 млрд. По данным Google, на выделенных GPU она обеспечивает до четырехкратного ускорения генерации текста: более 1000 токенов в секунду на одном NVIDIA H100 и более 700 токенов в секунду на GeForce RTX 5090. В квантованном варианте DiffusionGemma должна укладываться в 18 Гбайт видеопамяти.

Google позиционирует модель не как замену Gemma 4 для продукционных систем, а как инструмент для сценариев, где важны задержка и интерактивность: локальное редактирование, быстрые итерации, infill-задачи, работа с нелинейными структурами текста или кода. Компания отдельно отмечает компромисс: ради скорости и параллельной генерации качество вывода ниже, чем у стандартных авторегрессионных Gemma 4.

Веса DiffusionGemma выпущены под лицензией Apache 2.0 и доступны на Hugging Face. Для разработчиков опубликовано руководство; запуск поддерживается через Hugging Face Transformers, vLLM, MLX, SGLang и NVIDIA NeMo, а поддержка llama.cpp заявлена как готовящаяся.

Источник: blog.google

Новости IT

11 июня 2026

Росстандарт утвердил ГОСТ для игрушек с искусственным интеллектом

11 июня 2026

WhatsApp повысит минимальные требования к iOS и Android в 2026 году

11 июня 2026

В Южной Корее Coupang оштрафовали на 624,7 млрд вон за утечку и сбор данных

11 июня 2026

Oracle предупредила о критической RCE-уязвимости PeopleSoft на фоне сообщений об атаках ShinyHunters

11 июня 2026

AMD оценила Epyc Venice: производительность на стойку более чем в 3 раза выше, чем у Nvidia Vera