27.06.2026
Исследователи из Университета Жэньминь и ByteDance представили iLLaDA — 8-миллиардную языковую модель, которая генерирует текст по диффузионной схеме, а не токен за токеном слева направо. На базовых бенчмарках она практически сравнялась с Qwen2.5 7B, но после инструкционной донастройки заметно уступает Qwen2.5 Instruct, особенно в математике и программировании.
Исследователи из китайского Университета Жэньминь (Renmin University) и ByteDance представили iLLaDA — dense-модель на 8 млрд параметров, построенную как diffusion language model. В отличие от авторегрессионных моделей, которые генерируют текст слева направо, iLLaDA начинает с последовательности маскированных токенов и уточняет их за несколько проходов, позволяя всем позициям учитывать друг друга двунаправленно.
iLLaDA обучали с нуля на 12 трлн токенов; предшественник LLaDA использовал 2,3 трлн. iLLaDA-Base набрала в среднем 63,9 балла по набору бенчмарков и немного опередила Qwen2.5 7B (63,3), а на бенчмарке рассуждений BBH улучшила результат LLaDA на 21,6 пункта. Модель также обошла другую диффузионную модель Dream 7B (61,4), хотя Dream была донастроена от существующего чекпойнта Qwen2.5.
На уровне instruction-модели разрыв пока остается существенным: iLLaDA-Instruct получила 67,1 балла против 77,1 у Qwen2.5 7B Instruct. Основная разница пришлась на математику и программирование; авторы связывают ее с тем, что Qwen2.5 дополнительно выравнивали с помощью обучения с подкреплением, которого у iLLaDA нет. В приложении к работе также отмечены зацикливания модели на сложных задачах рассуждения.
Источник: the-decoder.com