iLLaDA: диффузионная языковая модель ByteDance приблизилась к Qwen2.5 Base

Исследователи из Университета Жэньминь и ByteDance представили iLLaDA — 8-миллиардную языковую модель, которая генерирует текст по диффузионной схеме, а не токен за токеном слева направо. На базовых бенчмарках она практически сравнялась с Qwen2.5 7B, но после инструкционной донастройки заметно уступает Qwen2.5 Instruct, особенно в математике и программировании.

Исследователи из китайского Университета Жэньминь (Renmin University) и ByteDance представили iLLaDA — dense-модель на 8 млрд параметров, построенную как diffusion language model. В отличие от авторегрессионных моделей, которые генерируют текст слева направо, iLLaDA начинает с последовательности маскированных токенов и уточняет их за несколько проходов, позволяя всем позициям учитывать друг друга двунаправленно.

iLLaDA обучали с нуля на 12 трлн токенов; предшественник LLaDA использовал 2,3 трлн. iLLaDA-Base набрала в среднем 63,9 балла по набору бенчмарков и немного опередила Qwen2.5 7B (63,3), а на бенчмарке рассуждений BBH улучшила результат LLaDA на 21,6 пункта. Модель также обошла другую диффузионную модель Dream 7B (61,4), хотя Dream была донастроена от существующего чекпойнта Qwen2.5.

На уровне instruction-модели разрыв пока остается существенным: iLLaDA-Instruct получила 67,1 балла против 77,1 у Qwen2.5 7B Instruct. Основная разница пришлась на математику и программирование; авторы связывают ее с тем, что Qwen2.5 дополнительно выравнивали с помощью обучения с подкреплением, которого у iLLaDA нет. В приложении к работе также отмечены зацикливания модели на сложных задачах рассуждения.

Источник: the-decoder.com

Связь с редакцией