Сбер выложил в открытый доступ диффузионную языковую модель GFusion на основе GigaChat

Сбер представил экспериментальную диффузионную языковую модель GFusion, построенную на базе GigaChat. В отличие от классических авторегрессионных LLM, она формирует текст не слово за словом, а поэтапно дорабатывая черновой «набросок» ответа. По тестам компании, модель работает быстрее GigaChat 3, на котором обучалась.

Сбер разработал и опубликовал в открытом доступе GFusion — экспериментальную диффузионную языковую модель, построенную на основе GigaChat. Классические (авторегрессионные) языковые модели генерируют текст последовательно, слово за словом, и, чтобы исправить одну ошибку, вынуждены фактически переписывать ответ заново.

GFusion, по описанию разработчиков, работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово его дорабатывает — по тому же принципу, по которому нейросети генерируют изображения и видео. За счёт параллельной генерации текст пишется быстрее: согласно тестам Сбера, модель работает до 45% быстрее GigaChat 3, на базе которого она обучалась.

Помимо скорости, в компании отмечают большую гибкость генерации: текст не обязательно формируется строго слева направо — модель сама выбирает, какую часть ответа дополнить на каждом шаге. Кроме того, диффузионные модели, по словам разработчиков, извлекают больше информации из ограниченного объёма данных, обучаясь на одном и том же датасете несколько раз.

Диффузионные языковые модели в Сбере называют одним из наиболее перспективных и сложных направлений в генеративном ИИ. По заявлению компании, GFusion — первая выпущенная в открытый доступ диффузионная модель для генерации текста такого масштаба в России. Вместе с самой моделью Сбер опубликовал инструменты, ускоряющие обучение диффузионных моделей.

Источник: ixbt.com

Связь с редакцией