17.06.2026
MLCommons опубликовала результаты MLPerf Training v6.0: в раунде участвовали 24 организации, 95 систем и 13 типов ускорителей. NVIDIA сообщила, что платформа Blackwell показала минимальное время обучения и лучшую производительность на один ускоритель во всех тестах, включая новые MoE-нагрузки DeepSeek-V3 и GPT-OSS 20B. Часть результатов масштабировалась до 8192 GPU Blackwell.
MLCommons, консорциум, поддерживающий стандартные бенчмарки MLPerf, опубликовала результаты MLPerf Training v6.0. Этот набор тестов измеряет время обучения моделей до заданного качества; в новой версии появились два бенчмарка для MoE-архитектур (Mixture-of-Experts): DeepSeek V3 с 671 млрд параметров и GPT-OSS 20B с 21 млрд параметров.
NVIDIA заявила, что ее платформа Blackwell заняла первые места по времени обучения в масштабе и по нормированной производительности на один ускоритель во всех тестах MLPerf Training v6.0. Компания также отметила, что была единственной, кто подал результаты по всем тестам, включая обе новые MoE-нагрузки.
Среди приведенных NVIDIA результатов: обучение DeepSeek-V3 за 2,02 минуты на 8192 GPU GB300 NVL72, GPT-OSS 20B за 7,43 минуты на 512 GPU и Llama 3.1 405B за 7,07 минуты на 8192 GPU GB200 NVL72. Система GB300 NVL72 объединяет 72 GPU Blackwell Ultra и 36 CPU Grace через NVLink и NVLink Switch.
NVIDIA связывает результаты не только с аппаратной частью, но и с оптимизациями программного стека: CUDA graphs для MoE-моделей, fusion-ядрами на CuTe DSL, FP8-блоками attention, оптимизацией маршрутизатора MoE и перекрытием all-to-all-коммуникаций. Для операторов ИИ-инфраструктуры эти результаты важны как ориентир по масштабированию обучения больших моделей в многоузловых кластерах.
Источник: developer.nvidia.com