ITCOW牛新网 3月19日消息,在今日举行的 NVIDIA GTC 2025 大会上,英伟达宣布其 NVIDIA Blackwell DGX 系统刷新了 DeepSeek-R1 大模型推理性能的世界纪录。官方介绍称,在搭载八块 Blackwell GPU 的单个 DGX 服务器上,DeepSeek-R1 6710 亿参数模型可实现每用户每秒超 250 token 的响应速度,系统最高吞吐量突破每秒 3 万 token。

英伟达表示,自 2025 年 1 月以来,通过硬件和软件的协同优化,他们已将 DeepSeek-R1 671B 模型的吞吐量提升了约 36 倍。Blackwell 架构与 TensorRT 软件的结合,使其推理性能相较 Hopper 架构实现了显著提升。例如,运行 TensorRT 并采用 FP4 精度的 DGX B200 平台,在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上的推理吞吐量相较 DGX H200 提升超 3 倍。

英伟达强调,在低精度计算优化时,确保精度损失最小化是关键。TensorRT Model Optimizer 的 FP4 训练后量化(PTQ)技术在 DeepSeek-R1 模型上的测试结果表明,相较 FP8,FP4 精度在 MMLU、GSM8K、AIME 2024、GPQA Diamond、MATH-500 等多个基准测试中仅有微小损失。例如,DeepSeek R1-FP8 在 MMLU 数据集上的精度为 90.8%,FP4 版本为 90.7%,基本无损。
英伟达表示,随着 Blackwell Ultra GPU 和 Blackwell GPU 平台的持续优化,未来推理性能仍有望进一步突破。