英伟达 GTC 2025：Blackwell DGX 系统创 DeepSeek-R1 推理性能纪录

3 月 19, 2025 #DeepSeek-R1, #GTC 2025, #英伟达

ITCOW牛新网 3月19日消息，在今日举行的 NVIDIA GTC 2025 大会上，英伟达宣布其 NVIDIA Blackwell DGX 系统刷新了 DeepSeek-R1 大模型推理性能的世界纪录。官方介绍称，在搭载八块 Blackwell GPU 的单个 DGX 服务器上，DeepSeek-R1 6710 亿参数模型可实现每用户每秒超 250 token 的响应速度，系统最高吞吐量突破每秒 3 万 token。

英伟达 GTC 2025：Blackwell DGX 系统创 DeepSeek-R1 推理性能纪录 — 运行 TensorRT-LLM 软件的 NVL8 配置的 NVIDIA B200 GPU 图源：英伟达

英伟达表示，自 2025 年 1 月以来，通过硬件和软件的协同优化，他们已将 DeepSeek-R1 671B 模型的吞吐量提升了约 36 倍。Blackwell 架构与 TensorRT 软件的结合，使其推理性能相较 Hopper 架构实现了显著提升。例如，运行 TensorRT 并采用 FP4 精度的 DGX B200 平台，在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上的推理吞吐量相较 DGX H200 提升超 3 倍。

英伟达强调，在低精度计算优化时，确保精度损失最小化是关键。TensorRT Model Optimizer 的 FP4 训练后量化（PTQ）技术在 DeepSeek-R1 模型上的测试结果表明，相较 FP8，FP4 精度在 MMLU、GSM8K、AIME 2024、GPQA Diamond、MATH-500 等多个基准测试中仅有微小损失。例如，DeepSeek R1-FP8 在 MMLU 数据集上的精度为 90.8%，FP4 版本为 90.7%，基本无损。

英伟达表示，随着 Blackwell Ultra GPU 和 Blackwell GPU 平台的持续优化，未来推理性能仍有望进一步突破。

人工智能头条关注

英伟达 GTC 2025：Blackwell DGX 系统创 DeepSeek-R1 推理性能纪录

相关文章

ChatGPT图像生成功能向免费用户开放每日限3次使用机会

李开复：大模型推理成本年降十倍 2025年将成AI应用落地关键年

Manus收费方案公布：月费39美元起，实现全流程自动化任务处理

更多资讯

中兴通讯换帅：方榕出任新董事长将推进”连接+算力”AI战略转型

国内运营商内测iPhone eSIM功能或为无卡槽iPhone 17 Air铺路

vivo Y300t手机发布：天玑7300+6500mAh电池国补后最低976元起

vivo Y300 Pro+手机发布：7300mAh电池+职业模式售价1799元起