NVIDIA Blackwell Ultra 基准数据出炉:Agentic AI 性能提升 50 倍、成本降低 35 倍,微软 CoreWeave Oracle 已大规模部署

📌 一句话总结:NVIDIA 公布 Blackwell Ultra 平台最新基准数据,GB300 NVL72 系统在 Agentic AI 工作负载上实现每兆瓦吞吐量提升 50 倍、每 token 成本降低 35 倍,微软、CoreWeave、Oracle 已开始大规模部署。

2026-02-17 · 资讯分享 · 阅读时间约 4 分钟

Blackwell Ultra 到底强在哪

根据第三方分析机构 SemiAnalysis 最新发布的 InferenceX 基准测试数据,搭载 Blackwell Ultra GPU 的 NVIDIA GB300 NVL72 系统,在低延迟 AI 推理场景下取得了惊人的性能飞跃:

指标 对比 Hopper 平台
每兆瓦吞吐量 提升最高 50 倍
每百万 token 成本 降低最高 35 倍
NVFP4 算力 比标准 Blackwell 高 1.5 倍
注意力层处理速度 提升 2 倍(加速 softmax)

这些数字不是实验室里的理论值。SemiAnalysis 的基准测试显示,自 2025 年 10 月以来,单 GPU 在特定交互级别下的吞吐量已经翻倍。NVIDIA 表示,综合硬件和软件优化,每用户每秒 token 数提升了 10 倍,每兆瓦每秒 token 数提升了 5 倍——这些因素叠加,最终产生了 50 倍的 AI 工厂产出提升。

为什么瞄准 Agentic AI

根据 OpenRouter 的推理状态报告,与软件编程相关的 AI 查询占比已从去年的 11% 飙升至约 50%。AI Agent 和编程助手正在成为推理算力的最大消费者。

这类应用有两个核心需求:低延迟(多步骤工作流中每一毫秒都会累积放大)和长上下文(需要理解整个代码库)。Blackwell Ultra 恰好在这两个维度上实现了突破。

在 128K token 输入、8K token 输出的长上下文场景下,GB300 NVL72 的每 token 成本比 GB200 NVL72 还低 1.5 倍——这意味着 AI 编程助手可以经济高效地理解整个代码库。
— 来源:NVIDIA 官方博客

三大云巨头已率先部署

这不是一份「期货」公告——头部云厂商已经在生产环境中跑起了 GB300 NVL72:

  • 微软 Azure:部署了全球首个大规模 GB300 NVL72 超算集群,经 Signal65 验证,单机架实现超过 110 万 token/秒的吞吐量
  • CoreWeave:作为首家部署 GB300 NVL72 的 AI 云服务商,已将其整合进基于 Kubernetes 的云架构
  • Oracle OCI:正在部署 GB300 NVL72,计划将超级集群扩展至超过 10 万块 Blackwell GPU

CoreWeave 工程高级副总裁 Chen Goldberg 表示:「随着推理成为 AI 生产的核心,长上下文性能和 token 效率变得至关重要。Grace Blackwell NVL72 直接解决了这一挑战。」

此外,Baseten、DeepInfra、Fireworks AI 和 Together AI 等推理服务商此前已通过标准 Blackwell 平台实现了最高 10 倍的成本降低,Blackwell Ultra 将这一优势进一步延伸到了低延迟场景。

下一代 Rubin 平台已在路上

NVIDIA 同时预告了下一代 Vera Rubin NVL72 平台。官方数据显示,Rubin 在 MoE 推理上将比 Blackwell 再提升 10 倍每兆瓦吞吐量,训练大型 MoE 模型所需的 GPU 数量仅为 Blackwell 的四分之一。换句话说,NVIDIA 的算力军备竞赛远没有到终点。

富贵点评

50 倍性能提升、35 倍成本降低——这组数字看起来像是营销话术,但它背后的逻辑其实很扎实:不是单靠换芯片,而是芯片架构、系统设计和软件栈三者的「极致协同设计」。NVIDIA 真正厉害的地方在于,它不只是卖 GPU,而是在定义整个 AI 推理的基础设施标准。当微软、CoreWeave、Oracle 都在第一时间部署 GB300 时,这已经不是「要不要用」的问题,而是「不用就落后」的问题。更值得关注的是 Agentic AI 这个方向——编程相关查询从 11% 飙到 50%,说明 AI Agent 正在从概念走向真实的算力消耗。谁能把推理成本打下来,谁就能让 Agent 真正普及。NVIDIA 这次的信号很明确:未来的 AI 不是比谁的模型大,而是比谁的推理便宜。

📋 要点回顾

  • 性能飞跃:GB300 NVL72 在低延迟场景下实现每兆瓦吞吐量 50 倍提升,每百万 token 成本降低 35 倍
  • 硬件升级:Blackwell Ultra Tensor Core 算力提升 1.5 倍,注意力层处理速度翻倍
  • 瞄准 Agent:编程相关 AI 查询占比从 11% 飙升至 50%,低延迟和长上下文是刚需
  • 已在生产:微软、CoreWeave、Oracle 已大规模部署,单机架吞吐超 110 万 token/秒
  • 下一代预告:Rubin 平台将比 Blackwell 再提升 10 倍推理效率

❓ 常见问题

Q: Blackwell Ultra 和标准 Blackwell 有什么区别?

A: Blackwell Ultra 的 NVFP4 算力比标准 Blackwell 高 1.5 倍,注意力层处理速度翻倍。在长上下文场景(128K 输入)下,GB300 NVL72 的每 token 成本比 GB200 NVL72 低 1.5 倍。

Q: 50 倍性能提升是和谁比的?

A: 是 GB300 NVL72(Blackwell Ultra)与上上代 Hopper 平台的对比,衡量指标是每兆瓦吞吐量。这个数字包含了硬件升级和 TensorRT-LLM 等软件优化的综合效果。

Q: 这对普通开发者意味着什么?

A: 推理成本大幅下降意味着 AI 编程助手和 Agent 的使用成本会持续降低。云服务商部署 GB300 后,开发者调用 API 的价格有望进一步下探,长上下文推理(如分析整个代码库)将变得更加经济可行。

作者:王富贵 | 发布时间:2026-02-17

参考来源:NVIDIA 官方博客 · Dataconomy