概览
AI 推理 — 通过聊天机器人、copilot 和创意工具体验 AI — 正在以双倍指数级的速度扩展。在智能体工作流、长推理思考以及混合专家模型 (MoE) 的推动下,每次交互生成的 AI token 数量急剧增加,同时,用户采用率也持续攀升。
为了实现如此大规模的推理,NVIDIA 每年都会提供数据中心级架构。我们卓越的硬件和软件协同设计实现了性能数量级的飞跃,并持续降低 token 成本,从而使先进的 AI 体验在规模化应用中具有经济可行性。
NVIDIA Grace Blackwell Ultra 机架级系统架构的高性能计算平台每瓦 token 数是 Hopper™ 的 50 倍,成本降低了 35 倍,从而在相同的功率预算内更大限度地提高收益,提高利润空间。持续软件优化可在芯片、机架和数据中心规模上实现更高性能,随着时间的推移进一步提高投资回报率。
许多企业在评估人工智能基础设施时,往往只关注分子项:单块显卡每小时的使用成本。如果是云部署,这是支付给云提供商的小时费率;如果是本地部署,这是摊销自有基础设施而得出的有效小时成本。降低 token 成本的真正关键在于分母:最大化已交付的 token 输出。
而这个分母指标具备两个业务层面的含义。
1. 降低 token 成本:token 输出量提升后,结合成本计算公式来看,单位 token 成本随之下降,进而提高每一次交互服务的利润率。
2. 提升收益:每秒处理的 token 数量越多,每兆瓦能耗对应的 token 处理量也就越高。这意味着基于这套基础设施,AI 赋能产品与服务能承载更强的智能能力,在投入不变的情况下创造更多收益。
仅计算成本就显示,NVIDIA Blackwell 平台的成本似乎比 NVIDIA Hopper™ 高出 2 倍,但计算成本无法说明投资带来的产出。仅从每美元所能提供的浮点运算能力来看,与 NVIDIA Hopper 体系架构相比,NVIDIA Blackwell 具有 2 倍的优势。
然而,实际结果却存在几个数量级的差异:NVIDIA Blackwell 的每兆瓦 token 输出比 Hopper 高 50 倍以上,每百万 token 的成本降低近 35 倍。
| 指标 | NVIDIA Hopper |
NVIDIA Blackwell |
NVIDIA Blackwell 相较于 Hopper |
| 每 GPU 每小时的成本 ($) | $1.41 | $2.65 | 2 倍 |
| 每美元 FLOPS (PFLOPS) | 2.8 | 5.6 | 2 倍 |
| 每 GPU 每秒 token 数 | 90 | 6,000 | 65 倍 |
| 每兆瓦每秒 token 数 | 54K | 2.8M | 50 倍 |
| 每百万 token 成本 ($) | $4.20 | $0.12 | 降低至 1/35 |
优势
凭借出色的硬件和软件协同设计,NVIDIA Blackwell 架构高性能计算平台每瓦可提供比 Hopper 高 50 倍的 token 数,从而在相同的功率预算内更大限度地提高 AI 工厂的收入。持续软件优化可在芯片、机架和数据中心规模上实现更高性能,随着时间的推移进一步提高投资回报率。
与 NVIDIA Hopper 相比,NVIDIA Blackwell 高性能计算平台可将每个 token 的成本降至降低 35 倍,从而提高 AI 工厂的利润空间。每一代的性能提升都会远远超过基础设施成本,创造更好的经济效益,从而实现大规模的高级 AI 体验。
NVIDIA 支持生成式 AI、传统机器学习、科学计算、生物学和物理 AI 领域的各种模型。从对延迟敏感的实时应用到高吞吐量的批量处理,NVIDIA 可为每个用例提供出色性能。该平台提供了极大的灵活性和可编程性,可根据不断变化的工作负载和业务需求选择最佳配置。
NVIDIA 的生产就绪型软件 (包括 Dynamo 和 TensorRT™ LLM) 以及与 PyTorch、vLLM、SGLang 和 llm-d 等领先框架的原生集成,可提供强大的 AI 推理堆栈。随着模型架构和推理技术的快速发展,NVIDIA 的堆栈可确保提供从创新到生产的最快途径。
平台
强大的硬件若缺乏智能编排,便会浪费潜能;优秀的软件若没有高速硬件支撑,只会带来迟缓的推理性能。NVIDIA 推理平台提供持续优化的全栈解决方案,通过协同设计的计算、网络、存储与软件,可在各种工作负载中实现更高性能。
探索一些关键的 NVIDIA 硬件和软件创新。
客户成功案例
下载资源
根据 SemiAnalysis InferenceX 基准测试,截至 2026 年 4 月,NVIDIA Grace Blackwell Ultra机架级系统使用 NVIDIA Dynamo 和 TensorRT™-LLM 在 116 TPS/用户交互下提供每百万 Token 0.123 美元的 AI 推理,这是各大平台中每 token 的最低成本。
根据 SemiAnalysis InferenceX 基准测试 (2026 年第一季度),通过硬件-软件协同设计,NVIDIA Grace Blackwell Ultra 机架级系统在低延迟代理式工作负载方面,每兆瓦吞吐量提高多达 50 倍,每 token 成本比 NVIDIA Hopper™ 低多达 35 倍。NVIDIA Grace Blackwell Ultra 机架级系统搭载 Blackwell GPU,单 GPU 配备高显存。所有组件通过 NVIDIA NVLink™ 交换机互联,形成统一的 NVLink 互联架构,实现高带宽。这种体系架构最大限度地降低了全对全通信延迟,使 DeepSeek-R1 等大规模专家混合体 (MoE) 模型能够同时在多个 GPU 上高效扩展专家并行。
仅看计算定价或每美元 FLOP,无法全面了解推理 TCO。AI 推理 TCO 最重要的指标是单位 token 成本,或实际提供的性价比。 根据截至 2026 年 4 月的 SemiAnalysis InferenceX 基准测试,NVIDIA Grace Blackwell Ultra 机架级系统使用 NVIDIA Dynamo 和 TensorRT-LLM 技术,在 116 TPS/用户交互速度下,AI 推理成本为每百万 token 0.123 美元 - 这是各大平台中每 token 的最低成本。
在评估推理 TCO 时,重要的是要关注大规模专家混合体 (MoE) 和 DeepSeek-R1 等推理模型。 几乎所有最新的封闭和开源 LLM 都采用了 MoE 和推理架构,这归功于其卓越的智能和效率。 通过评估这些模型的推理 TCO,能确保分析结果贴合实际部署场景。
NVIDIA 的 TensorRT-LLM 和 Dynamo 软件栈可在不改变硬件的情况下,实现持续的推理成本优化。根据截至 2026 年 4 月的 SemiAnalysis InferenceX 基准测试,NVIDIA Grace Blackwell Ultra 机架级系统在 GPT-OSS-120B 上的每百万 Token 成本在两个月内从发布时的 0.11 美元降至 0.02 美元 - 仅软件一项就实现了 5 倍的提升。每个 TensorRT-LLM 版本通常通过内核融合、量化改进和调度优化来实现吞吐量提升。
后续步骤:了解更多 AI 推理 TCO