AI 推理解决方案

NVIDIA 推理平台

为高性能、高效率和高盈利能力的 AI 工厂提供支持。

开始体验

阅读系列博客 | 性能基准测试 | 开发者学习资料

概览
性能
优势
平台
客户案例
资源
后续步骤

概览
性能
优势
平台
客户案例
资源
后续步骤

开始体验

概览

如何实现 AI 推理的盈利性规模化

AI 推理 — 通过聊天机器人、copilot 和创意工具体验 AI — 正在以双倍指数级的速度扩展。在智能体工作流、长推理思考以及混合专家模型 (MoE) 的推动下，每次交互生成的 AI token 数量急剧增加，同时，用户采用率也持续攀升。

为了实现如此大规模的推理，NVIDIA 每年都会提供数据中心级架构。我们卓越的硬件和软件协同设计实现了性能数量级的飞跃，并持续降低单位 token 成本，从而使先进的 AI 体验在规模化应用中具有经济可行性。

基于 NVIDIA Blackwell 架构的高性能计算平台每瓦 token 数是 Hopper™ 的 50 倍，成本降低了 35 倍，从而在相同的功率预算内更大限度地提高收益，提高利润空间。持续软件优化可在芯片、机架和数据中心规模上实现更高性能，随着时间的推移进一步提高投资回报率。

NVIDIA Vera Rubin 开启下一个 AI 前沿

NVIDIA Vera Rubin 平台由 7 种现已全面投产的新芯片组成，可扩展全球最大的 AI 工厂。

阅读博客

领先的推理服务供应商在 NVIDIA Blackwell 上利用开源模型将 AI 成本降到甚至 1/10 的水平

Baseten、Deep Infra、Fireworks AI 和 Together AI 正在通过在 NVIDIA Blackwell 平台上运行优化的推理栈，降低各行业的单位 Token 成本。

阅读博客

推理性能降低 token 成本

单击查看大图

DeepSeek-R1 8K/1K 结果显示，NVIDIA Blackwell GB200 NVL72 的性能优势和收入机会是 Hopper H200 的 15 倍。

优势

更高的性能更大限度地提高收益

凭借出色的硬件和软件协同设计，NVIDIA Blackwell 架构高性能计算平台每瓦可提供比 Hopper 高 50 倍的 token 数，从而在相同的功率预算内更大限度地提高 AI 工厂的收入。持续软件优化可在芯片、机架和数据中心规模上实现更高性能，随着时间的推移进一步提高投资回报率。

更低的 token 成本，拓展了利润空间

与 NVIDIA Hopper 相比，NVIDIA Blackwell 高性能计算平台可将每个 token 的成本降至降低 35 倍，从而提高 AI 工厂的利润空间。每一代的性能提升都会远远超过基础设施成本，创造更好的经济效益，从而实现大规模的高级 AI 体验。

全栈优化每个模型和用例

NVIDIA 支持生成式 AI、传统机器学习、科学计算、生物学和物理 AI 领域的各种模型。从对延迟敏感的实时应用到高吞吐量的批量处理，NVIDIA 可为每个用例提供出色性能。该平台提供了极大的灵活性和可编程性，可根据不断变化的工作负载和业务需求选择最佳配置。

原生集成加速部署

NVIDIA 的生产就绪型软件 (包括 Dynamo 和 TensorRT™ LLM) 以及与 PyTorch、vLLM、SGLang 和 llm-d 等领先框架的原生集成，可提供强大的 AI 推理堆栈。随着模型架构和推理技术的快速发展，NVIDIA 的堆栈可确保提供从创新到生产的最快途径。

平台

极致的硬件软件协同设计

强大的硬件若缺乏智能编排，便会浪费潜能；优秀的软件若没有高速硬件支撑，只会带来迟缓的推理性能。NVIDIA 推理平台提供持续优化的全栈解决方案，通过协同设计的计算、网络、存储与软件，可在各种工作负载中实现更高性能。

探索一些关键的 NVIDIA 硬件和软件创新。

NVIDIA Vera Rubin 计算平台

与 Blackwell 相比，NVIDIA Vera Rubin 高性能计算平台的每瓦性能提高了 10 倍，每 token 的成本降低至 1/10。通过极致协同设计，该平台将 Rubin GPU 与 LPX 配对，实现大规模上下文预填充，从而实现快速解码，无需在速度和规模之间进行权衡。

探索 7 款新芯片、一台 AI 超级计算机

NVIDIA Grace Blackwell 架构 CPU

NVIDIA Grace Blackwell 高性能计算平台将 72 个 NVIDIA Blackwell 架构 GPU 与 NVIDIA NVLink™ 相结合，可大规模部署大规模推理模型，同时将 token 成本降低至 1/10。

体验关于 GB200 NVL72 的卓越 AI 推理性能

NVIDIA Dynamo

NVIDIA Dynamo 是一个开源、分布式推理服务框架，可在 AI 工厂规模的多节点环境中部署模型。它通过分解推理、优化路由以及通过数据缓存将内存扩展到经济高效的存储层来简化分布式服务。

使用 Dynamo 在多个节点上无缝部署

TensorRT LLM

TensorRT LLM 是一个开源库，可在 NVIDIA GPU 上持续优化高性能实时 LLM 推理。借助模块化 Python 运行时、原生 PyTorch 开发方式和稳定的生产 API，经过深度优化，可最大化吞吐量、最小化成本，并带来流畅的用户体验。

使用 TensorRT LLM 优化推理

解析性能帕累托最优曲线

您是否想过复杂的 AI 权衡如何转化为实际成果？探索下方性能曲线中的不同点，亲身体验硬件和软件协同设计如何助力 NVIDIA Blackwell Ultra 成为性能卓越、高效且盈利能力卓越的选择。

TPS / user

–

TPS / MW

–

模拟聊天体验

DeepSeek R1 ISL = 32K, OSL = 8K，在 GB300 NVL72 上使用 FP4 和 Dynamo 做 P/D 分离部署。在 H100 上使用 FP8 实时批处理 (in-flight batching)。该数据仅作为技术探讨和参考使用，上述推理性能将随实际的生产环境而改变。

想知道不同配置如何影响真实的用户体验？您可独立调整参数观察曲线变化，或跟随 TJ 的交互式引导，右侧模拟对话区域将实时呈现效果差异。

进一步了解 NVIDIA Dynamo AI Configurator

客户案例

行业领导者如何利用 AI 推理推动创新

查看更多客户案例

Amdocs

Accelerate Generative AI Performance and Lower Costs

Read how Amdocs built amAIz, a domain-specific generative AI platform for telcos, using NVIDIA DGX™ Cloud and NVIDIA NIM inference microservices to improve latency, boost accuracy, and reduce costs.

Read Case Study

Snapchat

Enhancing Apparel Shopping With AI

Learn how Snapchat enhanced the clothes shopping experience and emoji-aware optical character recognition using Triton Inference Server to scale, reduce costs, and accelerate time to production.

Read Case Study

Amazon

Accelerate Customer Satisfaction

Discover how Amazon improved customer satisfaction by accelerating their inference 5X faster with TensorRT.

Read Case Study

资源

准备好开始了吗？

探索您启动开发 AI 应用所需的一切资源，包括最新的文档、教程、技术博客等。

开始开发开始体验

为推理工作负载找到合适的硬件

NVIDIA 数据中心解决方案通过精选的 NVIDIA 合作伙伴网络 (NPN) 合作伙伴提供。通过我们的合作伙伴网络，探索灵活且经济实惠的方案，以获取最新的 NVIDIA 数据中心技术。

浏览 NVIDIA 合作伙伴

获取 NVIDIA AI 推理的最新动态

注册获取 NVIDIA 最新的 AI 推理新闻、动态等内容。

随时了解最新动态

NVIDIA 推理平台