AI 推理

NVIDIA Dynamo

高效扩展并部署 AI 推理服务

概览

面向生成式 AI 的低延迟分布式推理

高效服务当今前沿的语言模型通常需要超过单个 GPU,甚至整个节点容量的资源,因此分布式、多节点的部署对于 AI 推理至关重要。

NVIDIA Dynamo 是一个开源、分布式的推理服务框架,用于在数据中心规模的多节点环境中部署模型。它支持开源推理引擎 (包括 SGLang、NVIDIA TensorRT™ LLM 和 vLLM),通过将推理的不同阶段分离到不同的 GPU 上,把请求智能地路由到适当的 GPU 以避免冗余计算,以及通过在性价比最高的存储层级缓存数据以扩展 GPU 存储空间 (显存),实现对分布式服务复杂运行的简化和自动化。

NVIDIA NIM™ 推理微服务将包含 NVIDIA Dynamo 功能,提供快速高效的部署选项。您也可以通过 NVIDIA AI Enterprise 软件套件使用 Dynamo 功能。

什么是分布式推理?

分布式推理是在多个计算设备或节点上运行 AI 模型推理的过程,通过并行计算最大限度地提高吞吐量。

这种方法通过在 GPU 或云基础设施之间分配工作负载,来实现大规模 AI 应用的高效扩展,例如生成式 AI 应用。分布式推理允许用户根据每个工作负载的独特要求来优化延迟和吞吐量,从而提高整体性能和资源利用率。

深入了解 NVIDIA Dynamo

用于扩展推理型 AI 模型的低延迟分布式推理框架

独立基准测试表明,与基于 NVIDIA Hopper™ 的系统相比,NVIDIA Grace-Blackwell 架构与 NVIDIA Dynamo 相结合,可将专家混合模型 (MoE) 的吞吐量提高 50 倍。

NVIDIA Grace-Blackwell 架构系统通过高速 NVIDIA NVLink™ 连接 72 个 GPU,实现对 MoE 推理模型至关重要的低延迟专家通信。NVIDIA Dynamo 通过 PD 分离实现在节点间分离推理的预填充 (prefill) 和解码 (decode) 阶段来实现独立优化,从而提高效率。NVIDIA Grace-Blackwell 架构系统和 NVIDIA Dynamo 共同构成了针对大规模 MoE 推理进行优化的高性能堆栈。

功能

了解 NVIDIA Dynamo 的功能

PD 分离服务

将大语言模型 (LLM) 的上下文处理阶段与生成阶段分配至不同 GPU,实现 GPU 资源的独立分配与优化,从而提升每个 GPU  服务的请求数量。

LLM 感知的路由

高效分配推理流量,通过减少因重复或重叠请求带来的高成本重计算来节省计算资源,同时确保在大型 GPU 集群中实现负载均衡。

KV 缓存多级存储

将 KV 缓存即时从有限的 GPU 内存卸载至可扩展且经济高效的存储,如 CPU 内存、本地 SSD 或网络存储。

基于网络拓扑优化的 Kubernetes 服务 (Grove)

使用统一的 Kubernetes 自定义资源,在单节点和多节点部署中实现相互依赖的 AI 推理组件的高效扩展和声明式启动顺序。

GPU 规划器 (GPU Planner)

监测分布式推理环境中的 GPU 容量,并在上下文和生成阶段动态分配 GPU 工作节点,以解决和优化性能瓶颈。

低延迟通信库 (NIXL)

加速分布式推理场景下的数据传输,同时简化不同硬件之间的传输复杂度,包括 GPU、CPU、网络和存储。

AIConfigurator

基于模型类型、GPU 预算和 SLO 定制,推荐最佳预填充 (prefill) 和解码 (decode) 的置以及模型并行策略,消除分布式部署集群参数配置的猜测和试错工作。

AIPerf

利用命令行输出和深度性能报告中的详细指标,对各类推理解决方案中的生成式 AI 模型性能进行基准测试。

加速分布式推理

NVIDIA Dynamo 完全开源,提供完全的透明度和灵活性。部署 NVIDIA Dynamo,助力其发展,并将其无缝集成到现有技术栈中。

 在 GitHub 上查看并加入社区!

优势

使用 NVIDIA Dynamo 的优势

从一个 GPU 无缝扩展到数千个 GPU

通过预先构建、易于部署的工具简化和自动化 GPU 集群设置,并通过针对 LLM 特征的实时指标,实现动态自动扩缩容,从而避免 GPU 资源配置过度或不足。

提高推理服务化能力,同时降低成本

借助分布式部署、拓扑感知自动扩缩容等先进的 LLM 推理服务服务化部署优化功能,在不影响用户体验的情况下,增加可处理的推理请求数量。

让您的 AI 基础设施面向未来,避免成本高昂的项目迁移

有赖开源和模块化的设计,你可以根据自己的独特需求,轻松地定制化选择推理服务组件,确保与你现有的 AI 技术栈兼容,从而避免成本高昂的项目迁移。

加快在生产环境中新 AI 模型的部署

NVIDIA Dynamo 支持所有主要框架,包括 TensorRT-LLM、vLLM、SGLang、PyTorch 等,确保你能够快速部署新的生成式 AI 模型,无论其采用了哪个后端。

Dynamo 生态系统合作伙伴

应用场景

使用 NVIDIA Dynamo 部署 AI

了解如何通过 NVIDIA Dynamo 推动创新。

部署推理模型

推理模型会生成更多 token 来解决复杂问题,从而增加推理成本。NVIDIA Dynamo 通过 PD 分离等功能来优化这些模型的推理服务。其核心是将预填充 (prefill) 和解码 (decode) 的计算阶段分离为不同的 GPU,让 AI 推理团队能够对每个阶段进行独立优化。进而提升资源利用率,增加单 GPU 服务的请求数量,并降低推理成本。当 Dynamo 与 Grace-Blackwell 架构系统结合使用时,可将综合推理性能提升高达 15 倍。

Kubernetes 集群上的 AI 扩展

随着 AI 模型规模不断扩大,单个节点已无法承载,高效部署这些模型成为一大挑战。分布式推理需将模型拆分至多个节点,这增加了在基于 Kubernetes 的环境中进行编排、扩展和通信的复杂度。要确保这些节点作为一个整体运行,尤其是在动态工作负载下,需要精细化管理。NVIDIA Dynamo 通过其开源的模块化组件 Grove 简化了这一过程,该组件可无缝处理调度、扩展和服务部署,让您能专注于部署 AI,而不是管理基础设施。

可扩展的 AI 智能体

AI 智能体会实时调用多个模型,例如 LLM、检索系统和专用工具,这会产生大量 KV 缓存。这些 KV 缓存往往超出 GPU 内存的容量,成为制约扩展能力和性能的瓶颈。

为突破 GPU 内存的限制,需要将 KV 数据缓存到主机或外部存储来扩展容量,使 AI 智能体无约束地扩展。NVIDIA Dynamo 提供 KV Cache Manager 并和包括 LMCache 等开源工具的集成简化了这一过程,确保高效的缓存管理和可扩展的 AI 智能体性能。

代码生成

代码生成通常需要根据模型的响应进行迭代优化,以调整提示词、明确要求或调试输出。这种反复出现的情况需要在每个用户回合时重新计算上下文,从而增加推理成本。NVIDIA Dynamo 通过启用上下文重用来优化此流程。

NVIDIA Dynamo 的 LLM 感知路由可智能管理多节点 GPU 集群中的 KV 缓存。它根据缓存重叠情况管理路由请求,并将它们定向到具有最高重用潜力的 GPU。这最大限度地减少了冗余计算,并确保在大规模部署中的性能均衡。

客户证言

看看行业领袖对 NVIDIA Dynamo 的评价

CoreWeave

“随着 AI 从实验性试点转向持续的大规模生产,其底层基础设施必须具备与其支持的模型相匹配的动态能力。支持 NVIDIA Dynamo,使我们能够为部署复杂的 AI 智能体提供一个更顺畅、更灵活的环境。这一基础设施为实现全球规模化部署具备行业内高难度智能体工作负载提供了所需的稳定性和高性能编排能力。”

Chen Goldberg,CoreWeave 产品与工程执行副总裁

Together AI

“AI 原生应用需要推理能力能够随其应用可靠且高效地扩展。NVIDIA Dynamo 1.0 和 Together AI 的前沿推理研究成果相结合,助力我们构建高性能技术栈,为大规模生产工作负载提供加速且经济高效的推理服务。”

Vipul Ved Prakash,Together AI 联合创始人兼首席执行官

Pinterest

“为数亿用户提供直观的多模态 AI 体验需要全球实时智能系统的支持。作为开源技术的重要参与者,我们致力于构建可扩展的 AI 技术。借助 NVIDIA Dynamo 优化我们的部署,我们正在高性能 AI 基础设施的支持下,持续为用户提供流畅的个性化体验。”

Matt Madrigal,Pinterest 首席技术官

客户案例

行业领先企业如何使用 NVIDIA Dynamo 平台优化模型部署

采用者

各行业的领先采用者

资源

NVIDIA 推理的最新动态

获取最新资讯

了解 NVIDIA Dynamo 推理服务器的更新和公告。

浏览技术博客

阅读有关如何开始推理的技术学习资料。

深入了解

获取有关部署、运行和扩展用于生成式 AI、LLM、推荐系统和计算机视觉等领域的 AI 推理模型的技巧和最佳实践。

提升 LLM 推理性能

观看我们的 NVIDIA Dynamo 技术答疑点播会议,了解如何使用 NVIDIA Dynamo 优化 LLM 服务。了解如何在开源模型和推理后端使用 LLM 感知路由、PD 分离服务和动态自动扩展来满足 SLA,并提高交互性和吞吐量。

用于扩展 LLM 的低延迟分布式推理

了解如何使用 NVIDIA Dynamo 部署和扩展推理 LLM。探索 PD 分离等先进的推理服务技术,并了解 NVIDIA NIM 如何实现新一代 AI 推理的快速、大规模、生产就绪型部署。

Kubernetes 原生的 AI 服务

NVIDIA Grove 是一个用于编排复杂 AI 推理工作负载的 Kubernetes 原生解决方案。Grove 是 NVIDIA Dynamo 的开源模块化组件,它通过强大的 API 连接 AI 框架和 Kubernetes,使 Kubernetes 集群上的 AI 推理比以往更简单、可扩展和高效。

快速入门指南

不熟悉 NVIDIA Dynamo,但希望快速部署模型吗?利用这份快速入门指南,开启 NVIDIA Dynamo 之旅。

教程

开始使用 NVIDIA Dynamo 可能会遇到许多问题。探索此仓库,熟悉 NVIDIA Dynamo 的功能,并查找有助于简化迁移的指南和示例。

NVIDIA Brev

借助 NVIDIA Brev,即可在数秒内释放 NVIDIA GPU 的强大性能 —— 即时访问、自动设置,并可在顶级云平台上灵活部署。立即开始构建和扩展您的 AI 项目。

如何使用 NVIDIA Dynamo 的 AIConfigurator 组件优化 AI 服务

AIConfigurator 消除了 PD 分离服务配置的猜测和试错工作。它根据模型、GPU 预算和 SLO 来推荐最佳配置,以满足性能目标。在本视频中,您将学习如何使用 AIConfigurator。

使用 SGLang 和 NVIDIA Dynamo 扩展推理

观看 SGLang 和 NVIDIA 技术分享会录播,了解 SGLang 和 NVIDIA Dynamo 团队对大规模推理性能优化的见解,并了解 AI 应用中推理的最新成果和集成策略。

用于高效 AI 推理的先进技术

本视频将深入探讨 AI 推理的关键三要素,即质量、成本和速度 ,以及测试时扩展对三要素的影响。了解 NVIDIA Dynamo 如何通过 PD 分离、KV 卸载和 KV 路由等高级推理优化技术提供精细的控制,使您能够在最小化权衡的前提下优化大型模型部署。

下一步

准备好开始了吗?

GitHub 下载并加入社区!

面向开发者

探索开始使用 NVIDIA Dynamo 进行开发所需的一切,包括最新文档、教程、技术博客等。

联系我们

与 NVIDIA 产品专家交流,了解如何借助 NVIDIA AI Enterprise 的安全性、API 稳定性和支持,从试运行进入生产阶段。

阅读新闻稿 | 阅读技术博客