高效服务当今前沿的语言模型通常需要超过单个 GPU,甚至整个节点容量的资源,因此分布式、多节点的部署对于 AI 推理至关重要。
NVIDIA Dynamo 是一个开源、分布式的推理服务框架,用于在数据中心规模的多节点环境中部署模型。它支持开源推理引擎 (包括 SGLang、NVIDIA TensorRT™ LLM 和 vLLM),通过将推理的不同阶段分离到不同的 GPU 上,把请求智能地路由到适当的 GPU 以避免冗余计算,以及通过在性价比最高的存储层级缓存数据以扩展 GPU 存储空间 (显存),实现对分布式服务复杂运行的简化和自动化。
NVIDIA NIM™ 推理微服务将包含 NVIDIA Dynamo 功能,提供快速高效的部署选项。您也可以通过 NVIDIA AI Enterprise 软件套件使用 Dynamo 功能。
用于扩展推理型 AI 模型的低延迟分布式推理框架
独立基准测试表明,与基于 NVIDIA Hopper™ 的系统相比,NVIDIA Grace-Blackwell 架构与 NVIDIA Dynamo 相结合,可将专家混合模型 (MoE) 的吞吐量提高 50 倍。
NVIDIA Grace-Blackwell 架构系统通过高速 NVIDIA NVLink™ 连接 72 个 GPU,实现对 MoE 推理模型至关重要的低延迟专家通信。NVIDIA Dynamo 通过 PD 分离实现在节点间分离推理的预填充 (prefill) 和解码 (decode) 阶段来实现独立优化,从而提高效率。NVIDIA Grace-Blackwell 架构系统和 NVIDIA Dynamo 共同构成了针对大规模 MoE 推理进行优化的高性能堆栈。
NVIDIA Dynamo 完全开源,提供完全的透明度和灵活性。部署 NVIDIA Dynamo,助力其发展,并将其无缝集成到现有技术栈中。
在 GitHub 上查看并加入社区!
通过预先构建、易于部署的工具简化和自动化 GPU 集群设置,并通过针对 LLM 特征的实时指标,实现动态自动扩缩容,从而避免 GPU 资源配置过度或不足。
借助分布式部署、拓扑感知自动扩缩容等先进的 LLM 推理服务服务化部署优化功能,在不影响用户体验的情况下,增加可处理的推理请求数量。
有赖开源和模块化的设计,你可以根据自己的独特需求,轻松地定制化选择推理服务组件,确保与你现有的 AI 技术栈兼容,从而避免成本高昂的项目迁移。
NVIDIA Dynamo 支持所有主要框架,包括 TensorRT-LLM、vLLM、SGLang、PyTorch 等,确保你能够快速部署新的生成式 AI 模型,无论其采用了哪个后端。
了解如何通过 NVIDIA Dynamo 推动创新。
推理模型会生成更多 token 来解决复杂问题,从而增加推理成本。NVIDIA Dynamo 通过 PD 分离等功能来优化这些模型的推理服务。其核心是将预填充 (prefill) 和解码 (decode) 的计算阶段分离为不同的 GPU,让 AI 推理团队能够对每个阶段进行独立优化。进而提升资源利用率,增加单 GPU 服务的请求数量,并降低推理成本。当 Dynamo 与 Grace-Blackwell 架构系统结合使用时,可将综合推理性能提升高达 15 倍。
随着 AI 模型规模不断扩大,单个节点已无法承载,高效部署这些模型成为一大挑战。分布式推理需将模型拆分至多个节点,这增加了在基于 Kubernetes 的环境中进行编排、扩展和通信的复杂度。要确保这些节点作为一个整体运行,尤其是在动态工作负载下,需要精细化管理。NVIDIA Dynamo 通过其开源的模块化组件 Grove 简化了这一过程,该组件可无缝处理调度、扩展和服务部署,让您能专注于部署 AI,而不是管理基础设施。
AI 智能体会实时调用多个模型,例如 LLM、检索系统和专用工具,这会产生大量 KV 缓存。这些 KV 缓存往往超出 GPU 内存的容量,成为制约扩展能力和性能的瓶颈。
为突破 GPU 内存的限制,需要将 KV 数据缓存到主机或外部存储来扩展容量,使 AI 智能体无约束地扩展。NVIDIA Dynamo 提供 KV Cache Manager 并和包括 LMCache 等开源工具的集成简化了这一过程,确保高效的缓存管理和可扩展的 AI 智能体性能。
代码生成通常需要根据模型的响应进行迭代优化,以调整提示词、明确要求或调试输出。这种反复出现的情况需要在每个用户回合时重新计算上下文,从而增加推理成本。NVIDIA Dynamo 通过启用上下文重用来优化此流程。
NVIDIA Dynamo 的 LLM 感知路由可智能管理多节点 GPU 集群中的 KV 缓存。它根据缓存重叠情况管理路由请求,并将它们定向到具有最高重用潜力的 GPU。这最大限度地减少了冗余计算,并确保在大规模部署中的性能均衡。
“随着 AI 从实验性试点转向持续的大规模生产,其底层基础设施必须具备与其支持的模型相匹配的动态能力。支持 NVIDIA Dynamo,使我们能够为部署复杂的 AI 智能体提供一个更顺畅、更灵活的环境。这一基础设施为实现全球规模化部署具备行业内高难度智能体工作负载提供了所需的稳定性和高性能编排能力。”
Chen Goldberg,CoreWeave 产品与工程执行副总裁
“AI 原生应用需要推理能力能够随其应用可靠且高效地扩展。NVIDIA Dynamo 1.0 和 Together AI 的前沿推理研究成果相结合,助力我们构建高性能技术栈,为大规模生产工作负载提供加速且经济高效的推理服务。”
Vipul Ved Prakash,Together AI 联合创始人兼首席执行官
“为数亿用户提供直观的多模态 AI 体验需要全球实时智能系统的支持。作为开源技术的重要参与者,我们致力于构建可扩展的 AI 技术。借助 NVIDIA Dynamo 优化我们的部署,我们正在高性能 AI 基础设施的支持下,持续为用户提供流畅的个性化体验。”
Matt Madrigal,Pinterest 首席技术官
在 GitHub 下载并加入社区!
探索开始使用 NVIDIA Dynamo 进行开发所需的一切,包括最新文档、教程、技术博客等。
与 NVIDIA 产品专家交流,了解如何借助 NVIDIA AI Enterprise 的安全性、API 稳定性和支持,从试运行进入生产阶段。