AI 推理

NVIDIA Dynamo

将生成式 AI 快速扩展和服务化部署

概览

面向生成式 AI 的低延迟分布式推理

NVIDIA Dynamo 是一个开源的模块化推理框架,用于在分布式环境上实现生成式 AI 模型的服务化部署。它能够通过动态资源调度、智能请求路由、优化的内存管理和加速的数据传输,无缝扩展大型 GPU 集群之间的推理工作负载。

在 NVIDIA GB200 NVL72 上部署开源的 DeepSeek-R1 671B 推理模型时,NVIDIA Dynamo 将处理的请求数量提高至 30 倍,使其成为构建 “ AI 工厂” 的理想解决方案,这些 AI 工厂旨在以最低的成本运行,从而最大化 token 收入。NVIDIA Dynamo 支持所有主要的 AI 推理后端,并提供针对 LLM 的定制化优化技术,例如分离服务 (disaggregated serving),从而以最低的成本和最高的效率加速和扩展 AI 推理模型。Dynamo 将是 NVIDIA AI Enterprise 的未来版本的一部分。

NVIDIA Dynamo 基于 NVIDIA Triton 推理服务器的成功经验构建。Triton 推理服务器是一款企业级的开源软件,针对各种工作负载标准化 AI 模型的部署和执行。您可以通过 NVIDIA AI Enterprise 使用 Triton 推理服务器,从而获得企业级的支持、安全稳定性和可管理性。

什么是分布式推理?

分布式推理是在多个计算设备或节点上运行 AI 模型推理的过程,通过并行计算最大限度地提高吞吐量。

这种方法通过在 GPU 或云基础设施之间分配工作负载,来实现大规模 AI 应用的高效扩展,例如生成式 AI 应用。分布式推理允许用户根据每个工作负载的独特要求来优化延迟和吞吐量,从而提高整体性能和资源利用率。

功能

探索 NVIDIA Dynamo 的功能

分离服务图标

分离服务
(Disaggregated Serving)

将 LLM 上下文(预填充)和生成(解码)阶段分离到不同的 GPU 上,从而实现定制化的模型并行和独立的 GPU 资源分配,以提升每个 GPU 处理的请求数量。

GPU 规划器图标

GPU 规划器
(GPU Planner)

监控分布式推理环境中的 GPU 容量,并在上下文和生成阶段之间动态分配 GPU 工作线程,以解决瓶颈并优化性能。

智能路由器

智能路由器
(Smart Router)

高效地路由推理流量,最小化因为重复或重叠请求导致的昂贵重复计算,以节省计算资源,同时确保在大型 GPU 集群之间实现均衡的负载分配。

NVIDIA 推理传输库

NVIDIA 推理传输库
(NVIDIA Inference Transfer Library, NIXL)

加速分布式推理环境中的数据搬运,同时简化不同硬件(包括 GPU、CPU、网络和存储)之间的传输复杂性。

优势

NVIDIA Dynamo 的优势

可扩展性图标

从一个 GPU 无缝扩展到数千个 GPU

通过预先构建、易于部署的工具简化和自动化 GPU 集群设置,并通过针对 LLM 特征的实时指标,实现动态自动扩缩容,从而避免 GPU 资源配置过度或不足。

服务图标

提高推理服务化能力,同时降低成本

利用先进的 LLM 推理服务服务化部署优化功能(例如分离服务),在不影响用户体验的情况下,增加可处理的推理请求数量。

复选框图标

让您的 AI 基础设施面向未来,避免成本高昂的项目迁移

有赖开源和模块化的设计,你可以根据自己的独特需求,轻松地定制化选择推理服务组件,确保与你现有的 AI 技术栈兼容,从而避免成本高昂的项目迁移。

迭代流程图标

加快在生产环境中新 AI 模型的部署

NVIDIA Dynamo 支持所有主要框架,包括 TensorRT-LLM、vLLM、SGLang、PyTorch 等,确保你能够快速部署新的生成式 AI 模型,无论其采用了哪个后端。

加速分布式推理

NVIDIA Dynamo 完全开源,提供完全的透明度和灵活性。部署 NVIDIA Dynamo,助力其发展,并将其无缝集成到现有技术栈中。

 在 GitHub 上查看并加入社区!

开发

适合希望获取 Triton 推理服务器开源代码进行开发的个人。

开发

适合希望获取免费 Triton 推理服务器容器进行开发的个人。

体验

可在 NVIDIA LaunchPad 上免费访问由 NVIDIA 托管的基础设施和讲师指导的实战实验(包括分步说明和示例)。

部署

获取免费许可证,使用现有基础设施在生产环境中试用 NVIDIA AI Enterprise 90 天。

应用场景

使用 NVIDIA Dynamo 部署 AI

了解如何通过 NVIDIA Dynamo 推动创新。

推理模型服务化

推理模型会生成更多 token 来解决复杂问题,从而提高推理成本。NVIDIA Dynamo 可以通过分离服务等功能,来优化这些模型。这种方法将预填充和解码计算阶段分离到不同的 GPU 上,让 AI 推理团队能够独立优化每个阶段。这种方法将带来更出色的资源利用率,在每个 GPU 上以更低的推理成本处理更多的查询。

AI 推理模型的服务化

客户证言

看看行业领袖对 NVIDIA Dynamo 的评价

Cohere

Cohere

“Scaling advanced AI models requires sophisticated multi-GPU scheduling, seamless coordination and low-latency communication libraries that transfer reasoning contexts seamlessly across memory and storage. We expect Dynamo will help us deliver a premier user experience to our enterprise customers.” Saurabh Baji, Senior Vice President of Engineering at Cohere

perplexity

Perplexity AI

"Handling hundreds of millions of requests monthly, we rely on NVIDIA’s GPUs and inference software to deliver the performance, reliability, and scale our business and users demand, "We'll look forward to leveraging Dynamo with its enhanced distributed serving capabilities to drive even more inference serving efficiencies and meet the compute demands of new AI reasoning models." Denis Yarats, CTO of Perplexity AI.

Together.ai

Together AI

“Scaling reasoning models cost-effectively requires new advanced inference techniques, including disaggregated serving and context-aware routing. Together AI provides industry leading performance using our proprietary inference engine. The openness and modularity of Dynamo will allow us to seamlessly plug its components into our engine to serve more requests while optimizing resource utilization—maximizing our accelerated computing investment. " Ce Zhang, CTO of Together AI.

Cohere

Cohere

“扩展先进的 AI 模型需要复杂的多 GPU 调度、无缝协调和低延迟通信库,才能在内存和存储之间无缝传输推理上下文。我们期待 Dynamo 帮助我们为企业客户提供卓越的用户体验。” Saurabh Baji,Cohere 高级工程副总裁

Perplexity

Perplexity AI

“依托 NVIDIA GPU和推理软件,我们每月成功处理数十亿次请求,并满足业务与用户对高性能、高可靠及可扩展服务的需求。” 我们期待利用 Dynamo 强大的分布式服务能力,来进一步提高推理服务效率,并满足新型 AI 推理模型的计算需求。” Denis Yarats,Perplexity AI 首席技术官

Together.ai

Together AI

“经济高效地扩展推理模型,需要新型的前沿推理技术,包括分离服务和上下文感知路由。Together AI 凭借我们专有的推理引擎,提供行业领先的性能。Dynamo 的开放性和模块化使我们能够将其组件无缝地集成到我们的引擎中,在优化资源利用率的同时处理更多请求,这会发挥我们在加速计算领域的最大投资价值。” Ce Zhang,Together AI 首席技术官

采用者

各行业的领先采用者

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
Infosys
Intelligent Voice
蔚来
西门子能源
Trax Retail
USPS
Yahoo Japan

资源

NVIDIA 推理的最新动态

获取最新资讯

获取最新资讯

了解 NVIDIA Dynamo 推理服务器的更新和公告。

浏览技术博客

浏览技术博客

阅读有关如何开始推理的技术学习资料。

深入了解

深入了解

获取有关部署、运行和扩展用于生成式 AI、LLM、推荐系统和计算机视觉等领域的 AI 推理模型的技巧和最佳实践。

下一步

准备好开始了吗?

GitHub 下载并加入社区!

装饰

面向开发者

探索开始使用 NVIDIA Dynamo 进行开发所需的一切,包括最新文档、教程、技术博客等。

装饰

联系我们

与 NVIDIA 产品专家交流,了解如何借助 NVIDIA AI Enterprise 的安全性、API 稳定性和支持,从试运行进入生产阶段。

阅读新闻稿 | 阅读技术博客

获取最新资讯

获取最新资讯

了解 Dynamo 推理服务器的最新推理更新和公告。

浏览技术博客

浏览技术博客

阅读有关如何开始推理的技术演练。

深入了解

深入了解

获取有关部署、运行和扩展用于生成式 AI、LLM、推荐系统和计算机视觉等领域的 AI 推理模型的技巧和最佳实践。