NVIDIA Dynamo 是一个开源的模块化推理框架,用于在分布式环境上实现生成式 AI 模型的服务化部署。它能够通过动态资源调度、智能请求路由、优化的内存管理和加速的数据传输,无缝扩展大型 GPU 集群之间的推理工作负载。
在 NVIDIA GB200 NVL72 上部署开源的 DeepSeek-R1 671B 推理模型时,NVIDIA Dynamo 将处理的请求数量提高至 30 倍,使其成为构建 “ AI 工厂” 的理想解决方案,这些 AI 工厂旨在以最低的成本运行,从而最大化 token 收入。NVIDIA Dynamo 支持所有主要的 AI 推理后端,并提供针对 LLM 的定制化优化技术,例如分离服务 (disaggregated serving),从而以最低的成本和最高的效率加速和扩展 AI 推理模型。Dynamo 将是 NVIDIA AI Enterprise 的未来版本的一部分。
NVIDIA Dynamo 基于 NVIDIA Triton 推理服务器的成功经验构建。Triton 推理服务器是一款企业级的开源软件,针对各种工作负载标准化 AI 模型的部署和执行。您可以通过 NVIDIA AI Enterprise 使用 Triton 推理服务器,从而获得企业级的支持、安全稳定性和可管理性。
将 LLM 上下文(预填充)和生成(解码)阶段分离到不同的 GPU 上,从而实现定制化的模型并行和独立的 GPU 资源分配,以提升每个 GPU 处理的请求数量。
监控分布式推理环境中的 GPU 容量,并在上下文和生成阶段之间动态分配 GPU 工作线程,以解决瓶颈并优化性能。
高效地路由推理流量,最小化因为重复或重叠请求导致的昂贵重复计算,以节省计算资源,同时确保在大型 GPU 集群之间实现均衡的负载分配。
加速分布式推理环境中的数据搬运,同时简化不同硬件(包括 GPU、CPU、网络和存储)之间的传输复杂性。
通过预先构建、易于部署的工具简化和自动化 GPU 集群设置,并通过针对 LLM 特征的实时指标,实现动态自动扩缩容,从而避免 GPU 资源配置过度或不足。
利用先进的 LLM 推理服务服务化部署优化功能(例如分离服务),在不影响用户体验的情况下,增加可处理的推理请求数量。
有赖开源和模块化的设计,你可以根据自己的独特需求,轻松地定制化选择推理服务组件,确保与你现有的 AI 技术栈兼容,从而避免成本高昂的项目迁移。
NVIDIA Dynamo 支持所有主要框架,包括 TensorRT-LLM、vLLM、SGLang、PyTorch 等,确保你能够快速部署新的生成式 AI 模型,无论其采用了哪个后端。
了解如何通过 NVIDIA Dynamo 推动创新。
推理模型会生成更多 token 来解决复杂问题,从而提高推理成本。NVIDIA Dynamo 可以通过分离服务等功能,来优化这些模型。这种方法将预填充和解码计算阶段分离到不同的 GPU 上,让 AI 推理团队能够独立优化每个阶段。这种方法将带来更出色的资源利用率,在每个 GPU 上以更低的推理成本处理更多的查询。
在 GitHub 下载并加入社区!
探索开始使用 NVIDIA Dynamo 进行开发所需的一切,包括最新文档、教程、技术博客等。
与 NVIDIA 产品专家交流,了解如何借助 NVIDIA AI Enterprise 的安全性、API 稳定性和支持,从试运行进入生产阶段。