Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
AI 推理
将生成式 AI 快速扩展和服务化部署
阅读新闻稿 | 阅读技术博客
NVIDIA Dynamo 是一个开源的模块化推理框架,用于在分布式环境上实现生成式 AI 模型的服务化部署。它能够通过动态资源调度、智能请求路由、优化的内存管理和加速的数据传输,无缝扩展大型 GPU 集群之间的推理工作负载。
在 NVIDIA GB200 NVL72 上部署开源的 DeepSeek-R1 671B 推理模型时,NVIDIA Dynamo 将处理的请求数量提高至 30 倍,使其成为构建 “ AI 工厂” 的理想解决方案,这些 AI 工厂旨在以最低的成本运行,从而最大化 token 收入。NVIDIA Dynamo 支持所有主要的 AI 推理后端,并提供针对 LLM 的定制化优化技术,例如分离服务 (disaggregated serving),从而以最低的成本和最高的效率加速和扩展 AI 推理模型。Dynamo 将是 NVIDIA AI Enterprise 的未来版本的一部分。
NVIDIA Dynamo 基于 NVIDIA Triton 推理服务器的成功经验构建。Triton 推理服务器是一款企业级的开源软件,针对各种工作负载标准化 AI 模型的部署和执行。您可以通过 NVIDIA AI Enterprise 使用 Triton 推理服务器,从而获得企业级的支持、安全稳定性和可管理性。
分布式推理是在多个计算设备或节点上运行 AI 模型推理的过程,通过并行计算最大限度地提高吞吐量。
这种方法通过在 GPU 或云基础设施之间分配工作负载,来实现大规模 AI 应用的高效扩展,例如生成式 AI 应用。分布式推理允许用户根据每个工作负载的独特要求来优化延迟和吞吐量,从而提高整体性能和资源利用率。
将 LLM 上下文(预填充)和生成(解码)阶段分离到不同的 GPU 上,从而实现定制化的模型并行和独立的 GPU 资源分配,以提升每个 GPU 处理的请求数量。
监控分布式推理环境中的 GPU 容量,并在上下文和生成阶段之间动态分配 GPU 工作线程,以解决瓶颈并优化性能。
高效地路由推理流量,最小化因为重复或重叠请求导致的昂贵重复计算,以节省计算资源,同时确保在大型 GPU 集群之间实现均衡的负载分配。
加速分布式推理环境中的数据搬运,同时简化不同硬件(包括 GPU、CPU、网络和存储)之间的传输复杂性。
通过预先构建、易于部署的工具简化和自动化 GPU 集群设置,并通过针对 LLM 特征的实时指标,实现动态自动扩缩容,从而避免 GPU 资源配置过度或不足。
利用先进的 LLM 推理服务服务化部署优化功能(例如分离服务),在不影响用户体验的情况下,增加可处理的推理请求数量。
有赖开源和模块化的设计,你可以根据自己的独特需求,轻松地定制化选择推理服务组件,确保与你现有的 AI 技术栈兼容,从而避免成本高昂的项目迁移。
NVIDIA Dynamo 支持所有主要框架,包括 TensorRT-LLM、vLLM、SGLang、PyTorch 等,确保你能够快速部署新的生成式 AI 模型,无论其采用了哪个后端。
NVIDIA Dynamo 完全开源,提供完全的透明度和灵活性。部署 NVIDIA Dynamo,助力其发展,并将其无缝集成到现有技术栈中。
在 GitHub 上查看并加入社区!
适合希望获取 Triton 推理服务器开源代码进行开发的个人。
适合希望获取免费 Triton 推理服务器容器进行开发的个人。
可在 NVIDIA LaunchPad 上免费访问由 NVIDIA 托管的基础设施和讲师指导的实战实验(包括分步说明和示例)。
获取免费许可证,使用现有基础设施在生产环境中试用 NVIDIA AI Enterprise 90 天。
了解如何通过 NVIDIA Dynamo 推动创新。
推理模型会生成更多 token 来解决复杂问题,从而提高推理成本。NVIDIA Dynamo 可以通过分离服务等功能,来优化这些模型。这种方法将预填充和解码计算阶段分离到不同的 GPU 上,让 AI 推理团队能够独立优化每个阶段。这种方法将带来更出色的资源利用率,在每个 GPU 上以更低的推理成本处理更多的查询。
随着 AI 模型变得过于庞大而无法容纳在单个节点上,实现其高效的服务化成为一项挑战。分布式推理需要将模型拆分到多个节点,这增加了编排、扩展和通信的复杂性。确保这些节点作为一个整体协调运作,尤其是在动态工作负载下,需要精细的管理。NVIDIA Dynamo 通过在 Kubernetes 上提供预构建功能来简化这一过程,它可以无缝处理调度、扩展和服务化,让您专注于部署 AI 而不是管理基础设施。
AI 智能体依赖于多种模型(LLM、检索系统和专用工具)实时协同运作。扩展这些智能体是一项复杂的挑战,需要智能的 GPU 调度,高效的 KV 缓存管理和超低延迟的通信,才能保持其响应能力。 NVIDIA Dynamo 通过内置的智能 GPU 规划器、智能路由器和低延迟通信库简化了这一过程,使 AI 智能体能够无缝高效地扩展。
代码生成通常需要根据模型的响应进行迭代优化,包括调整提示词、明确需求或调试输出结果。这种反复的交互需要在每次用户操作时重新计算上下文,因而增加了推理成本。NVIDIA Dynamo 通过实现上下文复用和将数据卸载到成本效益更高的内存中,最小化昂贵的重复计算,并降低了整体推理成本。
“Scaling advanced AI models requires sophisticated multi-GPU scheduling, seamless coordination and low-latency communication libraries that transfer reasoning contexts seamlessly across memory and storage. We expect Dynamo will help us deliver a premier user experience to our enterprise customers.” Saurabh Baji, Senior Vice President of Engineering at Cohere
"Handling hundreds of millions of requests monthly, we rely on NVIDIA’s GPUs and inference software to deliver the performance, reliability, and scale our business and users demand, "We'll look forward to leveraging Dynamo with its enhanced distributed serving capabilities to drive even more inference serving efficiencies and meet the compute demands of new AI reasoning models." Denis Yarats, CTO of Perplexity AI.
“Scaling reasoning models cost-effectively requires new advanced inference techniques, including disaggregated serving and context-aware routing. Together AI provides industry leading performance using our proprietary inference engine. The openness and modularity of Dynamo will allow us to seamlessly plug its components into our engine to serve more requests while optimizing resource utilization—maximizing our accelerated computing investment. " Ce Zhang, CTO of Together AI.
“扩展先进的 AI 模型需要复杂的多 GPU 调度、无缝协调和低延迟通信库,才能在内存和存储之间无缝传输推理上下文。我们期待 Dynamo 帮助我们为企业客户提供卓越的用户体验。” Saurabh Baji,Cohere 高级工程副总裁
“依托 NVIDIA GPU和推理软件,我们每月成功处理数十亿次请求,并满足业务与用户对高性能、高可靠及可扩展服务的需求。” 我们期待利用 Dynamo 强大的分布式服务能力,来进一步提高推理服务效率,并满足新型 AI 推理模型的计算需求。” Denis Yarats,Perplexity AI 首席技术官
“经济高效地扩展推理模型,需要新型的前沿推理技术,包括分离服务和上下文感知路由。Together AI 凭借我们专有的推理引擎,提供行业领先的性能。Dynamo 的开放性和模块化使我们能够将其组件无缝地集成到我们的引擎中,在优化资源利用率的同时处理更多请求,这会发挥我们在加速计算领域的最大投资价值。” Ce Zhang,Together AI 首席技术官
了解 NVIDIA Dynamo 推理服务器的更新和公告。
阅读有关如何开始推理的技术学习资料。
获取有关部署、运行和扩展用于生成式 AI、LLM、推荐系统和计算机视觉等领域的 AI 推理模型的技巧和最佳实践。
通过分步说明,了解如何高效地为 LLM 提供服务。我们将探讨 Dynamo 的核心组件与架构,并介绍其提供的前沿推理服务技术,包括分离服务,同时你也会了解如何通过 NVIDIA NIM 快速部署 Dynamo。
了解 AI 推理是什么、它如何融入企业的 AI 部署策略、部署企业级 AI 用例面临哪些关键挑战、为什么解决这些挑战需要全栈 AI 推理解决方案、全栈平台的主要组件有哪些,以及如何部署第一个 AI 推理解决方案。
探索 NVIDIA AI 推理平台如何与领先的云服务提供商无缝集成,从而简化 AI 部署,并加速 LLM 应用开发。
不熟悉 NVIDIA Dynamo,但希望快速部署模型吗?利用这份快速入门指南,开启 NVIDIA Dynamo 之旅。
开始使用 NVIDIA Dynamo 可能会遇到许多问题。探索此仓库,熟悉 NVIDIA Dynamo 的功能,并查找有助于简化迁移的指南和示例。
在实战实验中,使用 NVIDIA Dynamo 体验快速且可扩展的 AI。您将能够立即释放 NVIDIA 加速计算基础设施的优势,并扩展 AI 工作负载。
NVIDIA Dynamo 推理服务器简化了生产环境中 AI 模型的大规模部署,让团队能够从本地存储或云平台的任何框架部署经过训练的 AI 模型到任何 GPU 或基于 CPU 的基础设施上。
此视频展示了如何通过 HuggingFace diffuser 库部署 Stable Diffusion 工作流。我们使用 NVIDIA Dynamo 推理服务器来部署和运行该工作流。
NVIDIA Dynamo 是一个开源推理解决方案,可标准化模型部署,并在生产环境中实现快速且可扩展的 AI。由于其功能众多,一个自然而然的问题是,我从哪里开始?请观看视频了解详情。
在 GitHub 下载并加入社区!
探索开始使用 NVIDIA Dynamo 进行开发所需的一切,包括最新文档、教程、技术博客等。
与 NVIDIA 产品专家交流,了解如何借助 NVIDIA AI Enterprise 的安全性、API 稳定性和支持,从试运行进入生产阶段。
了解 Dynamo 推理服务器的最新推理更新和公告。
阅读有关如何开始推理的技术演练。
通过分步说明,了解如何高效地为 LLM 提供服务。我们将介绍如何轻松地在多个后端部署 LLM,并比较它们的性能,以及如何微调部署配置以获得最佳性能。
探索 NVIDIA AI 推理平台如何与领先的云服务提供商无缝集成,从而简化部署并促进发布 LLM 驱动的 AI 用例。
不熟悉 Dynamo,但希望快速部署模型吗?利用这份快速入门指南,开启您的 Dynamo 之旅。
开始使用 Dynamo 可能会遇到许多问题。探索此仓库,熟悉 Dynamo 的功能,并查找有助于简化迁移的指南和示例。
此视频展示了如何通过 HuggingFace diffuser 库部署 Stable Diffusion 工作流。我们使用 Dynamo 推理服务器来部署和运行该工作流。
Dynamo 推理服务器是一个开源推理解决方案,可标准化模型部署,并在生产环境中实现快速且可扩展的 AI。由于其功能众多,一个自然而然的问题是,我从哪里开始?请观看视频了解详情。