通过在地理位置分布式 AI 基础设施上编排工作负载,扩展 AI 原生应用。
概览
通过在最接近用户、智能体和机器的基础设施上运行推理,确保 AI 原生服务保持敏捷响应。这帮助运营商满足实时语音、视觉和控制体验的严格服务级别协议 (SLA)。
在计算和网络成本最优的节点上运行高 Token 密度工作负载,减少网络数据流量,降低出站成本,同时不牺牲服务质量。
将众多分布式站点视为单一的 AI 容量库,以提升 GPU 利用率并降低闲置资源。如果站点发生故障,工作负载会自动在网格上重新平衡,以保持服务连续性。
在众多分布式站点上运行 AI 原生服务,以应对并发用户、应用和智能体数量的激增,同时保持一致的体验质量和成本。
NVIDIA 提供统一的平台,为分布式站点配备全栈 AI 基础设施,将其转化为互联且编排的 AI 网格。
探索 NVIDIA 驱动的 AI 网格如何为需要实时、经济高效地大规模访问智能的 AI 原生应用提供支持。
物理 AI 使机器人、车辆、摄像头和物联网系统能够在现实世界中感知、推理并执行动作。AI 网格让 NVIDIA Metropolis 能够运行城市级的视觉 AI,并靠近摄像头进行实时分析,而当本地嵌入式算力不足时,自主机器人则可将更繁重的规划与推理任务卸载到附近站点。
对话式 AI 助手等交互式 AI 服务依赖严格的端到端时延与抖动控制,才能实现自然且灵敏的交互体验。AI 网格在物理位置靠近数据的节点上执行这些工作负载,保留延迟余量,并将每个请求路由至最佳可用资源,即使在需求激增或局部故障期间也能保持稳定运行。
个性化 AI 助手、媒体和体育类体验以及企业级应用必须针对数千或数百万个并发会话进行实时响应调节。在 AI 网格上,运营商可以在区域节点上缓存用户或租户上下文,并在更靠近用户的位置执行个性化逻辑和生成,从而改善尾延迟,并使始终在线的个性化服务在成本上具备可持续性。
后续步骤