NVIDIA Mission Control™ 简化了 AI 工厂的各个方面 (从开发者工作负载调度和编排,到监测和自主恢复),同时帮助平台团队利用全方位支持的软件高效运作并自信扩展。它为 NVIDIA Blackwell 和 NVIDIA Rubin 数据中心提供支持,将 AI 最新前沿的实时可见性与对性能、功耗和散热的精准控制 (Control) 相结合,提供全天候弹性,实现 AI 工厂投资回报率的最大化。Mission Control 让每家企业都能以当今超大规模算器的效率运行 AI,加速 AI Token 生成。
简化 AI 工厂在整个集群生命周期中的部署和运营方式。
NVIDIA Mission Control 2.3 已全面集成在 NVIDIA 生态系统中,支持 NVIDIA Grace Blackwell Ultra 机架级系统。它配备了 1 种新的跨服务统一身份验证,并添加了虚拟化控制 (Control) 面板选项,以提高灵活性和可扩展性。 此外,Mission Control 现在支持针对气隙隔离环境的部署,并提供泄漏检测验证检查。采用 NVIDIA Blackwell 架构的 NVIDIA DGX™ 平台现在还可以访问 Mission Control 的全方位功能,包括自主恢复引擎套件。
NVIDIA Mission Control 在经验证的工作流中包含了 NVIDIA 最新的功耗优化创新,提供易于使用的图形界面,在集群、系统和工作负载级别的监控和管理操作。借助 Mission Control,管理员可以访问域功耗服务,并设置集群范围内具有作业感知能力且用于优化功耗的动态策略。
借助无缝的多节点的训练和推理编排与第三方软件的灵活集成,以及先进的功耗和冷却自动化,为 AI 工厂运营注入灵活性。
借助集成、即用型的 Grafana 仪表板和常驻的健康检查,深入了解工作负载正常运行时间、集群基础设施和设备,降低警报疲劳并优化性能。
利用端到端的自主恢复引擎重新定义现代数据中心的弹性,从异常检测到隔离一直到快速作业重启和自动硬件修复。
借助端到端经验证的工作流、持续运作以提升收入潜力,以及针对大规模企业新 AI 标准的 NVIDIA 企业支持,更大限度加大 AI 工厂的产出。
合作伙伴
在领先的系统供应商所打造的 NVIDIA Grace™ Blackwell 机架级扩展系统的 AI 工厂上,进行配置、验证和运行;这些供应商均已针对其系统完成并通过了 NVIDIA Mission Control 的测试与验证。
NVIDIA 提供 AI 工厂所需的所有基础组件。NVIDIA Mission Control 和 NVIDIA AI Enterprise 共同提供先进的基础设施和工作负载管理,以及面向生产 AI 的开发者工具,使企业能够以前所未有的实际规模利用 AI 的变革性功耗。