NVIDIA Mission Control

运行模型,自动完成基本任务。

概览

为每个企业带来全球先进的 AI 工厂专业知识

NVIDIA Mission Control™ 简化了 AI 工厂的各个方面 (从开发者工作负载调度和编排,到监测和自主恢复),同时帮助平台团队利用全方位支持的软件高效运作并自信扩展。它为 NVIDIA BlackwellNVIDIA Rubin 数据中心提供支持,将 AI 最新前沿的实时可见性与对性能、功耗和散热的精准控制 (Control) 相结合,提供全天候弹性,实现 AI 工厂投资回报率的最大化。Mission Control 让每家企业都能以当今超大规模算器的效率运行 AI,加速 AI Token 生成。

管理和运营 AI 工厂

NVIDIA Mission Control 可简化 AI 运营,从集群部署到工作负载编排,再到楼宇管理集成,都能为企业带来敏捷性、弹性和超大规模效率。

自动化 AI 工厂运营

借助为 AI 工厂运营提供全方位支持的软件,在 NVIDIA Blackwell 基础设施上加速生成 AI Token。

技术

AI 数据中心运营和编排

简化 AI 工厂在整个集群生命周期中的部署和运营方式。

高级功耗优化

在功耗受限或成本敏感的环境中,通过经验证的 NVIDIA 最新功耗创新可实现以 85% 的功耗运行的同时保持 93% 的性能吞吐量

楼宇管理集成

借助自动化和集成仪表板的支持,在强化了的系统和数据中心设施上进行协调,改善对功耗和冷却活动的控制 (Control),包括快速泄露检测。

自主系统恢复引擎

以快 10 倍的速度识别、隔离问题并从问题中恢复,无需人工干预,从而加快训练和推理运行,最大限度提高开发者生产力和内置基础设施弹性。

持续系统健康检查

通过健康检查,选择依照 NVIDIA 预设规则触发的自动操作,在基础设施的整个生命周期中验证硬件和集群性能。

动态工作负载编排

利用所包含的 NVIDIA Run:ai 技术来提高 GPU 可用性和利用率,或将 Slurm 和您自己的 Kubernetes 集成到我们的集群管理平台中。

灵活与安全的配置

将 NVIDIA Mission Control 服务与值得信赖的 ISV 解决方案进行集成,实现灵活与安全的配置操作,来实现经验证的命名空间隔离以满足您组织的需求。

最新发布

NVIDIA Mission Control 2.3

NVIDIA Mission Control 2.3 已全面集成在 NVIDIA 生态系统中,支持 NVIDIA Grace Blackwell Ultra 机架级系统。它配备了 1 种新的跨服务统一身份验证,并添加了虚拟化控制 (Control) 面板选项,以提高灵活性和可扩展性。 此外,Mission Control 现在支持针对气隙隔离环境的部署,并提供泄漏检测验证检查。采用 NVIDIA Blackwell 架构的 NVIDIA DGX™ 平台现在还可以访问 Mission Control 的全方位功能,包括自主恢复引擎套件。

NVIDIA Mission Control 在经验证的工作流中包含了 NVIDIA 最新的功耗优化创新,提供易于使用的图形界面,在集群、系统和工作负载级别的监控和管理操作。借助 Mission Control,管理员可以访问域功耗服务,并设置集群范围内具有作业感知能力且用于优化功耗的动态策略。

优势

为什么使用 NVIDIA Mission Control?

即时运营敏捷性

借助无缝的多节点的训练和推理编排与第三方软件的灵活集成,以及先进的功耗和冷却自动化,为 AI 工厂运营注入灵活性。

全面监测

借助集成、即用型的 Grafana 仪表板和常驻的健康检查,深入了解工作负载正常运行时间、集群基础设施和设备,降低警报疲劳并优化性能。

内置弹性

利用端到端的自主恢复引擎重新定义现代数据中心的弹性,从异常检测到隔离一直到快速作业重启和自动硬件修复。

加速 AI Token 的生成

借助端到端经验证的工作流、持续运作以提升收入潜力,以及针对大规模企业新 AI 标准的 NVIDIA 企业支持,更大限度加大 AI 工厂的产出。

合作伙伴

与领先的系统供应商共同部署和运行 AI 工厂

在领先的系统供应商所打造的 NVIDIA Grace™ Blackwell 机架级扩展系统的 AI 工厂上,进行配置、验证和运行;这些供应商均已针对其系统完成并通过了 NVIDIA Mission Control 的测试与验证。

解决方案

打造世界级 AI 工厂所需的一切

NVIDIA 提供 AI 工厂所需的所有基础组件。NVIDIA Mission Control 和 NVIDIA AI Enterprise 共同提供先进的基础设施和工作负载管理,以及面向生产 AI 的开发者工具,使企业能够以前所未有的实际规模利用 AI 的变革性功耗。

NVIDIA DGX 系统

领先的 AI 基础设施,专为 AI 的独特需求而打造。

NVIDIA DGX 系统是一个一站式 AI 数据中心基础设施解决方案,可为每个用户和工作负载提供卓越的性能。NVIDIA DGX™ 系统提供领先的加速基础设施及可扩展性能,以满足最严苛的 AI 训练和推理工作负载需求。

NVIDIA AI Enterprise

云原生软件平台,通过专为开发者构建的工具优化生产 AI。

NVIDIA AI Enterprise 软件套件包括 NVIDIA 的可靠数据科学工具、预训练模型、优化框架等,并全面享受 NVIDIA 企业支持。NVIDIA AI Enterprise 经过优化,可在 Mission Control 上运行。

后续步骤

准备好开始了吗?

借助 NVIDIA Mission Control 简化 AI 运营,为您宏伟的企业 AI 计划提供动力。

需要有关 NVIDIA Mission Control 的支持?

借助 NVIDIA DGX Enterprise 支持和服务来获取专家的支持、更快的结果和指引。

NVIDIA Mission Control 文档

获取 NVIDIA Mission Control 的用户指南和版本说明。