NVIDIA Mission Control

运行模型,自动处理核心任务。

概览

为每个企业带来全球先进的 AI 工厂专业知识

NVIDIA Mission Control™ 凭借世界级运维团队的专业技能,以软件形式助力 AI 工厂运营的方方面面,从开发者工作负载到基础设施,再到工厂设施。它为 NVIDIA Blackwell™ 和 NVIDIA Rubin 数据中心提供动力,助力 AI 开拓最新领域,为推理和训练工作负载带来即时灵活性,并提供全栈智能,实现世界级的基础设施弹性。Mission Control 可帮助每个企业以超大规模效率运行 AI,帮助您加速 AI 实验。

自动化 AI 工厂运营

借助适用于 Blackwell 基础设施的新软件平台加速 AI 实验,为 AI 工厂运营提供全方位支持

管理和运营 AI 工厂

NVIDIA Mission Control 可简化 AI 运营,从集群部署到工作负载编排,再到楼宇管理集成,都能为企业带来敏捷性、弹性和超大规模效率。

演示

软件定义的 AI 工厂专业知识和智能

先进模型的大众化为企业打开了大门,使他们能够以前所未有的速度扩展 AI。为满足训练和推理的需求,企业需要一种新方法来管理基础设施并更大限度地扩大规模。了解如何通过 NVIDIA Mission Control 全栈软件实现灵活智能的基础设施。

通过自动化配置、无缝工作负载编排、能源优化功耗模式、自主作业恢复、可自定义控制面板、按需运行状况检查和集成楼宇管理来简化部署,从而实现弹性、高效的基础设施和卓越的数据中心运营。

技术

体验 NVIDIA Mission Control 的优势

即时敏捷性

通过无缝编排、工作负载灵活性和高级集群控制,为任务关键型工作负载带来敏捷性。

超大规模效率

实现专家级 AI 工厂运营,以进行智能化全天候数据中心管理,自动执行任务并填补关键技能缺口。

达到黄金标准的基础设施弹性

通过主动监控、快速错误识别以及缩短 10 倍的训练和推理运行恢复时间,重新定义基础设施弹性。

加速 AI 实验

更大限度地利用工作负载并增加计算周期,大规模提高开发者的生产力,以实现大规模企业 AI 的新标准。

优势

AI 数据中心运营和编排

简化 AI 工厂在整个集群生命周期中的部署和运营方式。

无缝工作负载编排

借助 NVIDIA Run:ai 功能,让模型构建者可以轻松方便地进行工作负载管理。

功耗优化

借助开发者的可选控制机制和其他效率上的创新,平衡功耗需求并调优 GPU 性能以适应各种工作负载类型。

自主系统恢复引擎

识别、隔离并修复问题,而无需手动干预,以更大限度地提高生产力和基础设施弹性。

可自定义控制面板

可通过访问您集群的关键遥测数据和易于设置的控制面板,跟踪关键性能指标。

持续系统健康检查

在您基础设施的整个生命周期内验证硬件和集群性能。

楼宇管理集成

通过加强系统协调,改善对功耗和散热事件的控制,包括快速泄漏检测。

合作伙伴

与领先的系统供应商共同部署和运行 AI 工厂

在领先的系统供应商所打造的 NVIDIA Grace™ Blackwell 机架级扩展系统的 AI 工厂上,进行配置、验证和运行;这些供应商均已针对其系统完成并通过了 NVIDIA Mission Control 的测试与验证。

产品

为每个企业提供超级计算

NVIDIA DGX 系统

领先的 AI 基础设施,专为 AI 的独特需求而打造。

NVIDIA DGX 系统是一个一站式 AI 数据中心基础设施解决方案,可为每个用户和工作负载提供卓越的性能。NVIDIA DGX™ 系统提供领先的加速基础设施及可扩展性能,以满足最严苛的 AI 训练和推理工作负载需求。

NVIDIA AI Enterprise

云原生软件平台,通过专为开发者构建的工具优化生产 AI。

NVIDIA AI Enterprise 软件套件包括 NVIDIA 的可靠数据科学工具、预训练模型、优化框架等,并全面享受 NVIDIA 企业支持。NVIDIA AI Enterprise 经过优化,可在 Mission Control 上运行。

后续步骤

准备好开始了吗?

借助 NVIDIA Mission Control 简化 AI 运营,为您宏伟的企业 AI 计划提供动力。

NVIDIA Mission Control 文档

详细了解 Mission Control 如何帮助每个企业以超大规模效率运行 AI。

NVIDIA Mission Control 文档

获取 NVIDIA Mission Control 的用户指南和版本说明。