NVIDIA 企业参考架构。

企业参考架构

构建可扩展的 AI 工厂

利用 NVIDIA 企业参考架构将数据中心转变为高性能 AI 工厂。

概览

AI 成功的基石

NVIDIA 企业参考架构使企业组织能够利用经过验证、可重复的基础设施来设计、部署和扩展高性能 AI 工厂。 这些设计方案结合了经认证的计算能力、高速的东西向和南北向网络、可观测性工具以及软件,确保从四节点集群到企业级环境都能实现可扩展的性能。

Palantir 携手 NVIDIA,共同推出主权 AI 操作系统参考架构

Palantir 主权 AI 操作系统参考架构基于 NVIDIA 企业参考架构构建,经过测试与认证,可在 NVIDIA AI 基础设施上运行 Palantir 的完整软件套件。

成熟的设计和经过验证的性能

了解基于实际部署和久经考验的配置而构建的企业级参考架构,如何简化规划流程并最大化可扩展 AI 基础设施的投资回报率。

企业参考架构

完整系列指南

关于在数据中心设置集群的全套说明现已推出。

基础设施

NVIDIA 企业参考架构从经过验证的硬件配置开始,包括 CPU-GPU 网络节点模式、布线图和基础设施详细信息。

网络逻辑

企业参考架构的网络配置和逻辑架构逻辑指南提供对节点管理和配置的详细指导,并可通过 NVIDIA Air 对 VLAN 设计和网络运行进行仿真。

软件

我们的企业级参考架构软件参考栈概述了用于管理、配置和规划基础设施集群规模的软件。当前版本主要面向开放源代码 Kubernetes,并配备 NVIDIA AI EnterpriseNVIDIA Run:ai 软件。

可观测性

NVIDIA 企业参考架构可观测性指南利用 Prometheus 和 Grafana 等开源工具,监控整个集群的 GPU 及网络性能。仪表板提供系统运行状况和工作负载效率的实时指标。

部署

NVIDIA 企业参考架构部署指南汇集了基础设施最佳实践,这些经验源于我们团队在搭建、部署、测试及验证内部集群过程中所积累的成果,我们的项目正是基于这些集群构建而成。

存储

NVIDIA 认证的企业级存储由特定合作伙伴共同参与,创建了相应的存储指南实现与企业参考架构的集成。详细了解这一计划的更多信息。

用例

针对各种用例而设计

借助久经验证的 NVIDIA 企业参考架构及来自全球合作伙伴的 NVIDIA 认证系统加速智能体 AI、物理 AI、高性能计算 (HPC) 及 AI 仿真等工作负载。 部署企业级 AI 工厂的主要基础设施集群配置概述如下。

NVIDIA RTX PRO AI 工厂

NVIDIA RTX PRO™ AI 工厂配置专为广泛的企业工作负载而设计,包括生成式 AI 与智能体 AI、数据分析、视觉计算以及工程仿真。部署围绕 16 节点和 32 节点设计点进行优化,在性能、可扩展性和部署效率之间提供了理想的平衡。 NVIDIA RTX PRO 服务器专为跨企业 AI、仿真和视觉计算的通用工作负载加速而设计,针对 PCIe 环境进行了优化,使其成为空间、功耗和散热受限的数据中心的理想选择。它们为现代 AI 工作负载量身打造,可为智能体 AI 和大型语言模型 (LLM) 推理提供高效的性能。

NVIDIA HGX AI 工厂

高性能 NVIDIA HGX™ AI 工厂配置借助 NVIDIA HGX 系统,专为大规模多节点 AI 训练与推理而构建。 该架构提供 32、64 和 128 节点设计规格,并采用 NVIDIA Spectrum-X™网络支持,具备灵活的、针对轨道优化的设计,能够在不同机架布局中实现高效集成,同时提供高吞吐量、低延迟的性能。它为运行最苛刻工作负载的 AI 高级用户提供突破性性能,支持大规模模型训练和微调,并显著加速推理。凭借下一代精度和超快互连,该解决方案实现了高达 15 倍的 Token 吞吐量提升。

NVIDIA NVL72 AI 工厂

NVIDIA NVL72 AI 工厂配置专为训练和部署万亿参数模型而设计,在单个机架内即可提供百亿次级的计算能力。它专为海量模型吞吐量、多用户推理和大规模实时推理而构建,为实现下一代 AI 驱动的创新提供了可能性。 部署设计方案主要围绕四机架和八机架配置展开。 该架构基于灵活且针对轨道优化的网络构建,能够适应不同的机架布局和系统设计,同时提供高带宽、低延迟的性能。该平台凭借第五代 NVIDIA NVLink™、FP4 Tensor Core 和先进的散热创新技术,实现了卓越的 AI 工厂产出,并具备行业领先的能效。

优势

企业参考架构的战略价值

利用经过验证、合作伙伴就绪的配置,解锁可扩展的高性能 AI 基础设施。

AI 工作负载发挥峰值性能

通过确保多节点集群间 GPU 充分利用及性能一致性的架构,满足 AI 推理、微调和训练的严苛需求。

灵活扩展,简化操作

轻松扩展您的基础设施,并确保多达 128 个节点实现可扩展、简化的部署。 借助利用我们软件生态系统的 NVIDIA 企业 AI 工厂验证设计,为全栈解决方案奠定基础

降低复杂性和 TCO

简化部署流程和高效设计,降低复杂性和总体拥有成本 (TCO),同时缩短实现价值的时间。

可支持性

遵循特定的、标准化的设计模式,实现不同安装之间的一致操作,减少频繁支持的需求,并实现更快的解决时间。

合作伙伴

合作提升绩效

我们很荣幸能与领先的合作伙伴合作,将企业参考架构和 AI 工厂解决方案推向市场。这些合作伙伴的认可设计已通过我们的设计评审委员会,提供的指南在以下一个或多个领域赢得了我们的认可:基础设施、网络逻辑和软件。

Palantir 携手 NVIDIA 打造主权 AI 操作系统参考架构

Palantir 主权 AI 操作系统参考架构基于 NVIDIA 企业参考架构构建,经过测试与认证,可在 NVIDIA AI 基础设施上与我们全球的系统合作伙伴一起运行 Palantir 的完整软件套件。这种主权 AI 架构对于具有延迟敏感型工作流程、数据所有权要求以及高地理分布需求的客户至关重要。该架构为企业提供了对其数据、AI 模型和应用的完全控制权。

资源

详细了解企业参考架构

NVIDIA RTX PRO AI 工厂参考架构

NVIDIA RTX PRO AI 工厂配置支持广泛的企业级工作负载,包括智能体 AI 推理、物理与工业 AI、视觉计算,以及用于数据分析和仿真的高性能计算。 本文档详细阐述了支撑此可扩展模块化架构的硬件组件。

NVIDIA HGX AI 工厂参考架构

NVIDIA HGX AI 工厂配置专注于高性能 AI 推理、模型训练和微调。 本文档概述了可扩展模块化架构的硬件组件,包括集群指导以及用于互连集群的网络结构拓扑。

借助 NVIDIA Run:ai 解锁海量 Token 吞吐量

与 Nebius 的联合基准测试表明,在 NVIDIA 企业参考架构上使用 NVIDIA Run:ai 进行分式 GPU 部署,可显著提高生产级 LLM 工作负载的吞吐量和利用率。

NVIDIA 企业参考体系架构概述

本白皮书介绍了 NVIDIA 企业参考架构,它为设计和构建 AI 工厂提供了经过验证的指导,适用于从 32 到 1024 GPU 的企业级部署。这些架构有助于简化 AI 基础设施部署,降低运营复杂性,并加速实现价值。

南北向网络:加速企业 AI 工作负载的关键

NVIDIA 企业参考架构为企业组织部署 AI 工厂提供指导,充分利用南北向和东西向网络,为构建可扩展、安全且高性能的 AI 基础设施提供设计指南。

采用全新企业参考架构大规模部署 NVIDIA H200 NVL

NVIDIA H200 NVL 凭借增强的内存、高速 NVLink 和优化的企业 RA 配置,加速 AI 部署。

NVIDIA 的 AI 工厂推动企业级规模化创新

NVIDIA 构建了一个统一的 AI 工厂,将生成式 AI 和智能体工作流扩展至整个企业,确保安全性、性能和一致性。该平台支持数百个 AI 智能体,能够加速创新、简化软硬件工程流程并优化供应链运营——将规划时间缩短 95% 以上,一年内完成了相当于数十年的工程工作量。

后续步骤

准备好开始了吗?

详细了解 NVIDIA Enterprise AI Factory。

深入了解 NVIDIA 企业参考架构

探索 NVIDIA 企业参考架构 (RA) 如何为部署高性能 AI 基础设施提供可扩展的规范化蓝图。

集群配置 2-8-5-200 规格

集群配置 2-8-9-400 规格

集群配置 2-4-6-400 规格

思科是全球技术领导者,正在彻底改变组织在 AI 时代的连接和保护方式。 四十多年来,思科一直致力于安全地连接世界。凭借其业界领先的、由 AI 赋能的解决方案和服务,思科助力其客户、合作伙伴及社区释放创新潜力、提升生产力并增强数字韧性。 思科始终以使命为核心,致力于为所有人创造一个更互联、更包容的未来。

NVIDIA 设计评审委员会认可解决方案:

Dell Technologies 帮助企业组织和个人构建数字未来,并改变他们的工作、生活和娱乐方式。该公司为客户提供业界最广泛、最具创新性的技术和服务组合,以迎接 AI 时代。

NVIDIA 设计评审委员会认可解决方案:

慧与科技是基础企业技术领域的领导者,融合 AI、云和网络的力量,助力组织实现更多可能。作为可能性的开拓者,我们的创新与专业知识不断推动着人们生活和工作方式的进步。 我们赋能各行各业的客户优化运营绩效,将数据转化为前瞻性洞察,并最大化其影响力。 与慧与科技携手,释放您最远大的抱负。

NVIDIA 设计评审委员会认可解决方案:

联想是一家年营收 690 亿美元的全球科技巨头,位列《财富》世界 500 强第 196 位,每天为全球 180 个市场的数百万客户提供服务。 秉承“让 AI 惠及每个人“的宏伟愿景,我们与 NVIDIA 的持续合作将联想服务器与加速 GPU 相结合。 联想与 NVIDIA 携手打造的联想混合式 AI 优势™,借助联想 AI 库以及涵盖 AI 基础设施、设备、解决方案和服务的全栈产品组合,通过更快的 AI 部署,提升生产力与创新能力。

NVIDIA 设计评审委员会认可解决方案:

超微是应用优化型全方位 IT 解决方案的全球领导者。 超微成立于并在加州圣何塞运营,致力于为企业、云、AI 及 5G 电信/边缘 IT 基础设施提供领先市场的创新技术。 我们是一家提供全方位 IT 解决方案的供应商,产品涵盖服务器、AI、存储、物联网、交换机系统、软件及支持服务。 超微在主板、电源和机箱设计方面的专业知识进一步推动了我们的研发与生产,从而为全球客户实现从云到端的下一代创新。

NVIDIA 设计评审委员会认可解决方案: