企业参考架构

构建可扩展的 AI 工厂

利用 NVIDIA 企业参考架构将数据中心转变为高性能 AI 工厂。

概览

AI 成功的基石

NVIDIA 企业参考架构使企业组织能够利用经过验证、可重复的基础设施来设计、部署和扩展高性能 AI 工厂。这些设计方案结合了经认证的计算能力、高速的东西向和南北向网络、可观测性工具以及软件，确保从四节点集群到企业级环境都能实现可扩展的性能。

Palantir 携手 NVIDIA，共同推出主权 AI 操作系统参考架构

Palantir 主权 AI 操作系统参考架构基于 NVIDIA 企业参考架构构建，经过测试与认证，可在 NVIDIA AI 基础设施上运行 Palantir 的完整软件套件。

阅读新闻稿

成熟的设计和经过验证的性能

了解基于实际部署和久经考验的配置而构建的企业级参考架构，如何简化规划流程并最大化可扩展 AI 基础设施的投资回报率。

阅读白皮书

企业参考架构

完整系列指南

关于在数据中心设置集群的全套说明现已推出。

基础设施

NVIDIA 企业参考架构从经过验证的硬件配置开始，包括 CPU-GPU 网络节点模式、布线图和基础设施详细信息。

网络逻辑

企业参考架构的网络配置和逻辑架构逻辑指南提供对节点管理和配置的详细指导，并可通过 NVIDIA Air 对 VLAN 设计和网络运行进行仿真。

软件

我们的企业级参考架构软件参考栈概述了用于管理、配置和规划基础设施集群规模的软件。当前版本主要面向开放源代码 Kubernetes，并配备 NVIDIA AI Enterprise 和 NVIDIA Run:ai 软件。

可观测性

NVIDIA 企业参考架构可观测性指南利用 Prometheus 和 Grafana 等开源工具，监控整个集群的 GPU 及网络性能。仪表板提供系统运行状况和工作负载效率的实时指标。

部署

NVIDIA 企业参考架构部署指南汇集了基础设施最佳实践，这些经验源于我们团队在搭建、部署、测试及验证内部集群过程中所积累的成果，我们的项目正是基于这些集群构建而成。

存储

NVIDIA 认证的企业级存储由特定合作伙伴共同参与，创建了相应的存储指南实现与企业参考架构的集成。详细了解这一计划的更多信息。

用例

针对各种用例而设计

借助久经验证的 NVIDIA 企业参考架构及来自全球合作伙伴的 NVIDIA 认证系统加速智能体 AI、物理 AI、高性能计算 (HPC) 及 AI 仿真等工作负载。部署企业级 AI 工厂的主要基础设施集群配置概述如下。

NVIDIA RTX PRO AI 工厂
NVIDIA HGX AI 工厂
NVIDIA NVL72 AI 工厂

NVIDIA RTX PRO AI 工厂

NVIDIA RTX PRO™ AI 工厂配置专为广泛的企业工作负载而设计，包括生成式 AI 与智能体 AI、数据分析、视觉计算以及工程仿真。部署围绕 16 节点和 32 节点设计点进行优化，在性能、可扩展性和部署效率之间提供了理想的平衡。 NVIDIA RTX PRO 服务器专为跨企业 AI、仿真和视觉计算的通用工作负载加速而设计，针对 PCIe 环境进行了优化，使其成为空间、功耗和散热受限的数据中心的理想选择。它们为现代 AI 工作负载量身打造，可为智能体 AI 和大型语言模型 (LLM) 推理提供高效的性能。

查看集群配置规格

NVIDIA HGX AI 工厂

高性能 NVIDIA HGX™ AI 工厂配置借助 NVIDIA HGX 系统，专为大规模多节点 AI 训练与推理而构建。该架构提供 32、64 和 128 节点设计规格，并采用 NVIDIA Spectrum-X™网络支持，具备灵活的、针对轨道优化的设计，能够在不同机架布局中实现高效集成，同时提供高吞吐量、低延迟的性能。它为运行最苛刻工作负载的 AI 高级用户提供突破性性能，支持大规模模型训练和微调，并显著加速推理。凭借下一代精度和超快互连，该解决方案实现了高达 15 倍的 Token 吞吐量提升。

查看集群配置规格

NVIDIA NVL72 AI 工厂

NVIDIA NVL72 AI 工厂配置专为训练和部署万亿参数模型而设计，在单个机架内即可提供百亿次级的计算能力。它专为海量模型吞吐量、多用户推理和大规模实时推理而构建，为实现下一代 AI 驱动的创新提供了可能性。部署设计方案主要围绕四机架和八机架配置展开。该架构基于灵活且针对轨道优化的网络构建，能够适应不同的机架布局和系统设计，同时提供高带宽、低延迟的性能。该平台凭借第五代 NVIDIA NVLink™、FP4 Tensor Core 和先进的散热创新技术，实现了卓越的 AI 工厂产出，并具备行业领先的能效。

查看集群配置规格

优势

企业参考架构的战略价值

利用经过验证、合作伙伴就绪的配置，解锁可扩展的高性能 AI 基础设施。

AI 工作负载发挥峰值性能

通过确保多节点集群间 GPU 充分利用及性能一致性的架构，满足 AI 推理、微调和训练的严苛需求。

灵活扩展，简化操作

轻松扩展您的基础设施，并确保多达 128 个节点实现可扩展、简化的部署。借助利用我们软件生态系统的 NVIDIA 企业 AI 工厂验证设计，为全栈解决方案奠定基础。

降低复杂性和 TCO

简化部署流程和高效设计，降低复杂性和总体拥有成本 (TCO)，同时缩短实现价值的时间。

可支持性

遵循特定的、标准化的设计模式，实现不同安装之间的一致操作，减少频繁支持的需求，并实现更快的解决时间。

合作伙伴

合作提升绩效

我们很荣幸能与领先的合作伙伴合作，将企业参考架构和 AI 工厂解决方案推向市场。这些合作伙伴的认可设计已通过我们的设计评审委员会，提供的指南在以下一个或多个领域赢得了我们的认可：基础设施、网络逻辑和软件。

开始体验

Palantir 携手 NVIDIA 打造主权 AI 操作系统参考架构

Palantir 主权 AI 操作系统参考架构基于 NVIDIA 企业参考架构构建，经过测试与认证，可在 NVIDIA AI 基础设施上与我们全球的系统合作伙伴一起运行 Palantir 的完整软件套件。这种主权 AI 架构对于具有延迟敏感型工作流程、数据所有权要求以及高地理分布需求的客户至关重要。该架构为企业提供了对其数据、AI 模型和应用的完全控制权。

了解详情

资源

详细了解企业参考架构

NVIDIA RTX PRO AI 工厂参考架构

NVIDIA RTX PRO AI 工厂配置支持广泛的企业级工作负载，包括智能体 AI 推理、物理与工业 AI、视觉计算，以及用于数据分析和仿真的高性能计算。本文档详细阐述了支撑此可扩展模块化架构的硬件组件。

阅读白皮书

NVIDIA HGX AI 工厂参考架构

NVIDIA HGX AI 工厂配置专注于高性能 AI 推理、模型训练和微调。本文档概述了可扩展模块化架构的硬件组件，包括集群指导以及用于互连集群的网络结构拓扑。

阅读白皮书

借助 NVIDIA Run:ai 解锁海量 Token 吞吐量

与 Nebius 的联合基准测试表明，在 NVIDIA 企业参考架构上使用 NVIDIA Run:ai 进行分式 GPU 部署，可显著提高生产级 LLM 工作负载的吞吐量和利用率。

阅读博客

NVIDIA 企业参考体系架构概述

本白皮书介绍了 NVIDIA 企业参考架构，它为设计和构建 AI 工厂提供了经过验证的指导，适用于从 32 到 1024 GPU 的企业级部署。这些架构有助于简化 AI 基础设施部署，降低运营复杂性，并加速实现价值。

阅读白皮书

南北向网络：加速企业 AI 工作负载的关键

NVIDIA 企业参考架构为企业组织部署 AI 工厂提供指导，充分利用南北向和东西向网络，为构建可扩展、安全且高性能的 AI 基础设施提供设计指南。

阅读博客

采用全新企业参考架构大规模部署 NVIDIA H200 NVL

NVIDIA H200 NVL 凭借增强的内存、高速 NVLink 和优化的企业 RA 配置，加速 AI 部署。

阅读博客

NVIDIA 的 AI 工厂推动企业级规模化创新

NVIDIA 构建了一个统一的 AI 工厂，将生成式 AI 和智能体工作流扩展至整个企业，确保安全性、性能和一致性。该平台支持数百个 AI 智能体，能够加速创新、简化软硬件工程流程并优化供应链运营——将规划时间缩短 95% 以上，一年内完成了相当于数十年的工程工作量。

探索关键成果

后续步骤

准备好开始了吗？

详细了解 NVIDIA Enterprise AI Factory。

开始体验

深入了解 NVIDIA 企业参考架构

探索 NVIDIA 企业参考架构 (RA) 如何为部署高性能 AI 基础设施提供可扩展的规范化蓝图。

阅读白皮书

CPU (符合条件)	2x 64c 英特尔至强 2x 64c AMD EPYC
GPU	8x NVIDIA RTX PRO™ 6000 Blackwell 服务器版
网络建设（东西向）	4x NVIDIA® BlueField®-3 B3140H (1x 400 Gb)
网络建设（南北向）	1x BlueField-3 B3220 (2x 200 Gb)
主机内存 (最小)	最小 1024 GB DDR5 ECC（每个插槽 1 个 DIMM）
主机启动驱动器 (最小)	1x 1 TB NVMe
主机存储 (最小)	2x 4 TB NVMe

CPU (符合条件)	2x 64c 英特尔至强 2x 64c AMD EPYC
GPU	8x NVIDIA Blackwell Ultra GPU
网络建设（东西向）	8x NVIDIA® BlueField®-3 B3140H (1x 400 Gb)
网络建设（南北向）	1x BlueField-3 B3220 (2x 200 Gb)
主机内存 (最小)	最小 1536 GB DDR5 ECC（每个插槽 1 个 DIMM）
主机启动驱动器 (最小)	1x 1 TB NVMe
主机存储 (最小)	2x 4 TB NVMe

CPU	2 个 72 核 NVIDIA Grace™ (每机架 36 个)
GPU	4x NVIDIA Blackwell GPU (每机架 72)
网络建设（东西向）	4x NVIDIA® ConnectX®-7 (1x 400 Gb)
网络建设（南北向）	2x NVIDIA BlueField®-3 B3240 (4x 200 Gb)

企业参考架构

构建可扩展的 AI 工厂

AI 成功的基石

Palantir 携手 NVIDIA，共同推出主权 AI 操作系统参考架构

成熟的设计和经过验证的性能

完整系列指南

基础设施

网络逻辑

软件

可观测性

部署

存储

针对各种用例而设计

NVIDIA RTX PRO AI 工厂

NVIDIA HGX AI 工厂

NVIDIA NVL72 AI 工厂

企业参考架构的战略价值

AI 工作负载发挥峰值性能

灵活扩展，简化操作

降低复杂性和 TCO

可支持性

合作提升绩效

Palantir 携手 NVIDIA 打造主权 AI 操作系统参考架构

详细了解企业参考架构

NVIDIA RTX PRO AI 工厂参考架构

NVIDIA HGX AI 工厂参考架构

借助 NVIDIA Run:ai 解锁海量 Token 吞吐量

NVIDIA 企业参考体系架构概述

南北向网络：加速企业 AI 工作负载的关键

采用全新企业参考架构大规模部署 NVIDIA H200 NVL

NVIDIA 的 AI 工厂推动企业级规模化创新

后续步骤

准备好开始了吗？

深入了解 NVIDIA 企业参考架构

集群配置 2-8-5-200 规格

集群配置 2-8-9-400 规格

集群配置 2-4-6-400 规格