NVIDIA HGX AI 超级计算机

先进的 AI 计算平台。

专为 AI 和 HPC 而打造

AI、复杂模拟和海量数据集需要多个具有极快互连速度的 GPU 和完全加速的软件堆栈。NVIDIA HGX™ AI 超级计算平台整合了 NVIDIA GPU 、 NVLink® 、 NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能,可提供最高的应用性能并加快获得见解的速度。

卓越的端到端加速计算平台

NVIDIA HGX H200 将 H200 Tensor Core GPU 与高速互连技术相结合,成为性能超强的服务器。该平台可配置多达 8 个 GPU,能够提供非凡的加速效果、最高可达 1.1 TB 的 GPU 内存,以及 38 TB/s 的聚合内存带宽。再加上惊人的 32 petaFLOP 性能,所有这些使得该平台成为适用于 AI 和 HPC 且超级强大的加速扩展服务器平台。

HGX H200 和 HGX H100 均包含先进的网络选项,速度最高可达 400 Gb/s,能够利用 NVIDIA Quantum-2 InfiniBand 和 Spectrum™-X 以太网实现出色的 AI 性能。HGX H200 和 HGX H100 还包括 NVIDIA® BlueField®-3 数据处理器 (DPU),有助于在超大规模 AI 云中实现云网络、可组合存储、零信任安全性和 GPU 计算弹性。

HGX Stack

出色的端到端加速计算平台

预测性能,可能会发生变化。

GPT-3 175B 训练 NVIDIA A100 Tensor Core GPU 集群:NVIDIA Quantum InfiniBand 网络;H100 集群:NVIDIA Quantum-2 InfiniBand 网络

NVIDIA H200 和 H100 GPU 采用 Transformer 引擎(FP8 精度),与上一代 GPU 相比,可助力大语言模型的训练速度最高提升至原来的 5 倍。通过结合使用能够提供 900GB/s GPU 间互连的第四代 NVLink、PCIe 5.0 以及 Magnum IO™ 软件,小型企业可高效扩展为大规模统一 GPU 集群。这些基础架构技术进步能够与 NVIDIA AI Enterprise 软件套件协同发挥作用,让 HGX H200 和 HGX H100 成为卓越的 AI 计算平台。

深度学习推理:性能和多功能性

可助力超大模型的 AI 推理性能最高提升至原来的 30 倍

Megatron 聊天机器人推理(5300 亿个参数)

具有 5300 亿个参数的 Megatron 模型聊天机器人的推理,输入序列长度 = 128,输出序列长度 = 20,A100 集群:NVIDIA Quantum InfiniBand 网络;H100 集群:适用于 2x HGX H100 配置的 NVIDIA Quantum-2 InfiniBand 网络;采用 4x HGX A100 与 2x HGX H100 时,延迟分别为 1 秒和 1.5 秒;采用 2x HGX A100 与 1x HGX H100 时,延迟均为 2 秒。

AI 正在利用一系列广泛的神经网络攻克范围同样广泛的一系列商业挑战。因此,出色的 AI 推理加速器不仅要提供非凡的性能,还要具备出色的通用性,能够在客户选择的任意部署位置(从数据中心到边缘)加速这些神经网络。

HGX H200 和 HGX H100 进一步扩展了 NVIDIA 在推理领域的市场领先地位,并且在具有 5300 亿个参数的 Megatron 聊天机器人上,与上一代产品相比,最高可使推理速度提升至原来的 30 倍。

高性能计算 (HPC) 性能

可助力 HPC 应用的性能最高提升至原来的 110 倍

预测性能,可能会发生变化。
HPC MILC- 数据集 NERSC Apex Medium | HGX H200 4-GPU | 双 Sapphire Rapids 8480
HPC 应用- CP2K:数据集 H2O-32-RI-dRPA-96points | GROMACS:数据集 STMV | ICON:数据集 r2b5 | MILC:数据集 NERSC Apex Medium | Chroma:数据集 HMC Medium | Quantum Espresso:数据集 AUSURF112 | 1x H100 | 1x H200。

内存带宽对于高性能计算应用来说至关重要,因为它有助于实现更快的数据传输,同时减少复杂的处理瓶颈。对于仿真、科学研究和人工智能等内存密集型 HPC 应用,H200 的更高内存带宽可确保高效访问和操控数据,与使用 CPU 相比,使用 H200 时获得结果所需的时间最高可缩短 110 倍。

借助 NVIDIA 网络来加速 HGX

数据中心是新的计算单元,而网络在大幅提升整个数据中心的应用性能方面发挥着不可或缺的作用。与 NVIDIA Quantum InfiniBand 搭配使用时,HGX 可提供卓越的性能和效率,确保计算资源得到充分利用。

对于部署以太网的 AI 云数据中心,HGX 最好与 NVIDIA Spectrum-X 网络平台结合使用,该平台可通过 400Gb/s 以太网助力实现超高的 AI 性能。Spectrum-X 采用 NVIDIA Spectrum™-4 交换机和 BlueField-3 DPU,能够借助超高的资源利用率和卓越的性能隔离,为各种规模、数以千计的并发 AI 作业提供一致且可预测的结果。Spectrum-X 有助于实现先进的云多租户技术和出色的零信任安全性。NVIDIA 设计了 Israel-1,以便作为 NVIDIA Spectrum-X 的参考设计。Israel-1 是一款超大规模的生成式 AI 超级计算机,采用基于 NVIDIA HGX™ H100 平台(8 个 GPU)、BlueField-3 DPU 和 Spectrum-4 交换机的 Dell PowerEdge XE9680 服务器构建。

将 HGX H200 或 HGX H100 与 NVIDIA 网络相连

  NVIDIA Quantum-2 InfiniBand 平台 :

Quantum - 2 交换机, ConnectX - 7 适配器, BlueField-3 DPU

NVIDIA Spectrum-X 平台 :

Spectrum-4 交换机,BlueField-3 DPU , Spectrum-X 许可证

NVIDIA Spectrum 以太网平台 :

Spectrum 交换机,ConnectX 适配器,BlueField DPU

深度学习训练 最佳 更佳 适用
科学计算模拟 最佳 更佳 适用
数据分析 最佳 更佳 适用
深度学习推理 最佳 更佳 适用

NVIDIA HGX 规格

NVIDIA HGX 采用单一基板,配备 4 个或 8 个 H200 或 H100 GPU,或者是配备 4 个或 8 个 A100 GPU。这种强大的硬件和软件组合为实现卓越的 AI 超级计算性能奠定了坚实的基础。

  HGX H200
  4-GPU 8-GPU
GPUs HGX H200 4-GPU HGX H200 8-GPU
外形规格 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
HPC 和 AI 计算 (FP64/TF32/FP16/FP8/INT8) 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
显存 最高可达 564GB 最高可达 1.1TB
NVLink 第四代 第四代
NVSwitch 不适用 第三代
NVSwitch 互联 GPU 间带宽 不适用 900GB/s
聚合总带宽 3.6TB/s 7.2TB/s
  HGX H100
  4-GPU 8-GPU
GPUs HGX H100 4-GPU HGX H100 8-GPU
外形规格 4 个 NVIDIA H100 SXM 8 个 NVIDIA H100 SXM
HPC 和 AI 计算 (FP64/TF32/FP16/FP8/INT8) 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
显存 高达 320GB 高达 640GB
NVLink 第四代 第四代
NVSwitch 不适用 第三代
NVLink Switch 不适用 不适用
NVSwitch 互联 GPU 间带宽 不适用 900 GB/s
聚合总带宽 3.6 TB/s 7.2 TB/s
  HGX A100
  4-GPU 8-GPU
GPUs HGX A100 4-GPU HGX A100 8-GPU
外形规格 4 个 NVIDIA A100 SXM 8 个 NVIDIA A100 SXM
HPC 和 AI 计算 (FP64/TF32/FP16/INT8) 78TF/1.25PF/2.5PF/5 POPS 156TF/2.5PF/5PF/10 POPS
显存 高达 320GB 高达 640GB
NVLink 第三代 第三代
NVSwitch 不适用 第二代
NVSwitch 互联 GPU 间带宽 不适用 600 GB/s
聚合总带宽 2.4 TB/s 4.8 TB/s

了解有关 NVIDIA H200 Tensor Core GPU 的更多信息。