NVIDIA HGX AI 超级计算机

强大的端到端 AI 超级计算平台

专为 AI 、仿真和数据分析而打造

AI、复杂模拟和海量数据集需要多个具有极快互连速度的 GPU 和完全加速的软件堆栈。NVIDIA HGX™ AI 超级计算平台整合了 NVIDIA GPU 、 NVLink® 、 NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能,可提供最高的应用性能并加快获得见解的速度。

出色的端到端加速计算平台

NVIDIA HGX H100 将 H100 Tensor Core GPU 与高速互连技术相结合,构成了世界上最强大的服务器。多达 8 个 GPU 的配置可提供前所未有的加速, 具有高达 640 GB 的 GPU 显存和 24 TB /s 的总内存带宽。惊人的 32 petaFLOPS 性能创造了世界上最强大的 AI 和 HPC 加速扩展服务器平台。

HGX H100 支持先进的网络选项 - 速度高达 400 Gb/s,利用 NVIDIA Quantum-2 InfiniBand 和 Spectrum-X™ 以太网实现最高的 AI 性能。 HGX H100 还包含 NVIDIA® BlueField® -3 数据处理器 (DPU),以便在超大规模 AI 云中实现云网络、组合存储、零信任安全和 GPU 计算弹性。

HGX Stack

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 with 8x A100 GPUs

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 with 4x A100 GPUs

深度学习训练:性能和可扩展性

为 GPT-3 提供高达 4 倍的 AI 训练加速

为 GPT-3 提供高达 4 倍的 AI 训练加速

NVIDIA H100 GPU 采用具有 FP8 精度的 Transformer Engine , 相比上一代 GPU , 为大型语言模型提供高达 4 倍的训练速度。第四代 NVIDIA NVLink 可提供 900 GB/s GPU 到 GPU 的互连速度,NVLink Switch 系统 (可加速每个 GPU 跨节点的集体通信) 、 PCIe 5.0 和 Magnum IO® 软件相结合,可实现从小型企业到大型统一 GPU 集群的高效可扩展性。这些基础设施的进步与 NVIDIA AI Enterprise 软件套件相结合,使 HGX H100 成为强大的端到端 AI 和 HPC 数据中心平台。

深度学习推理:性能和多功能性

大模型 AI 推理性能提升高达 30 倍

Megatron 聊天机器人推理,具有 5300 亿个参数。

大模型 AI 推理性能提升高达 30 倍

AI 使用同样广泛的神经网络解决了广泛的业务挑战。出色的 AI 推理加速器不仅必须提供最高性能,而且还必须具备在客户选择部署的任何位置 (从数据中心到边缘) 加速这些网络所需的多功能性。

HGX H100 进一步扩展了 NVIDIA 在市场中领先的深度学习推理领导地位,在 Megatron 5300 亿参数聊天机器人上的推理速度比上一代产品提高了 30 倍。

高性能计算 (HPC) 性能

HPC applications need to perform an enormous amount of calculations per second. Increasing the compute density of each server node dramatically reduces the number of servers required, resulting in huge savings in cost, power, and space consumed in the data center. For simulations, high-dimension matrix multiplication requires a processor to fetch data from many neighbors for computation, making GPUs connected by NVIDIA NVLink ideal. HPC applications can also leverage TF32 in A100 to achieve up to 11X higher throughput in four years for single-precision, dense matrix-multiply operations.

An HGX powered by A100 80GB GPUs delivers a 2X throughput increase over A100 40GB GPUs on Quantum Espresso, a materials simulation, boosting time to insight.

HPC 应用的性能提升高达 7 倍​

AI-fused HPC Applications

HGX H100 将双精度 Tensor Core 的每秒浮点运算次数 (FLOPS) 提高了 3 倍,在 8 卡 GPU 配置中为 HPC 提供高达 535 TeraFLOPS 的 FP64 计算,在 4 卡 GPU 配置中提供高达 268 TeraFLOPS 的算力。融合 AI 的 HPC 应用还可以利用 H100 的 TF32 精度在零代码更改的情况下,为单精度矩阵乘法运算实现近 8000 TeraFLOPS 的吞吐量。

H100 采用 DPX 指令集,可将动态编程算法(例如用于 DNA 序列比对和蛋白质比对以预测蛋白质结构的 Smith-Waterman)的速度比基于 NVIDIA Ampere 架构的 GPU 提高 7 倍。通过提高基因测序等诊断功能的吞吐量, H100 可为每个诊所提供准确、实时的疾病诊断和精准的药物处方。

Up to 1.8X Higher Performance for HPC Applications

Quantum Espresso​

Up to 1.8X Higher Performance for HPC Applications

借助 NVIDIA 网络加速 HGX

数据中心是新的计算单元,网络在扩展应用程序性能方面发挥着不可或缺的作用。 搭配 NVIDIA Quantum InfiniBand,HGX 提供世界一流的性能和效率,确保计算资源的充分利用。NVIDIA Quantum InfiniBand 凭借网内计算加速、远程直接内存访问 (RDMA) 和高级服务质量 (QoS) 功能引领潮流。

对于部署以太网的 AI 云数据中心, HGX 最适合与 NVIDIA Spectrum-X 网络平台配合使用,该平台可在 400 Gb/s 以太网上提供最高 AI 性能。 Spectrum-X 采用 NVIDIA Spectrum™ -4 交换机和 BlueField-3 DPU ,通过优化资源利用率和性能隔离,可在各种规模上为数千个同步 AI 作业提供一致且可预测的结果。 Spectrum-X 支持高级云多租户和零信任安全。借助 Spectrum-X ,云服务提供商可以加快 AI 解决方案的开发、部署和上市速度,同时提高投资回报率。

连接 HGX H100 与 NVIDIA 网络

  NVIDIA Quantum-2 InfiniBand
平台 :

Quantum - 2 交换机, ConnectX - 7 适配器, BlueField-3 DPU

NVIDIA Spectrum-X
平台 :

Spectrum-4 交换机,BlueField-3 DPU , Spectrum-X 许可证

NVIDIA Spectrum
以太网平台 :

Spectrum 交换机,ConnectX 适配器,BlueField DPU

深度学习训练 最佳 更佳 适用
科学计算模拟 最佳 更佳 适用
数据分析 最佳 更佳 适用
深度学习推理 最佳 更佳 适用

NVIDIA HGX 规格

NVIDIA HGX 可用于带有四个或八个 H100 GPU,以及四个或八个 A100 GPU 单基板。这些强大的硬件和软件组合为前所未有的 AI 超级计算性能奠定了基础。

  HGX H100
  4-GPU 8-GPU
GPUs HGX H100 4 GPU HGX H100 8 GPU
外形规格 4 个 NVIDIA H100 SXM 8 个 NVIDIA H100 SXM
HPC 和 AI 计算 (FP64/TF32/FP16/FP8/INT8) 268TF / 4PF / 8PF / 16PF / 16POPS 535TF / 8PF / 16PF / 32PF / 32POPS
显存 高达 320GB 高达 640GB
NVLink 第四代 第四代
NVSwitch 不适用 第三代
NVLink Switch 不适用 不适用
NVSwitch 互联 GPU 间带宽 不适用 900 GB/s
聚合总带宽 3.6 TB/s 7.2 TB/s
  HGX A100
  4-GPU 8-GPU
GPUs HGX A100 4-GPU HGX A100 8-GPU
外形规格 4x NVIDIA A100 SXM 8x NVIDIA A100 SXM
HPC 和 AI 计算 (FP64/TF32/FP16/INT8) 78TF/1.25PF/2.5PF/5POPS 156TF/2.5PF/5PF/10POPS
显存 高达 320GB 高达 640GB
NVLink 第三代 第三代
NVSwitch 不适用 第二代
NVSwitch 互联 GPU 间带宽 不适用 600 GB/s
聚合总带宽 2.4 TB/s 4.8 TB/s

HGX-1 and HGX-2 Reference Architectures

Powered by NVIDIA GPUs and NVLINK

NVIDIA HGX-1 and HGX-2 are reference architectures that standardize the design of data centers accelerating AI and HPC. Built with NVIDIA SXM2 V100 boards, with NVIDIA NVLink and NVSwitch interconnect technologies, HGX reference architectures have a modular design that works seamlessly in hyperscale and hybrid data centers to deliver up to 2 petaFLOPS of compute power for a quick, simple path to AI and HPC.

Powered by NVIDIA GPUs and NVLINK

Specifications

8-GPU
HGX-1 
16-GPU
HGX-2 
GPUs 8x NVIDIA V100 16x NVIDIA V100
AI Compute 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
Memory 256 GB 512 GB
NVLink 2nd generation 2nd generation
NVSwitch N/A Yes
NVSwitch GPU-to-GPU Bandwidth N/A 300 GB/s
Total Aggregate Bandwidth 2.4 TB/s 4.8 TB/s

了解有关 NVIDIA H100 GPU 的更多信息