NVIDIA HGX AI 超级计算机

功能强大的端到端 AI 超级计算平台。

专为模拟仿真、数据分析和 AI 的融合而构建

庞大的数据集、呈爆炸式增长的模型大小和复杂的模拟需要多个极速互连的 GPU 以及充分加速的软件堆栈。NVIDIA HGX™ AI 超级计算平台整合了 NVIDIA GPU、NVIDIA® NVLink®、NVIDIA InfiniBand 网络及 NVIDIA NGC™ 目录中经全面优化的 NVIDIA AI 和 HPC 软件堆栈,提供出色的应用性能。NVIDIA HGX 具备端到端性能和灵活性,可助力研究人员和科学家整合模拟仿真、数据分析和 AI,推动科学研究取得新进展。

出色的端到端加速计算平台

NVIDIA HGX 将 NVIDIA A100 Tensor Core GPU 与高速互连技术相结合,打造功能强大的服务器。HGX 拥有 16 个 A100 GPU,具有高达 1.3 TB 的 GPU 显存和超过 2 TB/秒的显存带宽,可实现非凡加速。

与前几代产品相比,HGX 借助 Tensor Float 32 (TF32) 开箱即可为 AI 提供高达 20 倍的加速,同时借助 FP64 实现 2.5 倍的 HPC 加速。NVIDIA HGX 提供了令人惊叹的 10 petaFLOPS,为 AI 和 HPC 领域打造出全球性能强劲的加速扩展服务器平台。

HGX 经过全面测试且易于部署,可集成至合作伙伴服务器中,以提供有保证的性能。HGX 平台提供 4-GPU 和 8-GPU HGX 主板并采用 SXM GPU,也可采用 PCIe GPU 的形式以提供模块化部署选项,为主流服务器带来卓越计算性能。

HGX Stack

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 with 8x A100 GPUs

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 with 4x A100 GPUs

深度学习性能

针对大型模型提供高达 3 倍的 AI 训练速度

DLRM 训练

Up to 3X Higher AI Training on Largest Models

深度学习模型的大小和复杂性急剧增加,需要系统具备大容量内存、强大计算能力和快速互连能力来实现可扩展性。 借助 NVIDIA NVSwitch™ 提供的高速多对多全 GPU 通信,HGX 能处理极其先进的 AI 模型。A100 80GB GPU 使 GPU 显存容量提高了一倍,可在单个 HGX 中提供高达 1.3 TB 的显存。对于在拥有庞大数据表的超大模型(深度学习推荐模型 (DLRM))上出现的新兴工作负载,相较于 A100 40GB GPU 驱动的 HGX,它能将处理性能加速高达 3 倍。

机器学习性能

相较于 A100 40GB,在大数据分析基准测试中速度提升 2 倍

2X Faster than A100 40GB on Big Data Analytics Benchmark

机器学习模型需要通过加载、转换和处理极大型数据集来获取重要见解。借助高达 1.3TB 的统一显存和通过 NVSwitch 实现的多对多全 GPU 通信,由 A100 80GB GPU 驱动的 HGX 能够加载巨大的数据集并对其执行计算,从而快速获得可行见解。 在大数据分析基准测试中,A100 80GB 提供见解的吞吐量比 A100 40GB 高两倍,因此非常适合处理数据集大小急增的新型工作负载。

HPC 性能

HPC 应用程序需要每秒执行大量计算增加每个服务器节点的计算密度可大幅减少所需的服务器数量,因而能够大大节省数据中心所用成本和空间并降低功耗。在模拟仿真方面,高维矩阵乘法需要每个处理器从众多相邻处理器中提取数据以执行计算,这使得通过 NVIDIA NVLink 连接的 GPU 非常适合此用途。HPC 应用还可以利用 A100 中的 TF32 在 4 年内将单精度、密集矩阵乘法运算的吞吐量提高多达 11 倍。

由 A100 80GB GPU 提供支持的 HGX 在 Quantum Espresso(一种材质模拟)上提供了比 A100 40GB GPU 高 2 倍的吞吐量,加快了见解获取速度。

在四年内将 HPC 性能 提高 11 倍

热门 HPC 应用​

11X More HPC Performance in Four Years

HPC 应用的性能 提升高达 1.8 倍

Quantum Espresso​

Up to 1.8X Higher Performance for HPC Applications

NVIDIA HGX 规格

NVIDIA HGX 提供单主板四个或八个 A100 GPUs(每个 GPU 的显存为 40GB 或 80GB)的规格。4-GPU 配置与 NVIDIA NVLink® 完全互联,8-GPU 配置与 NVSwitch 互连。使用 NVSwitch 互连可以组合两个 NVIDIA HGX A100 8-GPU 主板,从而形成强大的 16-GPU 单节点。

HGX 还有 PCIe 外形规格,提供模块化、易部署的选项,为主流服务器带来卓越计算性能,每个 GPU 均可选择 40GB 或 80GB 的显存。

这种强大的硬件和软件组合为打造非凡 AI 超级计算平台奠定了基础。

  A100 PCIe 4-GPU 8-GPU 16-GPU
GPU 1x NVIDIA A100 PCIe HGX A100 4-GPU HGX A100 8-GPU 2x HGX A100 8-GPU
外形规格 PCIe 4x NVIDIA A100 SXM 8x NVIDIA A100 SXM 16x NVIDIA A100 SXM
HPC 和 AI 计算 (FP64/TF32*/FP16*/INT8*) 19.5TF/312TF*/624TF*/1.2POPS* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
显存 每个 GPU 40GB 或 80GB 高达 320GB 高达 640GB 高达 1280GB
NVLink 第三代 第三代 第三代 第三代
NVSwitch 不适用 不适用 第二代 第二代
NVSwitch 互联 GPU 间带宽 不适用 不适用 600GB/s 600GB/s
聚合总带宽 600GB/s 2.4TB/s 4.8TB/s 9.6TB/s

通过 NVIDIA 网络加速 HGX

借助 HGX,我们还可以采用 NVIDIA 网络,以加速和卸载数据传输,并确保计算资源得到充分利用。智能适配器和交换机可缩短延迟、提高效率、增强安全性并简化数据中心自动化,从而为端到端应用提升性能。

数据中心是新的计算单元,HPC 网络在提升整个数据中心应用性能方面发挥着不可或缺的作用。NVIDIA InfiniBand 凭借软件定义网络、网络计算加速、远程直接内存访问 (RDMA)、网络的转发速度及效率等优势,进一步引领技术潮流。

HGX-1 and HGX-2 Reference Architectures

Powered by NVIDIA GPUs and NVLINK

NVIDIA HGX-1 and HGX-2 are reference architectures that standardize the design of data centers accelerating AI and HPC. Built with NVIDIA SXM2 V100 boards, with NVIDIA NVLink and NVSwitch interconnect technologies, HGX reference architectures have a modular design that works seamlessly in hyperscale and hybrid data centers to deliver up to 2 petaFLOPS of compute power for a quick, simple path to AI and HPC.

Powered by NVIDIA GPUs and NVLINK

Specifications

8-GPU
HGX-1 
16-GPU
HGX-2 
GPUs 8x NVIDIA V100 16x NVIDIA V100
AI Compute 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
Memory 256 GB 512 GB
NVLink 2nd generation 2nd generation
NVSwitch N/A Yes
NVSwitch GPU-to-GPU Bandwidth N/A 300 GB/s
Total Aggregate Bandwidth 2.4 TB/s 4.8 TB/s

NVIDIA Ampere 架构细览

阅读这份深度技术指南,了解 NVIDIA Ampere 架构的新变化及其在 NVIDIA A100 GPU 中的实现方式。