NVIDIA HGX A100

适用于 AI 和高性能计算功能强大的加速服务器平台

适用于 AI 和高性能计算功能强大的加速服务器平台

庞大的数据集、急剧扩大的模型尺寸和复杂的模拟都需要多个极速互连的 GPU。NVIDIA GPU、NVIDIA® NVLink®、NVIDIA Mellanox® InfiniBand® 网络以及在 NGC 中经全面优化的 NVIDIA AI 和高性能计算 (HPC) 软件堆栈,NVIDIA HGX 平台整合这些技术的所有功能,可提供出色的应用性能。NVIDIA HGX 具备端到端性能和灵活性,可助力研究人员和科学家整合模拟、数据分析和 AI,推动科学研究进展。

卓越的加速计算平台

NVIDIA HGX A100 将 NVIDIA A100 Tensor Core GPU 与高速互连技术相结合,打造出世界超强的服务器。借助 A100 80GB GPU,单个 HGX A100 拥有高达 1.3TB 的 GPU 显存和每秒超过 2TB 的显存带宽,可提供超强加速性能。

与上一代相比 HGX A100 可为 AI 提供高达 20 倍的加速,借助 Tensor Float 32 (TF32) 和 FP64 可为 HPC 实现 2.5 倍加速。HGX A100 经过充分测试且易于部署,其集成到合作伙伴服务器中,提供可靠的性能。同时,NVIDIA HGX A100 16 卡 GPU 配置更是达到令人惊叹的 10 petaFLOPS 性能,为 AI 和 HPC 领域打造出全球性能强劲的加速服务器平台。

NVIDIA HGX A100(配备 8 个 A100)

NVIDIA HGX-3(配备 8 枚 A100)

NVIDIA HGX A100(配备 4 个 A100)

NVIDIA HGX-3(配备 4 枚 A100)

深度学习性能

机器学习性能

相较于 CPU 速度提升 83 倍;相较于 A100 40GB,在大数据分析基准测试方面速度提升 2 倍

相较于 CPU 速度提升 83 倍;相较于 A100 40GB,在大数据分析基准测试方面速度提升 2 倍

机器学习模型需要通过加载、转换和处理超大型数据集来获取重要见解。借助高达 1.3 TB 的统一显存和通过 NVSwitch 实现的全 GPU 通信,由 A100 80GB GPU 驱动的 HGX A100 能够加载巨大的数据集并对其执行计算,从而快速获得可行见解。

在大数据分析基准测试中,A100 80GB 提供见解的速度比 CPU 快 83 倍,并且比 A100 40GB 快 2 倍,因此非常适合处理数据集质量急增的新兴工作负载。

HPC 性能

HPC 应用程序需要每秒执行大量计算 增加每个服务器节点的计算密度可大幅减少所需的服务器数量,因而能够大大节省数据中心成本和空间并降低功耗。在模拟方面,高维矩阵乘法需要每个处理器从众多相邻处理器中提取数据执行计算,这使得通过 NVIDIA NVLink 连接的 GPU 非常适合此用途。HPC 应用程序还可以利用 A100 中的 TF32 在 4 年内将单精度、密集矩阵乘法运算的吞吐量提高至 11 倍。

由 A100 80GB GPU 驱动的 HGX A100 在运行材料模拟 Quantum Espresso 时速度比 A100 40GB GPU 快 2 倍,从而缩短了获得见解的时间。

四年来 HPC 性能提升 11 倍

主流 HPC 应用

四年来 HPC 性能提升 11 倍

为 HPC 应用提升 1.8 倍性能

Quantum Espresso​

为 HPC 应用提升 1.8 倍性能

HGX A100 规格

HGX A100 采用单一基板,配备 4 个或 8 个 A100 GPU。4-GPU 配置通过 NVLink 完全互联,8-GPU 配置通过 NVSwitch 互联。两个 8-GPU HGX A100 基板还可通过 NVSwitch 互联技术进行组合,以创建功能强大的 16-GPU 单节点。

4-GPU 8-GPU 16-GPU
GPU 数量 4 个 NVIDIA A100 8 个 NVIDIA A100 16 个 NVIDIA A100
HPC 和 AI 计算 FP64/TF32*/FP16*/INT8* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
显存 160 GB 320 GB 640 GB
NVIDIA NVLink 第 3 代 第 3 代 第 3 代
NVIDIA NVSwitch 不适用 第 2 代 第 2 代
NVSwitch 连接的 GPU 间带宽 不适用 600 GB/s 600 GB/s
总聚合带宽 2.4 TB/s 4.8 TB/s 9.6 TB/s

HGX-1 和 HGX-2 参考架构

采用 NVIDIA GPU 和 NVLINK 技术

NVIDIA HGX-1 和 HGX-2 是参考架构,用于标准化加速 AI 和高性能计算的数据中心的设计。HGX 参考架构采用 NVIDIA SXM2 V100 板、NVIDIA NVLink 和 NVSwitch 互联技术构建,并采用在超大规模混合数据中心无缝运行的模块化设计,可提供高达 2 petaFLOPS 的计算能力,让您能以快速、简单的方式实现 AI 和高性能计算。

采用 NVIDIA GPU 和 NVLINK 技术

规格

8-GPU
HGX-1 
16-GPU
HGX-2 
GPU 数量 8x NVIDIA V100 16x NVIDIA V100
AI 计算 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
显存 256 GB 512 GB
NVLink 第 2 代 第 2 代
NVSwitch 不适用 支持
NVSwitch 连接的 GPU 间带宽 不适用 300 GB/s
总聚合带宽 2.4 TB/s 4.8 TB/s

NVIDIA Ampere 架构解析

阅读此文章,了解 NVIDIA Ampere 架构技术亮点及其在 NVIDIA A100 GPU 中的体现。