NVIDIA HGX A100

采用 NVIDIA A100 Tensor Core GPU 和 NVSwitch 技术

适用于 AI 和高性能计算的功能强大的加速服务器平台

机器学习中的大型数据集、深度学习中爆炸式增长的模型大小以及高性能计算 (HPC) 中的复杂模拟都需要大量内存、支持高速互联的多枚 GPU 以及多个精度的加速。NVIDIA HGX-3™ 将多枚 NVIDIA A100 Tensor Core GPU 与高速互联技术相结合,从而打造功能强大的可扩展服务器。HGX-3 采用易于部署的单一基板,可在各种规模上实现出色的加速,快速简化与合作伙伴服务器的集成,并提供有保障的性能。

在各种规模上实现出色的加速

凭借 A100 Tensor Core的强大功能,HGX-3 利用 Tensor Float 32 (TF32) 创造性地将 AI 的速度提高 10 倍,利用 FP64 将高性能计算的速度提高 2.5 倍。HGX-3 配备四枚 A100 GPU,可提供 2.5 petaFLOPS 的 FP16 深度学习计算性能。8 路 HGX-3 提供 5 petaFLOPS 的 FP16 深度学习计算性能,而 16 路 HGX-3 则提供令人惊叹的 10 petaFLOPS,从而为 AI 和高性能计算打造功能强大的可扩展加速服务器平台。

NVIDIA HGX-3(配备 8 枚 A100)

NVIDIA HGX-3(配备 8 枚 A100)

NVIDIA HGX-3(配备 4 枚 A100)

NVIDIA HGX-3(配备 4 枚 A100)

开箱即用可达6倍 TF32 在 AI 培训中的表现

BERT 训练

nvidia-a100-6x-tf32-ai-training-2c50-d

深度学习性能

深度学习模型的复杂程度正呈爆炸式增长,需要配备大量内存及多枚 GPU 并在各 GPU 之间建立极速连接才能正常运作。HGX-3 利用 NVIDIA® NVSwitch™ 连接所有 GPU 并拥有统一内存,能够有效处理这些新模型,从而加快先进 AI 的训练速度。一台 8 路 HGX-3 可取代 数百台 CPU 驱动的服务器,因而能够大幅节省数据中心所用成本和空间并降低能耗。

机器学习性能

机器学习模型需要通过加载、转换和处理大型数据集来获取见解。HGX-3 拥有 0.5 TB 的统一内存并通过 NVSwitch 实现所有 GPU 之间的通信,故此可以加载庞大数据集并对其进行计算,从而快速获得切实可行的见解。

机器学习性能

4年内 HPC 性能提高9倍

顶级 HPC 应用程序的吞吐量

nvidia-a100-9x-hpc-2c50-d

高性能计算性能

高性能计算应用需要每秒执行大量计算的计算能力。增加每个服务器节点的计算密度可大幅减少所需的服务器数量,因而能够大大节省数据中心所用成本和空间并降低功耗。在高性能计算模拟方面,高维矩阵乘法需要每个处理器从众多相邻处理器中提取数据以便开展计算,因而经由 NVSwitch 连接的 GPU 成为其理想之选。在科学应用中,一台 4 路 HGX 3 服务器可替代多达几十台基于 CPU 的服务器。

功能强大的端到端 AI 和高性能计算数据中心平台

完整的 NVIDIA 数据中心 解决方案堆栈囊括了来自 NGC™ 的硬件、网络、软件、库以及优化的 AI 模型和应用的构建模块。作为强大的端到端 AI 和高性能计算数据中心平台,它让研究人员能够得到真实的结果,并能将解决方案大规模部署到生产环境中。

HGX-3 规格

HGX-3 采用单一基板,配备 4 枚或 8 枚 A100 GPU。4-GPU 配置通过 NVLink 完全互联,8-GPU 配置通过 NVSwitch 互联。两个 8-GPU HGX-3 基板还可通过 NVSwitch 互联技术进行组合,以创建功能强大的 16-GPU 单节点。

4-GPU 8-GPU 16-GPU
GPU 数量 4 枚 NVIDIA A100 8 枚 NVIDIA A100 16 枚 NVIDIA A100
HPC 和 AI 计算 FP64/TF32*/FP16*/INT8* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
显存 160 GB 320 GB 640 GB
NVIDIA NVLink 第 3 代 第 3 代 第 3 代
NVIDIA NVSwitch 不适用 第 2 代 第 2 代
NVSwitch GPU 到 GPU 的带宽 不适用 600 GB/s 600 GB/s
总聚合带宽 2.4 TB/s 4.8 TB/s 9.6 TB/s

HGX-1 和 HGX-2 参考架构

采用 NVIDIA GPU 和 NVLINK 技术

NVIDIA HGX-1 和 HGX-2 是参考架构,用于标准化加速 AI 和高性能计算的数据中心的设计。HGX 参考架构采用 NVIDIA SXM2 V100 板、NVIDIA NVLink 和 NVSwitch 互联技术构建,并采用在超大规模混合数据中心无缝运行的模块化设计,可提供高达 2 petaFLOPS 的计算能力,让您能以快速、简单的方式实现 AI 和高性能计算。

采用 NVIDIA GPU 和 NVLINK 技术

规格

8-GPU
HGX-1 
16-GPU
HGX-2 
GPU 数量 8x NVIDIA V100 16x NVIDIA V100
AI 计算 1 petaFLOPS (FP16) 2 petaFLOPS (FP16)
显存 256 GB 512 GB
NVLink 第 2 代 第 2 代
NVSwitch 不适用 支持
NVSwitch GPU 到 GPU 的带宽 不适用 300 GB/s
总聚合带宽 2.4 TB/s 4.8 TB/s

NVIDIA Ampere 架构解析

阅读此文章,了解 NVIDIA Ampere 架构技术亮点及其在 NVIDIA A100 GPU 中的体现。