适用于 AI 和高性能计算功能强大的加速服务器平台
庞大的数据集、急剧扩大的模型尺寸和复杂的模拟都需要多个极速互连的 GPU。NVIDIA GPU、NVIDIA® NVLink®、NVIDIA Mellanox® InfiniBand® 网络以及在 NGC™ 中经全面优化的 NVIDIA AI 和高性能计算 (HPC) 软件堆栈,NVIDIA HGX™ 平台整合这些技术的所有功能,可提供出色的应用性能。NVIDIA HGX 具备端到端性能和灵活性,可助力研究人员和科学家整合模拟、数据分析和 AI,推动科学研究进展。
NVIDIA HGX A100 将 NVIDIA A100 Tensor Core GPU 与高速互连技术相结合,打造出世界超强的服务器。借助 A100 80GB GPU,单个 HGX A100 拥有高达 1.3TB 的 GPU 显存和每秒超过 2TB 的显存带宽,可提供超强加速性能。
与上一代相比 HGX A100 可为 AI 提供高达 20 倍的加速,借助 Tensor Float 32 (TF32) 和 FP64 可为 HPC 实现 2.5 倍加速。HGX A100 经过充分测试且易于部署,其集成到合作伙伴服务器中,提供可靠的性能。同时,NVIDIA HGX A100 16 卡 GPU 配置更是达到令人惊叹的 10 petaFLOPS 性能,为 AI 和 HPC 领域打造出全球性能强劲的加速服务器平台。
DLRM 训练
HugeCTR 框架上的 DLRM,精度 = FP16 | NVIDIA A100 80GB 批量大小 = 48 | NVIDIA A100 40GB 批量大小 = 32 | NVIDIA V100 32GB 批量大小 = 32。
深度学习模型的尺寸和复杂性急剧增加,需要系统具备大容量内存、强大计算能力和快速互连能力来实现可扩展性。借助 NVIDIA® NVSwitch™ 提供的高速全 GPU 通信技术,HGX A100 能处理极其先进的 AI 模型。A100 80GB GPU 使 GPU 显存容量提高了一倍,可在单个 HGX A100 中提供高达 1.3 TB 的显存。对于超大模型相关的工作负载,例如具有庞大数据表用于推荐系统的 DLRM,由 A100 40GB GPU 驱动的 HGX 可将处理性能加快高达 3 倍。
大数据分析基准测试 | 针对 10TB 数据集的 30 次分析零售查询、ETL、ML、NLP | CPU:英特尔至强金牌 6252 2.10 GHz,Hadoop | V100 32GB,RAPIDS/Dask | A100 40GB 和 A100 80GB,RAPIDS/Dask/BlazingSQL
机器学习模型需要通过加载、转换和处理超大型数据集来获取重要见解。借助高达 1.3 TB 的统一显存和通过 NVSwitch 实现的全 GPU 通信,由 A100 80GB GPU 驱动的 HGX A100 能够加载巨大的数据集并对其执行计算,从而快速获得可行见解。
在大数据分析基准测试中,A100 80GB 提供见解的速度比 CPU 快 83 倍,并且比 A100 40GB 快 2 倍,因此非常适合处理数据集质量急增的新兴工作负载。
HPC 应用程序需要每秒执行大量计算 增加每个服务器节点的计算密度可大幅减少所需的服务器数量,因而能够大大节省数据中心成本和空间并降低功耗。在模拟方面,高维矩阵乘法需要每个处理器从众多相邻处理器中提取数据执行计算,这使得通过 NVIDIA NVLink 连接的 GPU 非常适合此用途。HPC 应用程序还可以利用 A100 中的 TF32 在 4 年内将单精度、密集矩阵乘法运算的吞吐量提高至 11 倍。
由 A100 80GB GPU 驱动的 HGX A100 在运行材料模拟 Quantum Espresso 时速度比 A100 40GB GPU 快 2 倍,从而缩短了获得见解的时间。
主流 HPC 应用
应用加速的几何平均数与 P100 加速性能对比:基准应用:Amber [PME-Cellulose_NVE]、Chroma [szscl21_24_128]、GROMACS [ADH Dodec]、MILC [Apex Medium]、NAMD [stmv_nve_cuda]、PyTorch (BERT-Large Fine Tuner]、Quantum Espresso [AUSURF112-jR]、随机森林 FP32 [make_blobs (160000 x 64: 10)]、TensorFlow [ResNet-50]、VASP 6 [Si Huge] | 包含双路 CPU 和 4 块 NVIDIA P100、V100 或 A100 GPU 的 GPU 节点。
Quantum Espresso
使用 CNT10POR8 数据集测量的 Quantum Espresso,精度 = FP64。
HGX A100 采用单一基板,配备 4 个或 8 个 A100 GPU。4-GPU 配置通过 NVLink 完全互联,8-GPU 配置通过 NVSwitch 互联。两个 8-GPU HGX A100 基板还可通过 NVSwitch 互联技术进行组合,以创建功能强大的 16-GPU 单节点。
*稀疏技术
NVIDIA HGX-1 和 HGX-2 是参考架构,用于标准化加速 AI 和高性能计算的数据中心的设计。HGX 参考架构采用 NVIDIA SXM2 V100 板、NVIDIA NVLink 和 NVSwitch 互联技术构建,并采用在超大规模混合数据中心无缝运行的模块化设计,可提供高达 2 petaFLOPS 的计算能力,让您能以快速、简单的方式实现 AI 和高性能计算。
阅读此文章,了解 NVIDIA Ampere 架构技术亮点及其在 NVIDIA A100 GPU 中的体现。