NVIDIA A100 Tensor Core GPU

在各种规模上实现出色的加速

加速当今最重要的工作

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和高性能计算 (HPC),在各种规模上实现出色的加速,应对极其严峻的计算挑战。作为 NVIDIA 数据中心平台的引擎,A100 可以高效扩展,系统中可以集成数千个  A100 GPU,也可以利用 NVIDIA 多实例 GPU (MIG) 技术将每个 A100 划分割为七个独立的 GPU 实例,以加速各种规模的工作负载。第三代 Tensor Core 技术为各种工作负载的更多精度水平提供加速支持,缩短获取洞见以及产品上市时间。

功能强大的端到端 AI 和 HPC 数据中心平台

A100 是完整的 NVIDIA 数据中心解决方案堆栈的一部分,该解决方案堆栈包括来自 NGC™ (NVIDIA GPU Cloud) 的硬件、网络、软件、库以及优化的 AI 模型和应用程序构建模块。它为数据中心提供了强大的端到端 AI 和 HPC 平台,使研究人员能够大规模地交付真实的结果,并将解决方案大规模部署到生产环境中。

 

制作 Ampere 视频

Up to 6X Higher Out-of-the-Box Performance ​with TF32 for AI Training

BERT Training

Up to 6X Higher Out-of-the-Box Performance ​with TF32 for AI Training

深度学习训练

当今的 AI 模型需要应对精准对话式 AI 和深度推荐系统等新型挑战,这促使其复杂度呈爆炸式增长。训练这些模型需要大规模的计算能力和可扩展性。

NVIDIA A100 的第三代 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度,可提供比上一代高 10 倍之多的性能,并且无需更改代码,更能通过自动混合精度将性能进一步提升两倍。与第三代 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCIe 4.0、Mellanox 和 Magnum IO 软件 SDK 结合使用时,系统中可以集成数千个 A100 GPU。这意味着,BERT 等大型 AI 模型只需在 A100 构成的集群上进行训练几十分钟,从而提供出色的性能和可扩展性。

NVIDIA 在深度学习训练方面的领先地位在  MLPerf 0.6 中得到了证明,这是 AI 训练的第一项行业级基准测试。

深度学习推理

A100 引入了突破性的新功能优化推理工作负载。它通过全系列精度(从 FP32、FP16、INT8 一直到 INT4)加速,实现了强大的多元化用途。MIG 技术支持多个网络同时在单个 A100 GPU 运行,从而优化计算资源的利用率。在 A100 其他推理性能提升的基础上,结构化稀疏支持将性能再提升两倍。

NVIDIA 提供市场领先的推理性能,在第一项专门针对推理性能的行业级基准测试  MLPerf Inference 0.5中全面制胜的结果充分证明了这一点。A100 则再将性能提升 10 倍,在这样的领先基础上进一步取得了发展。

Up to 7X Higher Performance with Multi-Instance GPU (MIG) for AI Inference

BERT Large Inference

Up to 7X Higher Performance with Multi-Instance GPU (MIG) for AI Inference

9X More HPC Performance in 4 Years

Throughput for Top HPC Apps​

9X More HPC Performance in 4 Years

高性能计算

为了点燃下一代新发现的火花,科学家们希望通过模拟更好地理解复杂分子结构以支持药物发现,通过模拟物理效果寻找潜在的新能源,通过模拟大气数据更好地预测极端天气状况并为其做准备。

A100 引入了双精度 Tensor Cores, 继用于 HPC 的 GPU 双精度计算技术推出至今,这是非常重要的里程碑。利用 A100,原本在 NVIDIA V100 Tensor Core GPU 上需要 10 小时的双精度模拟作业如今只要 4 小时就能完成。HPC 应用还可以利用 A100 的 Tensor Core,将单精度矩阵乘法运算的吞吐量提高 10 倍之多。

数据分析

客户需要能够分析和可视化庞大的数据集,并将其转化为宝贵洞见。但是,由于这些数据集分散在多台服务器上,横向扩展解决方案往往会陷入困境。

搭载 A100 的加速服务器可以提供必要的计算能力,并利用第三代 NVLink 和 NVSwitch 1.6TB/s 的显存带宽和可扩展性,妥善应对这些庞大的工作负载。结合 Mellanox InfiniBand、Magnum IO SDK、GPU 加速的 Spark 3.0 和  NVIDIA RAPIDS NVIDIA 数据中心平台能够以出色的性能和效率加速这些大规模工作负载。

High-Performance Data Analytics

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

BERT Large Inference

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

企业级利用率

A100 的 多实例 GPU (MIG) 功能使 GPU 加速的基础架构利用率大幅提升,达到前所未有的水平。MIG 支持将 A100 GPU 安全分割到多达七个独立实例中,这些 A100 GPU 实例可供多名用户使用,以加速应用和开发项目。此外,数据中心管理员可以利用基于虚拟化技术带来的管理、监控和操作方面的优势,发挥 NVIDIA 虚拟计算服务器 ( vCS) 的动态迁移和多租户功能。A100 的 MIG 功能可以使基础架构管理员对其 GPU 加速的基础架构作标准化处理,同时以更精确的粒度提供 GPU 资源,从而为开发者提供正确的加速计算量,并确保其所有 GPU 资源得到充分利用。

数据中心 GPU

适用于 HGX 的 NVIDIA A100

适用于 HGX 的 NVIDIA A100

适用于所有工作负载的卓越性能

PCIe 版 NVIDIA A100

PCIe 版 NVIDIA A100

为所有工作负载提供最佳通用性

规格

  适用于 NVLink 的 A100 适用于 PCIe 的 A100
FP64 峰值性能 9.7 TF 9.7 TF
FP64 Tensor Core 峰值性能 19.5 TF 19.5 TF
FP32 峰值性能 19.5 TF 19.5 TF
TF32 Tensor Core 峰值性能 156 TF | 312 TF* 156 TF | 312 TF*
BFLOAT16 Tensor Core 峰值性能 312 TF | 624 TF* 312 TF | 624 TF*
FP16 Tensor Core 峰值性能 312 TF | 624 TF* 312 TF | 624 TF*
INT8 Tensor Core 峰值性能 624 TOPS | 1,248 TOPS* 624 TOPS | 1,248 TOPS*
INT4 Tensor Core 峰值性能 1,248 TOPS | 2,496 TOPS* 1,248 TOPS | 2,496 TOPS*
GPU 显存 40 GB 40 GB
GPU 显存带宽 1,555 GB/s 1,555 GB/s
互联带宽 NVIDIA NVLink 600 GB/s
PCIe Gen4 64 GB/s
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
多实例 GPU Various instance sizes with up to 7MIGs @5GB Various instance sizes with up to 7MIGs @5GB
外形尺寸 4/8 SXM on NVIDIA HGX A100 PCIe
最大 TDP 功耗 400W 250W
提供顶级应用性能 100% 90%
 

NVIDIA Ampere 架构解析

了解 NVIDIA Ampere 架构新特性,以及在 NVIDIA A100 GPU 中的体现。