NVIDIA A100 Tensor Core GPU

为各种规模实现前所未有的加速

加速当今时代的重要工作

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力全球高性能弹性数据中心。NVIDIA A100 由 NVIDIA Ampere 架构提供支持,提供 40GB 和 80GB 两种配置。作为 NVIDIA 数据中心平台的引擎,A100 的性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 80GB 将 GPU 内存增加了一倍,提供超快速的内存带宽(每秒超过 2TB),可处理超大模型和非常庞大的数据集。

适用于 AI 的企业就绪软件

NVIDIA EGX™ 平台具有能够在整个基础设施中实现加速计算的优化软件。利用 NVIDIA AI Enterprise 软件套件,企业可以访问端到端的云原生 AI 和数据分析软件,该软件套件经 NVIDIA 优化、认证和支持,可在基于 NVIDIA 认证系统™ 的 VMware vSphere 上运行。NVIDIA AI 企业包括 NVIDIA 的关键支持技术,用于在现代混合云中快速部署、管理和扩展 AI 工作负载。

强大的端到端 AI 和 HPC 数据中心平台

A100 是完整 NVIDIA 数据中心解决方案的一部分,该解决方案结合了跨硬件、网络、软件、库以及 NGC 的经过优化的 AI 模型和应用程序的构建块。 它代表了强大的数据中心端到端 AI 和 HPC 平台,使研究人员可以提供真实的结果并将解决方案大规模部署到生产中。

 

Making of Ampere Video

深度学习训练

在大型模型上将 AI 训练的速度提升高达 3 倍

DLRM 训练

Up to 3X Higher AI Training on Largest Models

当今的 AI 模型面临着对话式 AI 等更高层次的挑战,这促使其复杂度呈爆炸式增长。训练这些模型需要大规模的计算能力和可扩展性。

NVIDIA A100 的 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度,可提供比上一代 NVIDIA Volta 高 20 倍之多的性能,并且无需更改代码;若使用自动混合精度和 FP16,性能可进一步提升 2 倍。与 NVIDIA® NVLink®、NVIDIA NVSwitch、PCI 4.0、NVIDIA® Mellanox® InfiniBand®NVIDIA Magnum IO SDK 结合使用时,可扩展到数千个 A100 GPU。

2048 个 A100 GPU 可在一分钟内大规模处理 BERT 之类的训练工作负载,这是训练时间的世界纪录。

对于具有庞大数据表的超大型模型(例如用于推荐系统的 DLRM),A100 80GB 可为每个节点提供高达 1.3 TB 的统一显存,而且速度比 A100 40GB 快高达 3 倍。

NVIDIA 产品的领先地位在 MLPerf 这个行业级 AI 训练基准测试中得到印证,创下多项性能纪录。

深度学习推理

A100 引入了突破性的功能来优化推理工作负载。它能在从 FP32 到 INT4 的整个精度范围内进行加速。多实例 GPU (MIG) 技术允许多个网络同时基于单个 A100 运行,从而优化计算资源的利用率。在 A100 其他推理性能增益的基础之上,仅结构化稀疏支持一项就能带来高达两倍的性能提升。

在 BERT 等先进的对话式 AI 模型上,A100 可将推理吞吐量提升到高达 CPU 的 249 倍。

在受到批量大小限制的极复杂模型(例如用于先进自动语音识别用途的 RNN-T)上,显存容量有所增加的 A100 80GB 能使每个 MIG 的大小增加一倍(达到 10GB),并提供比 A100 40GB 高 1.2 倍的吞吐量。

NVIDIA 产品的出色性能在 MLPerf 推理测试中得到验证。A100 再将性能提升了 20 倍,进一步扩大了这种性能优势。

与 CPU 相比,AI 推理性能提升高达 249 倍

BERT-Large 推理

Up to 249X Higher AI Inference Performance  Over CPUs

与 A100 40GB 相比,AI 推理性能提升 1.25 倍

RNN-T 推理:单流

Up to 1.25X Higher AI Inference Performance  Over A100 40GB

高性能计算

为了获得新一代的发现成果,科学家们希望通过模拟方式来更好地了解我们周围的世界。

A100 的双精度 Tensor Core 为 HPC 领域带来了自 GPU 中的双精度计算技术推出以来极其重要的里程碑。借助 HBM2e 每秒超过 2 TB 的带宽和大容量内存,科研人员可以在 A100 上将原本要花费 10 小时的双精度模拟过程缩短到 4 小时之内。HPC 应用程序还可以利用 TF32 将单精度、密集矩阵乘法运算的吞吐量提高高达 10 倍。

对于具有超大型数据集的 HPC 应用程序,内存容量增加的 A100 80GB 可在运行材料模拟 Quantum Espresso 时将速度提升高达两倍。极大的内存容量和超快速的内存带宽使 A100 80GB 非常适合用作新一代工作负载的平台。

在四年内将高性能计算性能提升 11 倍

热门高性能计算应用程序

11X More HPC Performance  in Four Years

高性能计算应用程序的性能提升高达 1.8 倍

Quantum Espresso

Up to 1.8X Higher Performance  for HPC Applications

高性能数据分析

在大数据分析基准测试上,与 CPU 相比,速度提升高达 83 倍,与 A100 40GB 相比,速度提升高达两倍

Up to 83X Faster than CPU, 2X Faster than A100 40GB on Big Data Analytics Benchmark

数据科学家需要能够分析和可视化庞大的数据集,并将其转化为宝贵见解。但是,由于数据集分散在多台服务器上,横向扩展解决方案往往会陷入困境。

搭载 A100 的加速服务器可以提供必要的计算能力,并能利用大容量内存以及通过 NVIDIA® NVLink® and NVSwitch 实现的超快速内存带宽(超过每秒 2 TB)和可扩展性妥善处理工作负载。通过结合 InfiniBand, NVIDIA Magnum IO 和 RAPIDS 开源库套件(包括用于执行 GPU 加速的数据分析的 RAPIDS Accelerator for Apache Spark),NVIDIA 数据中心平台能够加速这些大型工作负载,并实现超高的性能和效率水平。

在大数据分析基准测试中,A100 80GB 的速度比 CPU 快 83 倍,并且比 A100 40GB 快两倍,因此非常适合处理数据集大小激增的新型工作负载。

企业就绪,高效利用

借助多实例 GPU (MIG),推理吞吐量可提升高达 7 倍

BERT Large 推理

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

A100 结合 MIG 技术可以更大限度地提高 GPU 加速的基础设施的利用率。借助 MIG,A100 GPU 可划分为多达 7 个独立实例,让多个用户都能使用 GPU 加速功能。使用 A100 40GB GPU,每个 MIG 实例最多可以分配 5GB,而随着 A100 80GB 增加的 GPU 内存容量,每个实例将增加一倍达到10GB。

MIG 与 Kubernetes、容器和基于Hypervisor 的服务器虚拟化配合使用。MIG 可让基础设施管理者为每项作业提供大小合适的 GPU,同时确保服务质量 (QoS),从而扩大加速计算资源的影响范围,以覆盖每位用户。

充分利用您的系统

由 A100、NVIDIA Mellanox SmartnNIC 和 DPU 构成的 NVIDIA 认证系统,已通过性能、功能、可扩展性和安全性认证,使企业可方便地从 NVIDIA NGC 目录中为 AI 工作负载部署完整的解决方案。

数据中心 GPU

NVIDIA A100 for HGX

适用于 HGX 的 NVIDIA A100

性能出色,轻松处理各种工作负载。

NVIDIA A100 for PCIe

适用于 PCIe 的 NVIDIA A100

十分适合处理各种工作负载。

规格

  A100 40GB PCIe A100 80GB PCIe A100 40GB SXM A100 80GB SXM
FP64 9.7 TFLOPS
FP64 Tensor Core 19.5 TFLOPS
FP32 19.5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS | 312 TFLOPS*
BFLOAT16 Tensor Core 312 TFLOPS | 624 TFLOPS*
FP16 Tensor Core 312 TFLOPS | 624 TFLOPS*
INT8 Tensor Core 624 TOPS | 1248 TOPS*
GPU 显存 40GB HBM2 80GB HBM2e 40GB HBM2 80GB HBM2e
GPU 显存带宽 1,555GB/s 1,935GB/s 1,555GB/s 2,039GB/s
最大热设计功耗 (TDP) 250W 300W 400W 400W
多实例 GPU 最大为 7 MIG @ 5GB 最大为 7 MIG @ 10GB 最大为 7 MIG @ 5GB 最大为 7 MIG @ 10GB
外形规格 PCIe SXM
互联 NVIDIA® NVLink® 桥接器(可桥接 2 个 GPU):600GB/s **
PCIe 4.0:64GB/s
NVLink: 600GB/s
PCIe Gen4: 64GB/s
服务器选项 合作伙伴及配备 1 至 8 个 GPU 的 NVIDIA 认证系统 NVIDIA HGX A100 合作伙伴和配备 4、8 或 16 个 GPU 的 NVIDIA 认证系统 配备 8 个 GPU 的 NVIDIA DGX A100
 

查看最新的 MLPerf 基准数据

NVIDIA Ampere 架构解析

了解 NVIDIA Ampere 架构新特性,以及在 NVIDIA A100 GPU 中的体现。