NVIDIA A2 Tensor Core GPU

将 NVIDIA AI 引入任何服务器的入门级 GPU

特性
架构
规格

特性
架构
规格

多用途的入门级推理

NVIDIA A2 Tensor Core GPU 具有低功耗、小尺寸和高性能的特点，可为在边缘部署 NVIDIA AI 的智能视频分析 (IVA) 提供入门级推理功能。该 GPU 采用半高 PCIe 4.0 卡的设计，并提供 40-60 瓦的低热设计功耗 (TDP) 配置功能，能为大规模部署中的不同服务器带来通用的推理加速能力。

下载 NVIDIA A2 数据表 (538 KB)

下载 NVIDIA A2 产品摘要 (362 KB)

推理性能提升高达 20 倍

部署 AI 推理技术的目的是通过智能、实时的体验为消费者打造更便利的生活。与 CPU 服务器相比，搭载 NVIDIA A2 Tensor Core GPU 的边缘和入门级服务器可提供高达 20 倍的推理性能，可立即将服务器升级到能处理现代 AI 的水平。

计算机视觉 (EfficientDet-DO)

自然语言处理 (BERT-Large)

文本转语音 (Tacotron2 + Waveglow)

单卡 NVIDIA A2 Tensor Core GPU 对比双路至强金牌 6330N CPU

系统配置：[CPU：HPE DL380 Gen10 Plus，双路至强金牌 6330N @2.2GHz，512GB DDR4]
自然语言处理：BERT-Large (seq-len：384，SQuAD：v1.1) | TensorRT 8.2，精度: INT8, BS:1 (GPU) | OpenVino 2021.4，精度: INT8, BS:1 (CPU)
文本转语音：Tacotron2 + Waveglow E2E 通道 (输入长度：128) | PyTorch 1.9，精度: FP16, BS:1 (GPU) | PyTorch 1.9，精度: FP32, BS:1 (CPU)
计算机视觉：EfficientDet-D0 (COCO，512x512) | TensorRT 8.2，精度: INT8, BS:8 (GPU) (GPU) | OpenVINO 2021.4，精度: INT8, BS:8 (CPU)

在智能边缘实现更高的 IVA 性能

在智慧城市、制造和零售等智能边缘用例中，搭载 NVIDIA A2 GPU 的服务器最高可将性能提升 1.3 倍。与前几代 GPU 相比，运行 IVA 工作负载的 NVIDIA A2 GPU 最高可将性价比和能效分别提升 1.6 倍和 10%，从而改善部署效率。

IVA 性能 (以 NVIDIA T4 为标准)

系统配置：[Supermicro SYS-1029GQ-TRT，双路至强金牌 6240 处理器 @2.6GHz，512GB DDR4，1 个 NVIDIA A2 或 1 个 NVIDIA T4] | 使用 Deepstream 5.1 测量的性能。网络：ShuffleNet-v2 (224x224)、MobileNet-v2 (224x224)。 | 流水线通过视频截取和解码、预处理、批处理、推理和后处理来代表端到端性能。

针对服务器进行优化

针对 5G 边缘和工业环境这样空间和散热要求受限制的入门级服务器，NVIDIA A2 为其推理工作负载和部署进行了优化。A2 提供了在低功耗范围内运行的半高外形，从 60 瓦到 40 瓦的 TDP，使其成为众多服务器的理想选择。

更低的功耗和可配置的 TDP

领先的跨云、数据中心和边缘的 AI 推理性能

AI 推理继续推动跨行业的突破性创新，包括消费互联网、医疗保健和生命科学、金融服务、零售、制造和超级计算。A2 的小巧尺寸和低功耗与 NVIDIA A100 和 A30 Tensor Core GPU 相结合，可提供跨云、数据中心和边缘的完整 AI 推理产品组合。A2 和 NVIDIA AI 推理产品组合可确保使用更少的服务器和更少的功率部署 AI 应用，从而以大幅降低的成本获得更快的洞察力。

已为企业使用做好准备

NVIDIA AI Enterprise

NVIDIA AI Enterprise 是一套端到端云原生 AI 和数据分析软件，经认证可在基于服务器虚拟化平台的虚拟基础设施（带有 VMware vSphere）中的 A2 上运行。这允许在混合云环境中管理和扩展 AI 和推理工作负载。

详细了解 NVIDIA AI Enterprise

主流 NVIDIA 认证系统

搭载 NVIDIA A2 的 NVIDIA 认证系统™ 将计算加速功能与高速、安全的 NVIDIA 网络整合到 NVIDIA 的 OEM 合作伙伴构建和销售的企业数据中心服务器中。利用此计划，客户可以在单个高性能、经济高效且可扩展的基础设施上识别、获取和部署系统，以运行 NVIDIA NGC™ (NVIDIA GPU CLOUD) 目录中的传统和多样化的现代 AI 应用程序。

详细了解 NVIDIA 认证系统

采用 NVIDIA Ampere 架构

NVIDIA Ampere 架构专为弹性计算时代而设计，能够提供为现代企业应用程序提供动力支持所需的性能和加速。探索性能出众的弹性数据中心的核心

详细了解 NVIDIA Ampere 架构

技术规格

FP32 峰值性能	4.5 TF
TF32 Tensor Core	9 TF \| 18 TF¹
BFLOAT16 Tensor Core	18 TF \| 36 TF¹
FP16 Tensor Core 峰值性能	18 TF \| 36 TF¹
INT8 Tensor Core 峰值性能	36 TOPS \| 72 TOPS¹
INT4 Tensor Core 峰值性能	72 TOPS \| 144 TOPS¹
RT 核心数量	10 个
媒体引擎	1 个视频编码器 2 个视频解码器 (含 AV1 解码)
GPU 显存	16GB GDDR6
GPU 显存带宽	200GB/s
互联技术	PCIe 4.0 x8
外形规格	单插槽，半高 PCIe
最大热设计功耗 (TDP)	40–60瓦 (可配置)
虚拟化 GPU 软件支持^²	NVIDIA 虚拟 PC、NVIDIA 虚拟应用程序、NVIDIA RTX 虚拟化工作站、NVIDIA AI Enterprise 软件套件和 NVIDIA 虚拟化运算服务器

¹ 采用稀疏技术
² 将在后续 vGPU 版本中支持

深入了解 NVIDIA Ampere 架构

探索 NVIDIA Ampere 架构的尖端技术

了解详情