NVIDIA Tensor Core

在全精度计算中大幅加快工作负载运行速度

Tensor Core 是 NVIDIA 的先进技术,可实现混合精度计算,并能根据精度的降低动态调整算力,在保持准确性的同时提高吞吐量。新一代 Tensor Core 扩大了这种加速的应用范围,覆盖 AI 和 HPC 领域的各种工作负载。NVIDIA Tensor Core 向所有工作负载提供了新功能,将 Tensor Float 32(TF32,一种革命性的新精度)下的 AI 训练速度加快 10 倍,并将 FP64 下的高性能计算 (HPC) 速度加快 2.5 倍。

革命性的深度学习训练

革命性的深度学习训练

当今的 AI 模型需要应对精准对话式 AI 和深度推荐系统等新型挑战,这促使其复杂度不断呈爆炸式增长。Megatron 一类的对话式 AI 模型在复杂度和规模上比 ResNet-50 等图像分类模型高出数百倍。在 FP32 精度下训练这些大型模型可能需要数天甚至数周时间。利用原生框架中的直接支持,精度可以自动降低到 TF32 和 FP16 等级别,从而大幅缩短从训练到收敛的时间,同时保持准确性。

NVIDIA 凭借 Tensor Core 在 MLPerf 0.6(首个 AI 行业级训练基准测试)中斩获佳绩。

突破性的深度学习推理

突破性的深度学习推理

优秀的 AI 推理加速器不仅要提供出色的性能,还要具备能够加速不同神经网络的通用性,以及能让开发者构建新神经网络的可编程性。要可靠部署推理,最重要的性能要求是在低延迟下实现高吞吐量,同时更大限度地提高利用率。NVIDIA Tensor Core 提供了一整套精度(TF32、FP16、INT8 和 INT4)确保非凡的通用性和性能。

NVIDIA 凭借 Tensor Core 在 MLPerf Inference 0.5(首个 AI 行业级推理基准测试)中斩获佳绩。

先进的高性能计算

先进的高性能计算

HPC 是现代科学的基石。为了点燃下一代新发现的火花,科学家们使用模拟手段更好地理解复杂分子结构以支持药物发现,通过模拟物理效果寻找潜在的能源,以及通过模拟大气数据更好地预测极端天气状况并为其做准备。NVIDIA Tensor Core 提供了全系列精度(包括 FP64),能在所需的最高准确性下加快科学计算速度。

A100 Tensor Core

第三代

NVIDIA Tensor Core 技术助力 AI 实现了大幅加速,将训练时间从数周缩短到几小时,显著加快了推理速度。NVIDIA Ampere 架构带来了巨大的性能提升,提供了新的精度,可覆盖研究人员需要的全系列精度(TF32、FP64、FP16、INT8 和 INT4),从而加速和简化 AI 的采用,并将 NVIDIA Tensor Core 的强大功能扩展到 HPC 领域。

  • TF32
  • FP64
  • FP16
  • INT8
Tensor Float 32

Tensor Float 32

随着 AI 网络和数据集继续呈指数级扩展,它们对算力的需求也以同样方式增长。较低精度的数学计算大幅提升了性能,但过去这样做需要进行一些代码更改。A100 带来了新精度 Tensor Float 32 (TF32),它的工作方式与 FP32 很相似,同时能将 AI 计算速度加快高达 20 倍,而且无需更改任何代码。

FP64 Tensor Core

FP64 Tensor Core

A100 将 Tensor Core 的强大功能引入到 HPC 领域,实现了自从为 HPC 引入双精度 GPU 计算以来的巨大里程碑。现在,通过在 FP64 精度下实现矩阵运算,大量需要双精度数学计算的 HPC 应用在性能和效率上比前几代 GPU 提高了 2.5 倍。

FP16 Tensor Core

FP16 Tensor Core

A100 将 Tensor Core 的强大功能应用于 FP16 以进行深度学习,使单精度图形运算的速度加快到在 NVIDIA Volta™ 架构中进行相同运算时的 2 倍。这大幅提高了吞吐量并缩短了收敛时间。

INT8 精度

INT8 精度

NVIDIA Turing 架构中首次引入的 INT8 Tensor Core 大幅提高了推理吞吐量,显著提升了效率。对于生产部署,NVIDIA Ampere 架构中的 INT8 提供了比 Volta 高 10 倍的吞吐量。这表明该计算平台通用性很高,能运行核心 和边缘数据中心中的大批量和实时工作负载。

Turing Tensor Core

第二代

NVIDIA Turing™ Tensor Core 技术能进行多精度计算,可实现高效的 AI 推理。Turing Tensor Core 提供了一系列用于深度学习训练和推理的精度(从 FP32 到 FP16 再到 INT8 和 INT4),性能远超 NVIDIA Pascal™ GPU。

Turing Tensor Core
Volta Tensor Core

Volta Tensor Core

第一代

NVIDIA Volta™ 中的第一代 Tensor Core 专为深度学习而设计,通过 FP16 和 FP32 下的混合精度矩阵乘法提供了突破性的性能 – 与 NVIDIA Pascal 相比,用于训练的峰值 teraFLOPS (TFLOPS) 性能提升了高达 12 倍,用于推理的峰值 TFLOPS 性能提升了高达 6 倍。这项关键功能使 Volta 提供了比 Pascal 高 3 倍的训练和推理性能。

功能强大的端到端 AI 和 HPC 数据中心平台

Tensor Core 是整个 NVIDIA 数据中心 解决方案堆栈的基本构件,该堆栈包含了来自 NGC™ 的硬件、网络、软件、库以及优化的 AI 模型和应用。作为强大的端到端 AI 和 HPC 平台,它让研究人员能够得到真实的结果,并能将解决方案大规模部署到生产环境中。

NVIDIA A100 NVIDIA Turing NVIDIA Volta
支持的 Tensor Core 精度 FP64、 TF32、 bfloat16、 FP16、 INT8、 INT4、 INT1 FP16、 INT8、 INT4、 INT1 FP16
支持的 CUDA® Core 精度 FP64、 FP32、 FP16、 bfloat16、 INT8 FP64、 FP32、 FP16、 INT8 FP64、 FP32、 FP16、 INT8

探索 NVIDIA TENSOR CORES

参加网络研讨会,了解实现 NVIDIA Tensor Core GPU 最佳性能的条件。