NVIDIA Tensor Core

为生成式 AI 实现大规模加速

Tensor Core 可实现混合精度计算,动态调整算力,从而在保持准确性和提供更强安全性的同时提高吞吐量。在应对广泛的 AI 和高性能计算 (HPC) 任务时,新一代 Tensor Core 的速度更胜以往。从训练万亿参数 AI 模型到实现突破性的推理性能,NVIDIA Tensor Core 可加速现代 AI 工厂的所有工作负载。

革命性 AI 训练

以 16 位精度训练数万亿参数的生成式 AI 模型可能需要数月时间。NVIDIA Tensor Core 支持 NVFP4 格式,这是一种突破性的格式,可提供 4 位格式的速度和效率,同时具有 16 位的精度。在 Transformer 引擎的支持下,NVFP4 利用微块缩放技术大幅提升吞吐量并减少内存占用。借助基于 CUDA-X™ 库提供的原生框架支持,这一创新技术可大幅缩短新一代前沿模型的训练时间。

突破性推理

在实现高吞吐量的同时,还要实现低延迟并最大限度地提高利用率,这对于可靠的推理部署至关重要。NVIDIA Rubin 平台配备增强型 Transformer 引擎,通过第五代 Tensor Core 提升 NVFP4 性能。同时,它还能保持精度,支持高达 50 petaFLOPS (PFLOPS) 的 NVFP4 推理性能。此 Transformer 引擎与 NVIDIA Blackwell 完全兼容,可确保无缝升级,因此之前优化的代码可以轻松迁移到 NVIDIA Rubin 平台。

NVIDIA 凭借 Tensor Core 在 MLPerf 行业级推理基准测试中斩获佳绩。

先进 HPC

HPC 是现代科学的基石。为了解锁新一代的发现,科学家使用模拟来更好地了解药物发现的复杂分子,使用物理学来识别潜在的能源,使用大气数据来更好地预测和应对极端天气模式。NVIDIA Tensor Core 提供了完整范围的数值精度,包括 FP64 和 FP32,可根据需要以最高精度加速科学计算。

HPC SDK 提供了用于为 NVIDIA 平台开发 HPC 应用的基本编译器、库和工具。

NVIDIA Rubin Tensor Core 架构

第五代增强版产品

NVIDIA Rubin 平台引入了增强型第五代 Tensor Core。第五代 Tensor Core 专为加速现代 AI 工厂而设计,它优化了对 4 位窄精度 NVFP4 和 FP8 运算的支持。通过将这些 Tensor Core 与 NVIDIA Rubin 流式多处理器中的扩展特殊功能单元紧密集成,该平台可显著加速注意力机制和稀疏计算路径,在不影响模型准确性的同时提高计算密度和能效。

50 PFLOPS Transformer 引擎

NVIDIA Rubin GPU 采用 50 petaFLOPS 的 Transformer 引擎,可充分利用第五代 Tensor Core 和 NVFP4 精度,最大限度地提高推理效率,为新一代代理式 AI 提供动力。这一架构飞跃可无缝扩展到 由 NVIDIA Vera Rubin NVL72 系统提供的 3600 PFLOPS 的 NVFP4 推理能力,为实时推理模型提供了所需的超大规模吞吐量。

模拟

NVIDIA Blackwell 和 Rubin 架构可以通过分解输入值并利用高吞吐量、低精度的 Tensor Core 来模拟 FP32 和 FP64 矩阵运算。这种方法可以显著提升性能和能效,同时达到甚至超过原生 IEEE754 精度。通过利用复杂的软件驱动算法和定点运算,这种模拟机制提供了一种可控、高效的替代传统高精度硬件执行方法。

NVIDIA Blackwell Tensor Core 架构

第五代

与上一代 NVIDIA Hopper™ 相比,Blackwell 架构可为 GPT-MoE-1.8 T 等大型模型提供 30 倍的加速。第五代 Tensor Core 使这种性能提升成为可能。Blackwell Tensor Core 增加了新的精度,包括社区定义的微缩放格式,从而提供更高的准确性和更高的精度易于替换。

全新精度格式

随着生成式 AI 模型的规模和复杂性出现爆炸式增长,提高训练和推理性能变得至关重要。为满足这些计算需求,Blackwell Tensor Core 支持新的量化格式和精度,包括社区定义的微缩放格式。

第二代 Transformer 引擎

第二代 Transformer 引擎将定制的 Blackwell Tensor Core 技术与 NVIDIA® TensorRT™ -LLM 和 NeMo™ 框架创新相结合,加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。Transformer 引擎由 Tensor Core 的 FP4 精度提供动力支持,可将性能和效率翻倍,同时为当前和新一代 MoE 模型保持高精度。

Transformer 引擎致力于通过实时性能实现当今 LLM 的普及。企业可以通过部署经济实惠的先进生成式 AI 模型来优化业务流程。

功能强大的端到端 AI 和 HPC 数据中心平台

Tensor Core 是整个 NVIDIA 数据中心解决方案的基本构件,该解决方案包含来自 NVIDIA NGC™ 目录的硬件、网络、软件、库以及优化的 AI 模型和应用。作为强大的端到端 AI 和 HPC 平台,它让研究人员能够获得真实的结果,并能将解决方案大规模部署到生产环境中。

NVIDIA Rubin NVIDIA Blackwell
Tensor Core 支持的精度 NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8 NVFP4、FP64、TF32、BF16、FP16、FP8、INT8
CUDA® Core 支持的精度 FP64、FP32、INT32、FP16、BF16 FP64、FP32、FP16、BF16

* 初步规格,可能会有所变更

详细了解 NVIDIA Vera Rubin 平台