NVIDIA Tensor Core

为生成式 AI 实现大规模加速

Tensor Core 可实现混合精度计算，动态调整算力，从而在保持准确性和提供更强安全性的同时提高吞吐量。在应对广泛的 AI 和高性能计算 (HPC) 任务时，新一代 Tensor Core 的速度更胜以往。从训练万亿参数 AI 模型到实现突破性的推理性能，NVIDIA Tensor Core 可加速现代 AI 工厂的所有工作负载。

简介
NVIDIA Rubin
NVIDIA Blackwell
规格

简介
NVIDIA Rubin
NVIDIA Blackwell
规格

革命性 AI 训练

以 16 位精度训练数万亿参数的生成式 AI 模型可能需要数月时间。NVIDIA Tensor Core 支持 NVFP4 格式，这是一种突破性的格式，可提供 4 位格式的速度和效率，同时具有 16 位的精度。在 Transformer 引擎的支持下，NVFP4 利用微块缩放技术大幅提升吞吐量并减少内存占用。借助基于 CUDA-X™ 库提供的原生框架支持，这一创新技术可大幅缩短新一代前沿模型的训练时间。

突破性推理

在实现高吞吐量的同时，还要实现低延迟并最大限度地提高利用率，这对于可靠的推理部署至关重要。NVIDIA Rubin 平台配备增强型 Transformer 引擎，通过第五代 Tensor Core 提升 NVFP4 性能。同时，它还能保持精度，支持高达 50 petaFLOPS (PFLOPS) 的 NVFP4 推理性能。此 Transformer 引擎与 NVIDIA Blackwell 完全兼容，可确保无缝升级，因此之前优化的代码可以轻松迁移到 NVIDIA Rubin 平台。

NVIDIA 凭借 Tensor Core 在 MLPerf 行业级推理基准测试中斩获佳绩。

先进 HPC

HPC 是现代科学的基石。为了解锁新一代的发现，科学家使用模拟来更好地了解药物发现的复杂分子，使用物理学来识别潜在的能源，使用大气数据来更好地预测和应对极端天气模式。NVIDIA Tensor Core 提供了完整范围的数值精度，包括 FP64 和 FP32，可根据需要以最高精度加速科学计算。

HPC SDK 提供了用于为 NVIDIA 平台开发 HPC 应用的基本编译器、库和工具。

NVIDIA Rubin Tensor Core 架构

第五代增强版产品

NVIDIA Rubin 平台引入了增强型第五代 Tensor Core。第五代 Tensor Core 专为加速现代 AI 工厂而设计，它优化了对 4 位窄精度 NVFP4 和 FP8 运算的支持。通过将这些 Tensor Core 与 NVIDIA Rubin 流式多处理器中的扩展特殊功能单元紧密集成，该平台可显著加速注意力机制和稀疏计算路径，在不影响模型准确性的同时提高计算密度和能效。

50 PFLOPS Transformer 引擎
模拟

50 PFLOPS Transformer 引擎

NVIDIA Rubin GPU 采用 50 petaFLOPS 的 Transformer 引擎，可充分利用第五代 Tensor Core 和 NVFP4 精度，最大限度地提高推理效率，为新一代代理式 AI 提供动力。这一架构飞跃可无缝扩展到由 NVIDIA Vera Rubin NVL72 系统提供的 3600 PFLOPS 的 NVFP4 推理能力，为实时推理模型提供了所需的超大规模吞吐量。

模拟

NVIDIA Blackwell 和 Rubin 架构可以通过分解输入值并利用高吞吐量、低精度的 Tensor Core 来模拟 FP32 和 FP64 矩阵运算。这种方法可以显著提升性能和能效，同时达到甚至超过原生 IEEE754 精度。通过利用复杂的软件驱动算法和定点运算，这种模拟机制提供了一种可控、高效的替代传统高精度硬件执行方法。

NVIDIA Blackwell Tensor Core 架构

第五代

与上一代 NVIDIA Hopper™ 相比，Blackwell 架构可为 GPT-MoE-1.8 T 等大型模型提供 30 倍的加速。第五代 Tensor Core 使这种性能提升成为可能。Blackwell Tensor Core 增加了新的精度，包括社区定义的微缩放格式，从而提供更高的准确性和更高的精度易于替换。

详细了解 NVIDIA Blackwell 架构

全新精度
Transformer 引擎

全新精度格式

随着生成式 AI 模型的规模和复杂性出现爆炸式增长，提高训练和推理性能变得至关重要。为满足这些计算需求，Blackwell Tensor Core 支持新的量化格式和精度，包括社区定义的微缩放格式。

第二代 Transformer 引擎

第二代 Transformer 引擎将定制的 Blackwell Tensor Core 技术与 NVIDIA® TensorRT™ -LLM 和 NeMo™ 框架创新相结合，加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。Transformer 引擎由 Tensor Core 的 FP4 精度提供动力支持，可将性能和效率翻倍，同时为当前和新一代 MoE 模型保持高精度。

Transformer 引擎致力于通过实时性能实现当今 LLM 的普及。企业可以通过部署经济实惠的先进生成式 AI 模型来优化业务流程。

功能强大的端到端 AI 和 HPC 数据中心平台

Tensor Core 是整个 NVIDIA 数据中心解决方案的基本构件，该解决方案包含来自 NVIDIA NGC™ 目录的硬件、网络、软件、库以及优化的 AI 模型和应用。作为强大的端到端 AI 和 HPC 平台，它让研究人员能够获得真实的结果，并能将解决方案大规模部署到生产环境中。

	NVIDIA Rubin	NVIDIA Blackwell
Tensor Core 支持的精度	NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8	NVFP4、FP64、TF32、BF16、FP16、FP8、INT8
CUDA^® Core 支持的精度	FP64、FP32、INT32、FP16、BF16	FP64、FP32、FP16、BF16

* 初步规格，可能会有所变更

详细了解 NVIDIA Vera Rubin 平台

了解详情