Tensor Core 可实现混合精度计算,动态调整算力,从而在保持准确性和提供更强安全性的同时提高吞吐量。在应对广泛的 AI 和高性能计算 (HPC) 任务时,新一代 Tensor Core 的速度更胜以往。从训练万亿参数 AI 模型到实现突破性的推理性能,NVIDIA Tensor Core 可加速现代 AI 工厂的所有工作负载。
NVIDIA Rubin 平台引入了增强型第五代 Tensor Core。第五代 Tensor Core 专为加速现代 AI 工厂而设计,它优化了对 4 位窄精度 NVFP4 和 FP8 运算的支持。通过将这些 Tensor Core 与 NVIDIA Rubin 流式多处理器中的扩展特殊功能单元紧密集成,该平台可显著加速注意力机制和稀疏计算路径,在不影响模型准确性的同时提高计算密度和能效。
NVIDIA Rubin GPU 采用 50 petaFLOPS 的 Transformer 引擎,可充分利用第五代 Tensor Core 和 NVFP4 精度,最大限度地提高推理效率,为新一代代理式 AI 提供动力。这一架构飞跃可无缝扩展到 由 NVIDIA Vera Rubin NVL72 系统提供的 3600 PFLOPS 的 NVFP4 推理能力,为实时推理模型提供了所需的超大规模吞吐量。
NVIDIA Blackwell 和 Rubin 架构可以通过分解输入值并利用高吞吐量、低精度的 Tensor Core 来模拟 FP32 和 FP64 矩阵运算。这种方法可以显著提升性能和能效,同时达到甚至超过原生 IEEE754 精度。通过利用复杂的软件驱动算法和定点运算,这种模拟机制提供了一种可控、高效的替代传统高精度硬件执行方法。
与上一代 NVIDIA Hopper™ 相比,Blackwell 架构可为 GPT-MoE-1.8 T 等大型模型提供 30 倍的加速。第五代 Tensor Core 使这种性能提升成为可能。Blackwell Tensor Core 增加了新的精度,包括社区定义的微缩放格式,从而提供更高的准确性和更高的精度易于替换。
随着生成式 AI 模型的规模和复杂性出现爆炸式增长,提高训练和推理性能变得至关重要。为满足这些计算需求,Blackwell Tensor Core 支持新的量化格式和精度,包括社区定义的微缩放格式。
第二代 Transformer 引擎将定制的 Blackwell Tensor Core 技术与 NVIDIA® TensorRT™ -LLM 和 NeMo™ 框架创新相结合,加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。Transformer 引擎由 Tensor Core 的 FP4 精度提供动力支持,可将性能和效率翻倍,同时为当前和新一代 MoE 模型保持高精度。
Transformer 引擎致力于通过实时性能实现当今 LLM 的普及。企业可以通过部署经济实惠的先进生成式 AI 模型来优化业务流程。
Tensor Core 是整个 NVIDIA 数据中心解决方案的基本构件,该解决方案包含来自 NVIDIA NGC™ 目录的硬件、网络、软件、库以及优化的 AI 模型和应用。作为强大的端到端 AI 和 HPC 平台,它让研究人员能够获得真实的结果,并能将解决方案大规模部署到生产环境中。
| NVIDIA Rubin | NVIDIA Blackwell | |
|---|---|---|
| Tensor Core 支持的精度 | NVFP4、FP64、TF32、BF16、FP16、FP8/FP6、INT8 | NVFP4、FP64、TF32、BF16、FP16、FP8、INT8 |
| CUDA® Core 支持的精度 | FP64、FP32、INT32、FP16、BF16 | FP64、FP32、FP16、BF16 |
* 初步规格,可能会有所变更
详细了解 NVIDIA Vera Rubin 平台