Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
Tensor Core 可实现混合精度计算,动态调整算力,从而在保持准确性和提供更强安全性的同时提高吞吐量。在应对广泛的 AI 和高性能计算 (HPC) 任务时,新一代 Tensor Core 的速度更胜以往。NVIDIA Tensor Core 可将万亿级参数生成式 AI 模型的训练速度提高 4 倍,将推理性能提升 30 倍,并加速现代 AI 工厂的所有工作负载。
以 FP16 精度训练数万亿级参数生成式 AI 模型需要耗费数月时间。NVIDIA Tensor Core 提供了一个数量级的更高性能,同时降低了精度,例如 Transformer 引擎中的 FP8、Tensor Float 32 (TF32) 和 FP16。通过 CUDA-X™ 库直接支持原生框架,实施可自动完成,从而在保持准确性的同时,大幅缩短从训练到收敛的时间。
要可靠地部署推理,关键的性能要求是在低延迟下实现高吞吐量,同时更大限度地提高利用率。NVIDIA Blackwell 架构的第二代 Transformer 引擎不仅提供出色的性能,还具有加速各种数万亿参数生成式 AI 模型的通用性。
NVIDIA 凭借 Tensor Core 在 MLPerf 行业级推理基准测试中斩获佳绩。
HPC 是现代科学的基石。为了点燃新一代发现的火花,科学家为药物研发采用模拟的方式更好地理解复杂分子结构,通过仿真物理效果寻找潜在的能源,以及通过仿真大气数据来更好地预测极端天气状况并为之做好准备。NVIDIA Tensor Core 提供了全方位的精度(包括 FP64),能以所需的高精度加速科学计算。
HPC SDK 能够提供必要的编译器、库和工具,用于开发适用于 NVIDIA 平台的 HPC 应用。
与上一代 NVIDIA Hopper™ 相比,Blackwell 架构可为 GPT-MoE-1.8 T 等大型模型提供 30 倍的加速。第五代 Tensor Core 使这种性能提升成为可能。Blackwell Tensor Core 增加了新的精度,包括社区定义的微缩放格式,从而提供更高的准确性和更高的精度易于替换。
随着生成式 AI 模型的规模和复杂性出现爆炸式增长,提高训练和推理性能变得至关重要。为满足这些计算需求,Blackwell Tensor Core 支持新的量化格式和精度,包括社区定义的微缩放格式。
第二代 Transformer 引擎将定制的 Blackwell Tensor Core 技术与 NVIDIA® TensorRT™ -LLM 和 NeMo™ 框架创新相结合,加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。Transformer 引擎由 Tensor Core 的 FP4 精度提供动力支持,可将性能和效率翻倍,同时为当前和新一代 MoE 模型保持高精度。
Transformer 引擎致力于通过实时性能实现当今 LLM 的普及。企业可以通过部署经济实惠的先进生成式 AI 模型来优化业务流程。
自推出 Tensor Core 技术以来,NVIDIA GPU 的峰值性能提高了 60 倍,推动了 AI 和 HPC 计算的普及。NVIDIA Hopper 架构通过 Transformer 引擎提升了第四代 Tensor Core,该引擎使用 FP8 精度,为万亿级参数模型训练提供的性能是 FP16 的 6 倍。Hopper Tensor Core 使用 TF32、FP64、FP16 和 INT8 精度,可将性能提升 3 倍,能够加速处理各种工作负载。
Tensor Core 是整个 NVIDIA 数据中心解决方案的基本构件,该解决方案包含来自 NVIDIA NGC™ 目录的硬件、网络、软件、库以及优化的 AI 模型和应用。作为强大的端到端 AI 和 HPC 平台,它让研究人员能够获得真实的结果,并能将解决方案大规模部署到生产环境中。
* 初步规格,可能会有所变更
详细了解 NVIDIA Blackwell。