MLPerf™ 是由来自学术界、研究实验室和相关行业的 AI 领导者组成的联盟,旨在“构建公平和有用的基准测试”,在规定的条件下,针对硬件、软件和服务的训练和推理性能提供公平的评估。为确保始终站在行业趋势的前沿,MLPerf 不断演进,定期进行新的测试并添加代表 AI 领域当前水平的新工作负载。
MLPerf Inference v5.1 用于衡量 10 种不同 AI 模型的推理性能,包括 AI 推理、各种大语言模型 (LLM) 、文本转图像生成式 AI、推荐、文本转语音和图神经网络 (GNN)。
MLPerf Training v5.0 用于测量基于七个不同基准的训练时间:LLM 预训练、LLM 微调、文本转图像、GNN、物体检测、推荐和自然语言处理。
NVIDIA 平台在 MLPerf Inference v5.1 中创下了多项新纪录 (包括新添加的 DeepSeek-R1 推理和 Llama 3.1 405B 交互式测试),并在数据中心类别中继续保持所以基于 GPU 的 MLPerf Inference 性能记录。NVIDIA Blackwell Ultra GPU 架构,在 NVIDIA Blackwell 发布仅 6 个月后便首次亮相,在 DeepSeek-R1 推理基准测试中创下了新纪录。NVIDIA Dynamo 也在本轮测试中首次登场,通过分解服务,显著提升了 Llama 3.1 405B 交互式测试中每个 Blackwell GPU 的性能。NVIDIA 平台的卓越性能和创新速度为更高水平的智能化、更大的 AI 工厂收入潜力,以及更低的每百万 token 成本提供了有力支撑。
| 基准测试 | Offline | Server | Interactive |
|---|---|---|---|
| DeepSeek-R1 | 5,842 Tokens/Second | 2,907 Tokens/Second | * |
| Llama 3.1 405B | 224 Tokens/Second | 170 Tokens/Second | 138 Tokens/Second |
| Llama 2 70B 99.9% | 12,934 Tokens/Second | 12,701 Tokens/Second | 7,856 Tokens/Second |
| Llama 3.1 8B | 18,370 Tokens/Second | 16,099 Tokens/Second | 15,284 Tokens/Second |
| Mistral 8x7B | 16,099 Tokens/Second | 16,131 Tokens/Second | * |
| Stable Diffusion XL | 4.07 Samples/Second | 3.59 Queries/Second | * |
| DLRMv2 99% | 87,228 Tokens/Second | 80,515 Tokens/Second | * |
| DLRMv2 99.9% | 48,666 Tokens/Second | 46,259 Tokens/Second | * |
| RetinaNet | 1,875 samples/second/GPU | 1,801 queries/second/GPU | * |
| Whisper | 5,667 Tokens/Second | * | * |
| Graph Neural Network | 81,404 Tokens/Second | * | * |
* 不属于 MLPerf 推理 v5.0 或 v5.1 基准测试的场景。
MLPerf Inference v5.0 和 v5.1 封闭分区。结果于 2025 年 9 月 9 日检索自 https://mlcommons.org。NVIDIA 平台结果来自以下条目:5.0-0072、5.1-0007、5.1-0053、5.1-0079、5.1-0028、5.1-0062、5.1-0086、5.1-0073、5.1-0008、5.1-0070、5.1-0046、5.1-0009、5.1-0060、5.1-0072、5.1-0071、5.1-0069。单芯片性能通过总吞吐量除以芯片数量计算得出,但该指标并非 MLPerf Inference v5.0 或 v5.1 的主要指标。MLPerf™ 名称和徽标是 MLCommons 协会在美国和其他国家地区的商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 http://www.mlcommons.org。
与 MLPerf Training v5.0 中的 NVIDIA Hopper™ 架构相比,NVIDIA Grace CPU 系统可将每个 GPU 的训练性能提升 2.6 倍,从而显著缩短 AI 模型的训练时间。这些性能飞跃展示了 NVIDIA Blackwell 架构的众多突破性进步,包括第二代 Transformer 引擎、第五代 NVLink™ 和 NVLink Switch,以及针对 NVIDIA Blackwell 优化的 NVIDIA 软件堆栈。
MLPerf™ Training v5.0 结果于 2025 年 6 月 4 日检索自 www.mlcommons.org,来自以下条目:5.0-0005、5.0 - 0071、5.0 - 0014。Hopper 和 Blackwell 在 512 GPU 规模下的 Llama 3.1 405B 比较基于 MLPerf Training v5.0 的结果。Llama 2 70B LoRA 和 Stable Diffusion v2 在 8-GPU 规模下的比较,以及 MLPerf Training v4.1 条目 4.1-0050 中的 Hopper 结果。每个 GPU 的训练性能并不是 MLPerf Training 的主要指标。MLPerf™ 名称和徽标是 MLCommons 协会在美国和其他国家地区的商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 www.mlcommoms.org。
NVIDIA 平台在 MLPerf Training v5.0 中继续表现出卓越性能和多功能性。NVIDIA 在所有七项基准测试中均保持了规模级的记录。
| 基准测试 | 训练时间 |
|---|---|
| LLM Pre-Training (Llama 3.1 405B) | 20.8 minutes |
| LLM Fine-Tuning (Llama 2 70B-LoRA) | 0.56 minutes |
| Text-to-Image (Stable Diffusion v2) | 1.04 minutes |
| Graph Neural Network (R-GAT) | 0.84 minutes |
| Recommender (DLRM-DCNv2) | 0.7 minutes |
| Natural Language Processing (BERT) | 0.3 minutes |
| Object Detection (RetinaNet) | 1.4 minutes |
MLPerf™ Training v5.0 结果于 2025 年 6 月 4 日检索自 www.mlcommons.org,来自以下条目:5.0-0010 (NVIDIA), 5.0-0074 (NVIDIA), 5.0-0076 (NVIDIA), 5.0-0077 (NVIDIA), 5.0-0087 (SuperMicro)。MLPerf™ 名称和徽标均为 MLCommons 协会在美国和其他国家 地区的商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 www.mlcommoms.org。
AI 的复杂性要求平台的各个方面实现紧密结合。正如 MLPerf 基准测试所示,NVIDIA AI 平台凭借世界上最先进的 GPU、强大且可扩展的互连技术和尖端软件,提供了领先的性能——这是一个端到端的解决方案,可以在数据中心、云端或边缘部署,并取得出色的效果。
要在训练和推理方面获得领先的结果,需要专为应对复杂的 AI 挑战而构建的基础设施。NVIDIA AI 平台在 NVIDIA Blackwell 平台、Hopper 平台、NVLink 和 NVLink 交换机以及 Quantum InfiniBand 的支持下提供了领先的性能。这些都是 NVIDIA 数据中心平台提供支持的 AI 工厂的核心,也是我们基准测试性能背后的引擎。
此外,NVIDIA DGX™ 系统可提供可扩展性、快速部署和惊人的计算能力,使每个企业都能构建领先的 AI 基础设施。
NVIDIA Jetson Orin 提供无与伦比的 AI 计算能力、大容量统一内存和全面的软件堆栈,可提供卓越的能效以推动最新的生成式 AI 应用。它能够快速推理任何由 Transformer 架构驱动的生成式 AI 模型,在 MLPerf 上提供卓越的边缘性能。
详细了解我们的数据中心训练和推理产品性能。