MLPerf 基准测试

NVIDIA AI 平台在 MLPerf 训练、推理和高性能计算方面表现出色,并在处理要求极为严苛的现实 AI 工作负载方面展示出先进的性能和通用性。

什么是 MLPerf?

MLPerf™ 是由来自学术界、研究实验室和相关行业的 AI 领导者组成的联盟,旨在“构建公平和有用的基准测试”,在规定的条件下,针对硬件、软件和服务的训练和推理性能提供公平的评估。为确保始终站在行业趋势的前沿,MLPerf 不断演进,定期进行新的测试并添加代表 AI 领域当前水平的新工作负载。

深入了解 MLPerf 基准测试

MLPerf Inference v5.1 用于衡量 10 种不同 AI 模型的推理性能,包括 AI 推理、各种大语言模型 (LLM) 、文本转图像生成式 AI、推荐、文本转语音和图神经网络 (GNN)。

MLPerf Training v5.0 用于测量基于七个不同基准的训练时间:LLM 预训练、LLM 微调、文本转图像、GNN、物体检测、推荐和自然语言处理。

大语言模型

已基于大型数据集进行训练的深度学习算法,可以为多种用例识别、总结、翻译、预测和生成内容。

详细信息

文本转图像

根据文本提示生成图像。

详细信息

推荐系统

通过了解用户与服务项目 (如产品或广告) 之间的交互情况,在社交媒体或电子商务网站等面向用户的服务中提供个性化结果。

详细信息

目标检测 (轻量级)

图像或视频中查找真实目标的实例 (如人脸、自行车和建筑物等),并为每个目标指定边界框。

详细信息

推理模型

生成中间推理或思考标记以提高响应准确性的大语言模型。

详细信息

自然语言处理 (NLP)

根据一段文本中不同字词之间的关系来理解文本。可用于回答问题、解释句子和许多与语言相关的其他用例。

详细信息

图形神经网络

采用专为处理图结构数据而设计的神经网络。

详细信息

语音转文本

将语音转换为文字。

详细信息

NVIDIA MLPerf 基准测试结果

Blackwell Ultra 在 MLPerf Inference v5.1 中创下新的推理性能纪录

NVIDIA 平台在 MLPerf Inference v5.1 中创下了多项新纪录 (包括新添加的 DeepSeek-R1 推理和 Llama 3.1 405B 交互式测试),并在数据中心类别中继续保持所以基于 GPU 的 MLPerf Inference 性能记录。NVIDIA Blackwell Ultra GPU 架构,在 NVIDIA Blackwell 发布仅 6 个月后便首次亮相,在 DeepSeek-R1 推理基准测试中创下了新纪录。NVIDIA Dynamo 也在本轮测试中首次登场,通过分解服务,显著提升了 Llama 3.1 405B 交互式测试中每个 Blackwell GPU 的性能。NVIDIA 平台的卓越性能和创新速度为更高水平的智能化、更大的 AI 工厂收入潜力,以及更低的每百万 token 成本提供了有力支撑。

NVIDIA 平台在 MLPerf 推理基准测试中保持了数据中心领域的基于 GPU 的单卡性能记录

基准测试 Offline Server Interactive
DeepSeek-R1 5,842 Tokens/Second 2,907 Tokens/Second *
Llama 3.1 405B 224 Tokens/Second 170 Tokens/Second 138 Tokens/Second
Llama 2 70B 99.9% 12,934 Tokens/Second 12,701 Tokens/Second 7,856 Tokens/Second
Llama 3.1 8B 18,370 Tokens/Second 16,099 Tokens/Second 15,284 Tokens/Second
Mistral 8x7B 16,099 Tokens/Second 16,131 Tokens/Second *
Stable Diffusion XL 4.07 Samples/Second 3.59 Queries/Second *
DLRMv2 99% 87,228 Tokens/Second 80,515 Tokens/Second *
DLRMv2 99.9% 48,666 Tokens/Second 46,259 Tokens/Second *
RetinaNet 1,875 samples/second/GPU 1,801 queries/second/GPU *
Whisper 5,667 Tokens/Second * *
Graph Neural Network 81,404 Tokens/Second * *

* 不属于 MLPerf 推理 v5.0 或 v5.1 基准测试的场景。

MLPerf Inference v5.0 和 v5.1 封闭分区。结果于 2025 年 9 月 9 日检索自 https://mlcommons.org。NVIDIA 平台结果来自以下条目:5.0-0072、5.1-0007、5.1-0053、5.1-0079、5.1-0028、5.1-0062、5.1-0086、5.1-0073、5.1-0008、5.1-0070、5.1-0046、5.1-0009、5.1-0060、5.1-0072、5.1-0071、5.1-0069。单芯片性能通过总吞吐量除以芯片数量计算得出,但该指标并非 MLPerf Inference v5.0 或 v5.1 的主要指标。MLPerf™ 名称和徽标是 MLCommons 协会在美国和其他国家地区的商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 http://www.mlcommons.org

与 MLPerf Training v5.0 中的 NVIDIA Hopper™ 架构相比,NVIDIA Grace CPU 系统可将每个 GPU 的训练性能提升 2.6 倍,从而显著缩短 AI 模型的训练时间。这些性能飞跃展示了 NVIDIA Blackwell 架构的众多突破性进步,包括第二代 Transformer 引擎、第五代 NVLink™ 和 NVLink Switch,以及针对 NVIDIA Blackwell 优化的 NVIDIA 软件堆栈。

NVIDIA Blackwell 强效助力 AI 训练

MLPerf™ Training v5.0 结果于 2025 年 6 月 4 日检索自 www.mlcommons.org,来自以下条目:5.0-0005、5.0 - 0071、5.0 - 0014。Hopper 和 Blackwell 在 512 GPU 规模下的 Llama 3.1 405B 比较基于 MLPerf Training v5.0 的结果。Llama 2 70B LoRA 和 Stable Diffusion v2 在 8-GPU 规模下的比较,以及 MLPerf Training v4.1 条目 4.1-0050 中的 Hopper 结果。每个 GPU 的训练性能并不是 MLPerf Training 的主要指标。MLPerf™ 名称和徽标是 MLCommons 协会在美国和其他国家地区的商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 www.mlcommoms.org

NVIDIA 平台保持规模级最佳性能

NVIDIA 平台在 MLPerf Training v5.0 中继续表现出卓越性能和多功能性。NVIDIA 在所有七项基准测试中均保持了规模级的记录。

超大规模性能

基准测试 训练时间
LLM Pre-Training (Llama 3.1 405B) 20.8 minutes
LLM Fine-Tuning (Llama 2 70B-LoRA) 0.56 minutes
Text-to-Image (Stable Diffusion v2) 1.04 minutes
Graph Neural Network (R-GAT) 0.84 minutes
Recommender (DLRM-DCNv2) 0.7 minutes
Natural Language Processing (BERT) 0.3 minutes
Object Detection (RetinaNet) 1.4 minutes

MLPerf™ Training v5.0 结果于 2025 年 6 月 4 日检索自 www.mlcommons.org,来自以下条目:5.0-0010 (NVIDIA),  5.0-0074 (NVIDIA), 5.0-0076 (NVIDIA), 5.0-0077 (NVIDIA), 5.0-0087 (SuperMicro)。MLPerf™ 名称和徽标均为 MLCommons 协会在美国和其他国家 地区的商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 www.mlcommoms.org

助力实现出色结果的技术

AI 的复杂性要求平台的各个方面实现紧密结合。正如 MLPerf 基准测试所示,NVIDIA AI 平台凭借世界上最先进的 GPU、强大且可扩展的互连技术和尖端软件,提供了领先的性能——这是一个端到端的解决方案,可以在数据中心、云端或边缘部署,并取得出色的效果。

经过优化的软件,加速 AI 工作流

NGC™ 目录是 NVIDIA 平台以及 MLPerf 训练和推理结果的重要组成部分,它是 GPU 优化的 AI、高性能计算 (HPC) 和数据分析软件的中心,可简化和加速端到端工作流。凭借 150 多个企业级容器(包括适用于生成式 AI对话式 AI 和推荐系统的工作负载)、数百个 AI 模型,以及可在本地、云或在边缘部署的行业特定 SDK,NGC 助力数据科学家、研究人员和开发者以超乎寻常的速度构建强大的解决方案、收集见解,并以更快的速度提供业务价值。

领先的 AI 基础设施

要在训练和推理方面获得领先的结果,需要专为应对复杂的 AI 挑战而构建的基础设施。NVIDIA AI 平台在 NVIDIA Blackwell 平台Hopper 平台NVLink 和 NVLink 交换机以及 Quantum InfiniBand 的支持下提供了领先的性能。这些都是 NVIDIA 数据中心平台提供支持的 AI 工厂的核心,也是我们基准测试性能背后的引擎。

此外,NVIDIA DGX™ 系统可提供可扩展性、快速部署和惊人的计算能力,使每个企业都能构建领先的 AI 基础设施。

借助变革性性能解锁边缘生成式 AI

NVIDIA Jetson Orin 提供无与伦比的 AI 计算能力、大容量统一内存和全面的软件堆栈,可提供卓越的能效以推动最新的生成式 AI 应用。它能够快速推理任何由 Transformer 架构驱动的生成式 AI 模型,在 MLPerf 上提供卓越的边缘性能。

详细了解我们的数据中心训练和推理产品性能。

大语言模型

MLPerf Training MLPerf Training 使用具有 4050 亿个参数、序列长度为 8192 的 Llama 3.1 生成式语言模型,使用 c4 (v3.0.1) 数据集进行 LLM 预训练工作负载。在 LLM 微调测试中,Llama 2 70B 模型使用的是 GovReport 数据集,序列长度为 8192。

MLPerf Inference 使用 Llama 3.1 405B 模型与以下数据集结合使用:LongBench、RULER 和 govReport 摘要;Llama 2 70B 模型与 OpenORCA 数据集;Mixtral 8x7B 模型与 OpenORCA、GSM8K 和 MBXP 数据集;Llama 3.1 8B 模型与 CNN-DailyMail 数据集。

文本转图像

MLPerf Training 使用基于 LAION-400M 筛选数据集训练的 Stable Diffusion v2 文本转图像模型。

MLPerf Inference 使用 Stable Diffusion XL (SDXL) 文本转图像模型以及来自 coco-val-2014 数据集的 5000 个提示子集。

推荐系统

MLPerf Training 和 MLPerf Inference 使用深度学习推荐模型 v2 (DLRMv2),该模型采用从 Criteo 数据集合成的 DCNv2 跨层多热数据集。

目标检测 (轻量级)

MLPerf Training 使用带有 ResNeXt50 主干的单步检测器 (SSD) 和 Google OpenImages 数据集的子集。

推理模型

MLPerf Inference 使用 DeepSeek-R1 模型,其样本来自以下数据集:AIME、MATH500、GPQA-Diamond、MMLU-Pro、LiveCodeBench。

自然语言处理 (NLP)

MLPerf Training 在 Wikipedia 2020/ 01/ 01 数据集上使用基于 Transformer 的双向编码器表征模型 (BERT)。

图形神经网络

MLPerf Training 将 R-GAT 与 Illinois Graph 基准测试 (IGB) - 异构数据集结合使用。

语音转文本

MLPerf 推理将 Whisper-Large-V3 与 LibriSpeech 数据集结合使用。

Server

4X

 

Offline

3.7X

 

AI Superchip

208B Transistors

2nd Gen Transformer Engine

FP4/FP6 Tensor Core

5th Generation NVLINK

Scales to 576 GPUs

RAS Engine

100% In-System Self-Test

Secure AI

Full Performance Encryption and TEE

Decompression Engine

800 GB/Sec