MLPerf™ 基准测试由来自学术界、研究实验室和行业的 AI 领导者联盟 MLCommons 开发,旨在对硬件、软件和服务的训练和推理性能进行无偏评估。它们都在规定的条件下进行。为了保持在行业趋势的前沿,MLPerf 不断发展,定期举行新的测试,并添加代表 AI 技术水平的新工作负载。
MLPerf Inference v4.1 可测量九种不同基准测试的推理性能,包括数个大语言模型 (LLM)、文本转图像、自然语言处理、推荐系统、计算机视觉和医疗图像分割。
MLPerf Training v4.1 可测量七种不同基准测试的训练时间,包括 LLM 预训练、LLM 微调、文本转图像、图形神经网络 (GNN)、计算机视觉、推荐和自然语言处理。
MLPerf HPC v3.0 可测量四种不同的科学计算用例的训练性能,包括气候大气河流识别、宇宙学参数预测、量子分子建模和蛋白质结构预测。
NVIDIA HGX™ Blackwell 架构平台由 NVIDIA Blackwell GPU、第五代 NVLink™ 和最新 NVLink Switch 提供支持,为 MLPerf Training v4.1 中的 LLM 训练带来了又一次巨大飞跃。通过坚持不懈的数据中心规模全栈工程,NVIDIA 将继续突破生成式 AI 训练性能极限,加速创建和定制日益强大的 AI 模型。
NVIDIA Blackwell 强效助力 LLM 训练
MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 http://www.mlcommons.org,来自以下条目:可用类别下 4.1-0060(HGX H100,2024,512 个 GPU)以及预览类别下 4.1-0082(HGX B200,2024,64 个 GPU)。MLPerfTM Training v3.0 结果用于 HGX H100(2023,512 个 GPU),检索自条目 3.0-2069。HGX A100 结果(使用 512 个 GPU)未经 MLCommons Association 验证。每个 GPU 的标准化性能并非 MLPerf™ Training 的主要指标。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 http://www.mlcommons.org。
采用 NVIDIA Hopper™ GPU、第四代 NVLink 和第三代 NVSwitch™ 以及 Quantum-2 InfiniBand 的 NVIDIA 平台在 MLPerf Training v4.1 中继续表现出卓越性能和多功能性。NVIDIA 在所有七项基准测试中均保持了规模级的记录。
基准测试 | 训练时间 | GPUs 数量 |
---|---|---|
LLM (GPT-3 175B) | 3.4 分 | 11,616 |
LLM 微调 (Llama 2 70B-LoRA) | 1.2 分 | 1,024 |
文本转图像 (Stable Diffusion v2) | 1.4 分 | 1,024 |
图形神经网络 (R-GAT) | 0.9 分 | 512 |
推荐系统 (DLRM-DCNv2) | 1.0 分 | 128 |
自然语言处理 (BERT) | 0.1 分 | 3,472 |
物体检测 (RetinaNet) | 0.8 分 | 2,528 |
MLPerf™ Training v4.1 结果于 2024 年 11 月 13 日检索自 https://www.mlcommons.org,来自以下条目:4.1-0012、4.1-0054、4.1-0053、4.1-0059、4.1-0055、4.10058、4.1-0056。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权严禁使用。详情请参见 https://www.mlcommons.org。
在首次亮相的 MLPerf 推理测试中,NVIDIA Blackwell 平台采用了 NVIDIA Quasar 量化系统,与上一代 Tensor Core GPU 相比,LLM 性能提升达 4 倍。在现有解决方案中,基于 NVIDIA Hopper 体系架构的 NVIDIA Tensor Core GPU 在所有三项 LLM 基准测试(包括 Llama 2 70B、GPT-J 和新添加的混合专家 LLM Mixtral 8x7B)以及 Stable Diffusion XL 文本转图像基准测试中针对生成式 AI 提供了最高的每 GPU 性能。通过坚持不懈的软件优化,NVIDIA Tensor Core GPU 的性能在不到六个月内提高了 27%。对于边缘生成式 AI,NVIDIA Jetson Orin™ 提供了优异的结果,仅在一轮 GPT-J 测试中,就将吞吐量提高了 6 倍以上,并将延迟降低了 2.4 倍。
MLPerf Inference v4.1 已关闭、数据中心。结果于 2024 年 8 月 28 日检索自 https://mlcommons.org。Blackwell 结果在单个 GPU 上进行测量,并检索自条目 4.1-0074 的已关闭、预览类别。H100 结果检索自条目 4.1-0043,位于 8x H100 系统的已关闭、可用类别,并除以 GPU 数量以获得每个 GPU 的比较结果。每个 GPU 的吞吐量不是 MLPerf Inference 的主要指标。MLPerf 名称和徽标为 MLCommons Association 在美国和其他国家/地区的注册和未注册商标。保留所有权利。未经授权严禁使用。详情请参见 https://mlcommons.org。
基准测试 | 离线 | 服务器 |
---|---|---|
Llama 2 70B | 34864 token/秒 | 32790 tokens/秒 |
Mixtral 8x7B | 59022 token/秒 | 57177 tokens/秒 |
GPT-J | 20086 token/秒 | 19243 token/秒 |
Stable Diffusion XL | 17.42 样本/秒 | 16.78 查询/秒 |
DLRMv2 99% | 637342 样本/秒 | 585,02 查询/秒 |
DLRMv2 99.9% | 390953 样本/秒 | 370083 查询/秒 |
BERT 99% | 73310 样本/秒 | 57609 查询/秒 |
BERT 99.9% | 63950 样本/秒 | 51212 查询/秒 |
RetinaNet | 14439 样本/秒 | 13604 查询/秒 |
ResNet-50 v1.5 | 756960 样本/秒 | 632229 查询/秒 |
3D U-Net | 54.71 样本/秒 | 非基准测试的一部分 |
MLPerf Inference v4.1 已关闭、数据中心。结果于 2024 年 8 月 28 日检索自 https://mlcommons.org。所有结果均使用 8 个 GPU,并检索自以下条目:4.1-0046、4.1-0048、4.1-0050。MLPerf 名称和徽标为 MLCommons Association 在美国和其他国家/地区的注册和未注册商标。保留所有权利。未经授权严禁使用。详情请参见 https://mlcommons.org。
首次在 MLPerf HPC v3.0 中亮相时,NVIDIA Tensor Core GPU 便为适用于 HPC 和 AI 的 NVIDIA 平台注入了强劲动力,使训练速度在短短三年内提高了 16 倍,并且对于所有工作负载,在训练时间和吞吐量指标方面均取得了出色表现。对于气候分段、宇宙学参数预测、量子分子建模,以及最新添加的蛋白质结构预测等各种 MLPerf HPC 工作负载,NVIDIA 平台都提交了结果。NVIDIA 平台的卓越性能和通用性使其成为助力下一波 AI 赋能科学发现浪潮的首选工具。
NVIDIA 全栈创新助推性能提升
MLPerf™ HPC v3.0 结果是在 2023 年 11 月 8 日从 https://mlcommons.org 上检索到的。结果是从以下条目检索到的:0.7-406、0.7-407、1.0-1115、1.0-1120、1.0-1122、2.0-8005、2.0-8006、3.0-8006、3.0-8007、3.0-8008。v1.0 中的 CosmoFlow 分数已标准化为 MLPerf HPC v2.0 中引入的新 RCP。 v0.7、v1.0 和 v2.0 的分数经过了调整,以从基准中删除数据暂存时间,这与 v3.0 采用的新规则一致,以便在提交轮次之间进行公平比较。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。严禁未经授权使用。详情请参见 https://mlcommons.org。
MLPerf™ HPC v3.0 结果是在 2023 年 11 月 8 日从 https://mlcommons.org 检索到的。结果是从以下条目检索到的:3.0-8004、3.0-8009 和 3.0-8010。MLPerf™ 名称和徽标是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。严禁未经授权使用。详情请参见 https://mlcommons.org。
AI 的复杂性要求平台的各个方面紧密集成。正如 MLPerf 基准测试所示,NVIDIA AI 平台凭借世界上最先进的 GPU、强大且可扩展的互连技术和尖端软件,提供了领先的性能——这是一个端到端的解决方案,可以在数据中心、云端或边缘部署,并取得出色的效果。
要在训练和推理方面获得领先的结果,需要专为应对复杂的 AI 挑战而构建的基础设施。NVIDIA AI 平台在 NVIDIA Blackwell 平台、Hopper 平台、NVLink™, NVSwitch™和 Quantum InfiniBand 的支持下提供了领先的性能。这些都是 NVIDIA 数据中心平台的核心,也是我们基准测试性能背后的引擎。
此外,NVIDIA DGX™ 系统可提供可扩展性、快速部署和惊人的计算能力,使每个企业都能构建领先的 AI 基础设施。
NVIDIA Jetson Orin 提供无与伦比的 AI 计算能力、大容量统一内存和全面的软件堆栈,可提供卓越的能效以推动最新的生成式 AI 应用。它能够快速推理任何由 Transformer 架构驱动的生成式 AI 模型,在 MLPerf 上提供卓越的边缘性能。
详细了解我们的数据中心训练和推理产品性能。