MLPerf 基准测试

NVIDIA 训练和推理解决方案在业界先进的 AI 性能基准测试 MLPerf 中表现出了创记录的出色性能。

什么是 MLPerf?

MLPerf 是由来自学术界、研究实验室和相关行业的 AI 领导者组成的联盟,旨在“构建公平和有用的基准测试”,在规定的条件下,针对硬件、软件和服务的训练和推理性能提供公平的评估。为确保始终站在行业趋势的前沿,MLPerf 不断演进,定期进行新的测试并添加代表 AI 领域当前水平的新工作负载。

查尔姆斯理工大学是瑞典领先的科研机构之一,专门从事纳米技术、气候研究等多个领域的研究工作。随着我们采用 AI 来推进研究工作,我们发现 MLPerf 基准测试能够提供跨多个 AI 平台的透明的同类比较,从而展示各种真实用例的实际性能。

– 瑞典查尔姆斯理工大学

TSMC 正在推动全球半导体制造领域前沿技术的发展,比如我们最新的 5nm 节点在工艺技术方面引领市场发展。基于机器学习的光刻和蚀刻建模等创新技术能够显著提高我们的光学邻近效应修正 (OPC) 和蚀刻模拟的准确性。为充分发挥机器学习在模型训练和推理中的潜力,我们正与 NVIDIA 工程团队开展合作,将我们的 Maxwell 模拟和反演光刻技术 (ILT) 引擎移植到 GPU,从而实现显著加速。MLPerf 基准测试是我们决策制定中的一个重要因素

– 美国加利福尼亚州圣何塞市 TSMC OPC 部门总监 Danping Peng 博士

计算机视觉和成像是 AI 研究的核心,能够推动科学发现并随时展示医疗保健的核心组件。我们与 NVIDIA 密切合作,将 3DUNet 等创新引入医疗健康市场。符合行业标准的 MLPerf 基准测试可为 IT 组织和开发者提供相关性能数据,以获得适当的解决方案来加速其特定项目和应用程序。

– Klaus Maier-Hein(德国癌症研究中心 (DKFZ) 医疗图像计算部门主管)

作为研发和制造领域的领军企业,三星使用 AI 来显著提升产品性能和制造生产力。实现这些 AI 进展要求我们拥有上佳计算平台。MLPerf 基准测试可为我们提供开放、直接的评估方法,统一评估各平台,从而简化我们的选择流程。

– 三星电子

MLPerf 提交类别

MLPerf 训练由八个不同的工作负载组成,涵盖视觉、语言、推荐系统和增强学习等各种用例。

MLPerf 推理在七个不同种类的神经网络中测试七个不同的用例。其中三个用例针对计算机视觉,一个用例针对推荐系统,两个用例针对语言处理,还有一个用例针对医学影像。

图像分类

图像分类

将标签从固定的类别集中分配给输入图像,即应用于计算机视觉问题。详细信息

目标检测(轻量级)

目标检测(轻量级)

在图像或视频中查找真实目标的实例(如人脸、自行车和建筑物等),并对每个目标指定边界框。详细信息

目标检测(重量级)

目标检测(重量级)

检测图像中出现的需要关注的不同目标,并为每个目标分别标识像素掩码。详细信息

生物医学图像分割

生物医学图像分割

为医疗用例执行密集型 3D 图像的立体分割。详细信息

翻译(递归)

翻译(递归)

使用递归神经网络 (RNN) 将文本从一种语言翻译为另一种语言。详细信息

自动语音识别 (ASR)

自动语音识别 (ASR)

实时识别和转录音频。详细信息

自然语言处理 (NLP)

自然语言处理 (NLP)

根据一段文本中不同单词之间的关系理解文本。能够支持回答问题、解释句子和许多与语言相关的其他用例。详细信息

推荐

推荐

通过了解用户与服务项目(如产品或广告)之间的交互方式和内容,在社交媒体或电子商务网站等面向用户的服务中提供个性化结果。详细信息

强化学习

强化学习

评估不同的可能行为,在 19x19 网格上玩围棋这一策略游戏时,赢得最多奖励。详细信息

NVIDIA 的 MLPerf 基准测试结果

  • 训练

    训练

  • 推理

    推理

NVIDIA A100 Tensor Core GPU 和 NVIDIA DGX SuperPOD 在每芯片工作负载和大规模工作负载方面打破了全部 16 项训练性能记录。在性能方面取得如此具有突破性的表现(以及吞吐量相比之前的四次 MLPerf 测试提交结果有所提高),源自硬件、软件和系统级技术的紧密集成,以及 NVIDIA 对全栈性能的持续投资。NVIDIA 平台在性能和易用性方面表现出色,可提供从中心到终端和云的单一领导平台。

MLPerf 推出 3 年,性能提升超过 20 倍

NVIDIA 的全栈创新促进持续改进

MLPerf 训练性能基准测试

NVIDIA 打破全部 16 项记录

适用于商用解决方案

NVIDIA AI 平台在 OEM 服务器和 NVIDIA DGX 中使用 NVIDIA A100 GPU 为每个加速器打破了全部 8 项记录。这展示了端到端 NVIDIA 硬件和软件堆栈的强大实力,使计算机制造商能够在 MLPerf 上提供创纪录的结果。

基准测试 大规模纪录(分钟) 每个加速器记录(分钟)
推荐 (DLRM) 0.63 (DGX SuperPOD) 13.5 (A100)
NLP (BERT) 0.24 (DGX SuperPOD) 155.1 (A100)
语音识别 – 递归 (RNN-T) 2.38 (DGX SuperPOD) 267.0 (A100)
目标检测 – 重量级 (Mask R-CNN) 3.24 (DGX SuperPOD) 335.1 (A100)
目标检测 – 轻量级 (SSD) 0.45 (DGX SuperPOD) 63.8 (A100)
图像分类 (ResNet-50 v1.5) 0.35 (DGX SuperPOD) 220.5 (A100)
图像分割 (3D-Unet) 1.26 (Microsoft Azure NDm A100 v4) 187.7 (A100)
强化学习 (MiniGo) 15.47 (DGX SuperPOD) 1805.2 (A100)

NVIDIA 在所有场景(数据中心服务器和离线以及边缘单流、多流和离线)中都实现了极佳的性能结果。此外,我们还在全部基准测试中实现了全部受测产品中出色的各加速器性能。这些结果不仅证明 NVIDIA 在推理性能上出类拔萃,还证明其推理平台具有通用性。

数据中心和边缘的离线场景(单 GPU)

  NVIDIA A100 (x86 CPU)
(推理数/秒)
NVIDIA A100 (Arm CPU)
(推理数/秒)
NVIDIA A30
(推理数/秒)
NVIDIA® Jetson Xavier
(最大推理/查询)
DLRM
(推荐系统)
312380 281283 138194 不适用*
BERT
(自然语言处理)
3490 3149 1668 476
ResNet-50 v1.5
(图像分类)
39160 36487 18406 6139
ResNet-34
(大型单次检测器)
990 906 478 208
RNN-T
(语音识别)
13344 13188 6557 1110
3D U-Net
(医学影像)
3 3 2 0.5

助力实现出色结果的技术

AI 的复杂性要求平台的各个方面实现紧密结合。正如 MLPerf 基准测试中所展现的,凭借先进的 GPU、强大且可扩展的互连技术以及尖端软件(一种端到端解决方案,可在数据中心、云或边缘部署,并可提供出色结果),NVIDIA AI 平台可提供出色的性能。

NVIDIA NGC 中的预训练模型和优化软件

经过优化的软件,加速 AI 工作流程

NGC 是 NVIDIA 平台和 MLPerf 训练和推理结果的重要组成部分,它是适用于 GPU 优化 AI、高性能计算 (HPC) 和数据分析软件的中心,可简化和加速端到端工作流程。凭借 150 多个企业级容器(包括适用于对话式 AI推荐系统的工作负载)、100 多个模型,以及可在本地、云或在边缘部署的行业特定 SDK,NGC 助力数据科学家、研究人员和开发者以超乎寻常的速度构建强大的解决方案、收集见解,并以更快的速度提供业务价值。

前沿 AI 基础架构

要在训练和推理方面获得领先的结果,需要能够应对各种复杂的 AI 挑战的专用基础架构。NVIDIA 提供的 AI 平台使用 NVIDIA A100 Tensor Core GPUNVIDIA A30 Tensor Core GPUNVIDIA A2 Tensor Core GPU Jetson AGX Orin 模组的强大功能,以及 NVIDIA 互连技术(NVIDIA NVLink®、NVIDIA NVSwitch 和 NVIDIA ConnectX®-6 VPI)的可扩展性和灵活性。这些都是 NVIDIA DGX™ A100 的核心,而正是 NVIDIA DGX™ A100 助力我们在基准测试中提供出色性能。

NVIDIA DGX 系统提供了可扩展性、快速部署能力和惊人的计算能力,可使各个企业均能够构建领先的 AI 基础架构。

NVIDIA Tensor Core GPU

详细了解我们的数据中心训练和推理产品性能。