MLPerf 基准测试

NVIDIA AI 平台在 MLPerf 训练和推理方面表现出色,并在处理要求极为严苛的现实 AI 工作负载方面展示出先进的性能和通用性。

什么是 MLPerf?

MLPerf 是由来自学术界、研究实验室和相关行业的 AI 领导者组成的联盟,旨在“构建公平和有用的基准测试”,在规定的条件下,针对硬件、软件和服务的训练和推理性能提供公平的评估。为确保始终站在行业趋势的前沿,MLPerf 不断演进,定期进行新的测试并添加代表 AI 领域当前水平的新工作负载。

查尔姆斯理工大学是瑞典领先的科研机构之一,专门从事纳米技术、气候研究等多个领域的研究工作。随着我们引入 AI 来推进研究工作,我们发现 MLPerf 基准测试提供了跨多个 AI 平台的透明同类比较,以展示在各种真实用例中的实际性能。

– 瑞典查尔姆斯理工大学

台积电正在推动全球半导体制造领域前沿技术的发展,比如我们最新的 5 纳米节点在工艺技术方面引领市场发展。基于机器学习的光刻和蚀刻建模等创新技术能够显著提高我们的光学邻近效应修正 (OPC) 和蚀刻模拟的准确性。为充分发挥机器学习在模型训练和推理中的潜力,我们正与 NVIDIA 工程团队开展合作,将我们的 Maxwell 模拟和反演光刻技术 (ILT) 引擎移植到 GPU,从而实现显著加速。MLPerf 基准测试是我们决策制定中的一个重要因素

– 美国加利福尼亚州圣何塞市台积电 OPC 部门总监 Danping Peng 博士

计算机视觉和成像是 AI 研究的核心,能够推动科学发现并随时展示医疗保健的核心组件。我们与 NVIDIA 密切合作,将 3DUNet 等创新引入医疗健康市场。符合行业标准的 MLPerf 基准测试可为 IT 组织和开发者提供相关性能数据,以获得适当的解决方案来加速其特定项目和应用。

– Klaus Maier-Hein(德国癌症研究中心 (DKFZ) 医疗图像计算部门主管)

作为研发和制造领域的领军企业,三星使用 AI 来显著提升产品性能和制造生产力。实现这些 AI 进展要求我们拥有上佳计算平台。MLPerf 基准测试可为我们提供开放、直接的评估方法,统一评估各平台,从而简化我们的选择流程。

– 三星电子

MLPerf 提交类别

MLPerf Training v2.0 是第六个训练版本,由八个不同的工作负载组成,涵盖视觉、语言、推荐系统和强化学习等各种用例。

MLPerf Inference v2.0 在七个不同种类的神经网络中测试了七个不同的用例。其中三个用例针对计算机视觉,一个用例针对推荐系统,两个用例针对语言处理,还有一个用例针对医学影像。

图像分类

图像分类

将标签从固定的类别集分配给输入图像,即应用于计算机视觉问题。详细信息

目标检测(轻量级)

目标检测(轻量级)

在图像或视频中查找真实目标的实例(如人脸、自行车和建筑物等),并对每个目标指定边界框。详细信息

目标检测(重量级)

目标检测(重量级)

检测图像中出现需要关注的不同目标,并为每个目标分别标识像素掩码。详细信息

生物医学图像分割

生物医学图像分割

为医疗用例执行密集型 3D 图像的立体分割。详细信息

翻译(递归)

翻译(递归)

使用循环神经网络 (RNN) 将文本从一种语言翻译为另一种语言。详细信息

自动语音识别 (ASR)

自动语音识别 (ASR)

实时识别和转录音频。详细信息

自然语言处理 (NLP)

自然语言处理 (NLP)

根据一段文本中不同单词之间的关系理解文本。能够支持回答问题、解释句子和许多与语言相关的其他用例。详细信息

推荐

推荐

通过了解用户与服务项目(如产品或广告)之间的交互情况,在社交媒体或电子商务网站等面向用户的服务中提供个性化结果。详细信息

强化学习

强化学习

评估不同的可能行为,在 19x19 网格上玩围棋这一策略游戏时,赢得最多奖励。详细信息

NVIDIA 的 MLPerf 基准测试结果

  • 训练

    训练

  • 推理

    推理

NVIDIA A100 Tensor Core GPU 和 NVIDIA DGX SuperPOD 在所有 MLPerf 测试中的单芯片和大规模工作负载方面都实现了出色的性能。这种突破性性能得益于硬件、软件和系统层面技术的紧密结合。NVIDIA 对整个堆栈的不懈投资推动了每项 MLPerf 提交的性能提升。NVIDIA 平台在整体性能和通用性方面出类拔萃,提供了一个可在任何地方(从数据中心到边缘再到云)使用的单一训练和推理平台。

在 MLPerf 推出的 3 年间,产品性能提升超过 20 倍

NVIDIA 的全栈创新促进持续改进

MLPerf 训练性能基准测试

NVIDIA AI 提供了先进的性能和通用性

适用于商用解决方案

NVIDIA AI 平台在 MLPerf 测试中实现了出色的性能,并且是唯一一个参与所有基准测试的平台。这展示了全栈 NVIDIA AI 平台的性能和通用性,适用于所有 AI 工作负载。

基准测试 大规模(分钟) 单个加速器(分钟)
推荐 (DLRM) 0.59 (DGX SuperPOD) 12.78 (A100)
NLP (BERT) 0.21 (DGX SuperPOD) 126.95 (A100)
语音识别 – 递归 (RNN-T) 2.15 (DGX SuperPOD) 230.07 (A100)
目标检测 – 重量级 (Mask R-CNN) 3.09 (DGX SuperPOD) 327.34 (A100)
目标检测 – 轻量级 (RetinaNet) 4.25 (DGX SuperPOD) 675.18 (A100)
图像分类 (ResNet-50 v1.5) 0.32 (DGX SuperPOD) 217.82 (A100)
图像分割 (3D U-Net) 1.22 (DGX SuperPOD) 170.23 (A100)
强化学习 (MiniGo) 16.23 (DGX SuperPOD) 2045.4 (A100)

NVIDIA 在所有场景(数据中心服务器和离线以及边缘单流、多流和离线)中都实现了极佳的性能结果。此外,我们的全部受测产品还在全部基准测试中实现了出色的每加速器性能。这些结果不仅证明 NVIDIA 在推理性能上出类拔萃,还证明其推理平台具有通用性。

数据中心和边缘的离线场景(单 GPU)

  NVIDIA A100 (x86 CPU)
(推理数/秒)
NVIDIA A100 (Arm CPU)
(推理数/秒)
NVIDIA A30
(推理数/秒)
NVIDIA® Jetson AGX Orin
(最大推理数/查询)
DLRM
(推荐系统)
312380 281283 138194 不适用*
BERT
(自然语言处理)
3490 3149 1668 476
ResNet-50 v1.5
(图像分类)
39190 36487 18406 6139
ResNet-34
(大型单次检测器)
990 906 478 208
RNN-T
(语音识别)
13344 13188 6557 1110
3D U-Net
(医学影像)
3 3 2 0.5

助力实现出色结果的技术

AI 的复杂性要求平台的各个方面实现紧密结合。正如 MLPerf 基准测试中所展现的,凭借先进的 GPU、强大且可扩展的互连技术以及尖端软件(一种端到端解决方案,可在数据中心、云或边缘部署,并可提供出色结果),NVIDIA AI 平台可提供出色的性能。

NVIDIA NGC 中的预训练模型和优化软件

经过优化的软件,加速 AI 工作流

NGC 目录是 NVIDIA 平台以及 MLPerf 训练和推理结果的重要组成部分,它是 GPU 优化的 AI、高性能计算 (HPC) 和数据分析软件的中心,可简化和加速端到端工作流。凭借 150 多个企业级容器(包括适用于对话式 AI推荐系统的工作负载)、数百个 AI 模型,以及可在本地、云或在边缘部署的行业特定 SDK,NGC 助力数据科学家、研究人员和开发者以超乎寻常的速度构建强大的解决方案、收集见解,并以更快的速度提供业务价值。

前沿 AI 基础设施

要在训练和推理方面获得领先的结果,需要能够应对各种复杂的 AI 挑战的专用基础设施。NVIDIA AI 平台使用 NVIDIA A100 Tensor Core GPUNVIDIA A30 Tensor Core GPUNVIDIA A2 Tensor Core GPUJetson AGX Orin 模组的强大功能,以及 NVIDIA 互连技术(NVIDIA NVLink®、NVIDIA NVSwitch 和 NVIDIA ConnectX®-6 VPI)的可扩展性和灵活性打造。这些都是 NVIDIA DGX™ A100 的核心,而正是 NVIDIA DGX™ A100 助力我们在基准测试中提供出色性能。

NVIDIA DGX 系统提供了可扩展性、快速部署能力和惊人的计算能力,可使各个企业均能够构建领先的 AI 基础设施。

NVIDIA Tensor Core GPU

详细了解我们的数据中心训练和推理产品性能。