高级多 GPU 通信的构建模块
AI 和高性能计算 (HPC) 的计算需求不断增长,因此越来越需要支持在 GPU 之间无缝连接的多 GPU 系统,以便它们可以作为一个巨大的加速器相互协作。虽然 PCIe 非常标准,但带宽有限,因此通常会产生瓶颈。为构建功能强大的端到端计算平台,我们需要速度更快、扩展性更强的互联。
NVIDIA® NVLink® 是一种高速、直接的 GPU 到 GPU 互联技术。NVIDIA NVSwitch™ 将多个 NVLink 加以整合,在单个节点(如 NVIDIA HGX™ A100)内以 NVLink 的较高速度实现多对多的 GPU 通信,从而进一步提高互联性能。NVLink 和 NVSwitch 的结合使 NVIDIA 得以高效地将 AI 性能扩展到多个 GPU,并在业内首个 AI 基准测试 MLPerf 0.6 中斩获佳绩。
带有 NVLink GPU 间连接的 PCIe 版 NVIDIA A100
采用 NVLink GPU 到 GPU 连接的 NVIDIA A100
为简便起见,该 NVSwitch 拓扑图显示的是两个 GPU 的连接。8 个或 16 个 GPU 以相同方式通过 NVSwitch 进行多对多连接。
NVIDIA NVLink 技术可提供更高带宽和更多链路,并可提升多 GPU 系统配置的可扩展性,故而可以解决互联问题。单个 NVIDIA A100 Tensor 核心 GPU 支持多达 12 个第三代 NVLink 连接,总带宽为每秒 600 千兆字节(GB/秒),几乎是 PCIe Gen 4 带宽的 10 倍。
NVIDIA DGX™ A100 等服务器可利用这项技术来提高可扩展性,进而实现非常快速的深度学习训练。NVLink 也可用于 PCIe 版 A100 的双 GPU 配置
与上一代产品相比,NVIDIA A100 中采用的 NVLink 技术将 GPU 之间的通信带宽提高两倍,因此研究人员可以使用更大型、更出色的应用程序解决更复杂的问题。
First introduced with the NVIDIA Pascal™ architecture, NVLink on Tesla V100 has increased the signaling rate from 20 to 25 GB/s in each direction. This direct communication link between two GPUs, improves accuracy and convergence of high-performance computing (HPC) and AI and achieves speeds over an order of magnitude faster than PCIe.
NVLink can bring up to 70 percent more performance to an otherwise identically configured server. Its dramatically higher bandwidth and reduced latency enables even larger deep learning workloads to scale in performance as they grow.
NVLink Delivers Up To 70% Speedup vs PCIe
NVLink: GPU Servers: Dual Xeon Gold 6140@2.30GHz or E5-2698 v4@3.6GHz for PyTorch with 8xV100 PCIe vs 8xV100 NVLink. SW benchmarks: MILC (APEX medium). HOOMD-Blue (microsphere), LAMMPS (LJ 2.5).
由于 PCIe 带宽经常会在多 GPU 系统级别造成瓶颈,因此深度学习技术的快速应用使得对速度更快、可扩展性更强的互连的需求日益迫切。要扩展深度学习工作负载,需要显著提高带宽并降低延迟。
NVIDIA NVSwitch 以 NVLink 的先进通信能力为基础,能够解决该问题。它采用可在一台服务器中支持更多 GPU 以及 GPU 之间的全带宽连接的 GPU 架构,可将深度学习性能提升到更高水平。每个 GPU 都有 12 个连接 NVSwitch 的 NVLink 链路,可实现高速的多对多通信。
NVLink 和 NVSwitch 是整个 NVIDIA 数据中心解决方案的基本构件,该构件包含来自 NGC™ 的硬件、网络、软件、库以及优化的 AI 模型和应用程序。作为强大的端到端 AI 和高性能计算平台,它让研究人员能够得到真实的结果,并能将解决方案部署到生产环境中,从而在各种规模上实现出色的加速。
NVSwitch 是首款节点交换架构,可在单个服务器节点中支持 8 到 16 个全互联的 GPU。第二代 NVSwitch 可助力以 600 GB/s 的惊人速度在所有 GPU 对之间同时进行通信。该技术借助直接 GPU 对等内存寻址支持完整的多对多通信。这 16 个 GPU 还可用作单个高性能加速器,拥有统一内存空间和高达 10 petaFLOPS 的深度学习计算性能。
体验 NVIDIA DGX A100,这是适用于 AI 基础设施的通用系统,也是较早基于 NVIDIA A100 Tensor 核心 GPU 构建的 AI 系统。