为由 GPU 驱动的 I/O 密集型工作负载提供出色的性能
体验融合加速的出色性能 NVIDIA H100 CNX 将 NVIDIA H100 Tensor Core GPU 的强大功能与 NVIDIA® ConnectX®-7 智能网卡的先进网络功能相结合,加速 GPU 驱动的输入/输出 (I/O) 密集型工作负载,例如企业数据中心中的分布式 AI 训练和边缘 5G 处理。
NVIDIA H100 和 ConnectX-7 通过集成的 PCIe 5.0 交换机进行连接,该交换机能够提供用于 GPU 和网络之间数据传输的专用高速路径。这能够消除数据流经主机的性能瓶颈,并实现可预测的低延迟,这对于 5G 信号处理等时间敏感型应用至关重要。
通过设计,在单个设备中实现平衡架构。在需要多个 GPU 的系统中,融合加速器卡能够实现 GPU 与网卡的最佳一对一比率。该设计还能避免服务器 PCIe 总线上的争用,因此性能会随其他设备呈线性扩展。
GPU 和智能网卡直接连接,因此客户可以利用主流 PCIe 4.0 甚至 PCIe 3.0 服务器,实现只有高端系统或专用系统才能达到的性能水平。 单卡还能够节省功耗、空间和 PCIe 设备插槽,允许各服务器增加更多加速器来进一步节约成本。
NVIDIA 集合通信库 (NCCL) 和 Unified Communication X (UCX®) 等核心加速软件库能够自动利用最佳路径,将数据传输至 GPU。因此,现有的加速多节点应用无需进行任何修改,即可利用 H100 CNX,发挥优势,成效立竿见影。
在运行不同主机上各 GPU 之间数据传输的分布式 AI 训练工作负载时,服务器通常会受到性能、可扩展性和密度限制。传统的企业服务器不包含 PCIe 交换机,因此 CPU 成为流量的瓶颈,尤其是对于虚拟机而言。数据传输受主机 PCIe 背板速度的约束。GPU 数量与网卡数量的不平衡会引起冲突。虽然一对一比率是理想选择,但服务器中的 PCIe 通道数量和插槽数量会限制设备总数。
H100 CNX 能够缓解此问题。从网络到 GPU 的专用路径支持 GPUDirect® RDMA 以近乎线路速度运行。不论主机 PCIe 背板如何,也能够以 PCIe 5.0 的速度进行数据传输。已实现 GPU 到网卡的理想比率,因此能够在主机上均衡扩展 GPU 的强大功能。服务器还可以配备更多的加速能力,因为与两者分开相比,融合加速器需要更少的 PCIe 通道和设备插槽。
NVIDIA AI-on-5G 技术包含了 NVIDIA EGX™ 企业平台、面向软件定义 5G 虚拟无线电区域网络 (vRAN) 的 NVIDIA Aerial™ SDK 和各种企业级 AI 框架(包括 NVIDIA Isaac™ 和 NVIDIA Metropolis 等 SDK)。此平台使边缘设备(例如摄像头、工业传感器和机器人)能够使用 AI 并通过 5G 与服务器进行通信。
NVIDIA 融合加速器为运行 5G 应用程序提供了性能强大的平台。因为数据不需要流经主机 PCIe 系统,所以处理延迟大幅降低。NVIDIA 的多实例 GPU (MIG) 技术能够使加速 5G 信号处理的融合加速器同样也可用于加速边缘 AI,还能够在多个不同的应用之间共享 GPU。H100 CNX 能够在单个企业级服务器中提供所有这些功能,无需部署成本更高的专用系统。