NVIDIA H100 CNX 融合加速器

为由 GPU 驱动的 I/O 密集型工作负载提供出色的性能

统一网络和计算加速

体验融合加速的出色性能 NVIDIA H100 CNX 将 NVIDIA H100 Tensor Core GPU 的强大功能与 NVIDIA® ConnectX®-7 智能网卡的先进网络功能相结合,加速 GPU 驱动的输入/输出 (I/O) 密集型工作负载,例如企业数据中心中的分布式 AI 训练和边缘 5G 处理。

更高的 I/O 性能

更高的 I/O 性能

NVIDIA H100 和 ConnectX-7 通过集成的 PCIe 5.0 交换机进行连接,该交换机能够提供用于 GPU 和网络之间数据传输的专用高速路径。这能够消除数据流经主机的性能瓶颈,并实现可预测的低延迟,这对于 5G 信号处理等时间敏感型应用至关重要。

平衡、优化的设计

平衡、优化的设计

通过设计,在单个设备中实现平衡架构。在需要多个 GPU 的系统中,融合加速器卡能够实现 GPU 与网卡的最佳一对一比率。该设计还能避免服务器 PCIe 总线上的争用,因此性能会随其他设备呈线性扩展。

节省成本

节省成本

GPU 和智能网卡直接连接,因此客户可以利用主流 PCIe 4.0 甚至 PCIe 3.0 服务器,实现只有高端系统或专用系统才能达到的性能水平。  单卡还能够节省功耗、空间和 PCIe 设备插槽,允许各服务器增加更多加速器来进一步节约成本。

应用程序就绪

应用程序就绪

NVIDIA 集合通信库 (NCCL) 和 Unified Communication X (UCX®) 等核心加速软件库能够自动利用最佳路径,将数据传输至 GPU。因此,现有的加速多节点应用无需进行任何修改,即可利用 H100 CNX,发挥优势,成效立竿见影。

更快速、更高效的 AI 系统

分布式多节点 AI 训练

分布式多节点 AI 训练

在运行不同主机上各 GPU 之间数据传输的分布式 AI 训练工作负载时,服务器通常会受到性能、可扩展性和密度限制。传统的企业服务器不包含 PCIe 交换机,因此 CPU 成为流量的瓶颈,尤其是对于虚拟机而言。数据传输受主机 PCIe 背板速度的约束。GPU 数量与网卡数量的不平衡会引起冲突。虽然一对一比率是理想选择,但服务器中的 PCIe 通道数量和插槽数量会限制设备总数。

H100 CNX 能够缓解此问题。从网络到 GPU 的专用路径支持 GPUDirect® RDMA 以近乎线路速度运行。不论主机 PCIe 背板如何,也能够以 PCIe 5.0 的速度进行数据传输。已实现 GPU 到网卡的理想比率,因此能够在主机上均衡扩展 GPU 的强大功能。服务器还可以配备更多的加速能力,因为与两者分开相比,融合加速器需要更少的 PCIe 通道和设备插槽。

加速边缘 AI-on-5G

NVIDIA AI-on-5G 技术包含了 NVIDIA EGX 企业平台、面向软件定义 5G 虚拟无线电区域网络 (vRAN) 的 NVIDIA Aerial SDK 和各种企业级 AI 框架(包括 NVIDIA Isaac 和 NVIDIA Metropolis 等 SDK)。此平台使边缘设备(例如摄像头、工业传感器和机器人)能够使用 AI 并通过 5G 与服务器进行通信。

NVIDIA 融合加速器为运行 5G 应用程序提供了性能强大的平台。因为数据不需要流经主机 PCIe 系统,所以处理延迟大幅降低。NVIDIA 的多实例 GPU (MIG) 技术能够使加速 5G 信号处理的融合加速器同样也可用于加速边缘 AI,还能够在多个不同的应用之间共享 GPU。H100 CNX 能够在单个企业级服务器中提供所有这些功能,无需部署成本更高的专用系统。

NVIDIA AI-on-5G

H100 CNX 规格

  规格
GPU 显存 80GB HBM2e
显存带宽 > 2.0TB/s
MIG 实例 7 个实例,每个 10GB
3 个实例,每个 20GB
2 个实例,每个 40GB
互连 PCIe 5.0 128 GB/s
NVLINK 桥接器 双向
网络 1 个 400Gb/s、2 个 200Gb/s 端口、以太网或 InfiniBand
外形规格 双插槽全高、全长 (FHFL)
最大功耗 350 瓦

深入研究 NVIDIA Hopper 架构