NVIDIA Magnum IO

适用于现代 GPU 加速型数据中心的 IO 子系统

更大限度提升数据中心存储和 网络 IO 性能

该全新计算单元为数据中心,其核心为 NVIDIA GPU 和 NVIDIA 网络。加速计算要求加速输入/输出 (IO),以更大限度提升性能。现代数据中心的 IO 子系统 NVIDIA Magnum IO 是适用于并行异步智能数据中心 IO 的架构,能更大限度提升存储和网络 IO 性能,为多 GPU、多节点加速提供支持。

Magnum IO 关键优势

优化的 IO 性能

绕过 CPU,在 GPU 显存、网络和存储中直接实现 IO,进而将带宽提升至十倍。

系统的平衡与利用率

通过减少 CPU 争用构建更平衡的 GPU 加速型系统,可提供最大 IO 带宽,CPU 核心使用减少至之前的十分之一,CPU 利用率降低至三十分之一。

无缝整合

无论是在延迟敏感的小数据包传输,还是带宽敏感的大数据包传输,抑或是两者混合型,都可以为现在和未来的平台提供优化。

Magnum IO 优化堆栈

Magnum IO 利用存储 IO、网络 IO、网内计算和 IO 管理,简化并加速多 GPU、多节点系统的数据传输、访问和管理。Magnum IO 支持 NVIDIA CUDA-X™ 库,并充分利用各类 NVIDIA GPU 和 NVIDIA 网络硬件拓扑来实现最优吞吐量和低延迟。

 [Developer Blog] Magnum IO - 加速现代数据中心的 IO 性能

Magnum IO Optimization Stack

存储 IO

在多节点、多 GPU 系统中,运行缓慢的 CPU 单线程性能严重影响了从本地或远程存储设备访问数据的效率。借助存储 IO 加速,GPU 可绕过 CPU 和系统内存,通过八个 200Gb/s 的网卡访问远程存储,实现高达 1.6Tb/s 的原始存储带宽。

相关技术包括:

网络 IO

NVIDIA NVLink® 架构和基于 RDMA 的网络 IO 加速可降低 IO 开销,绕过 CPU,并实现 GPU 到 GPU 的线速直接数据传输。.

相关技术包括:

网内计算

网内计算可实现网络内处理,消除遍历各节点或过程中发生跳跃导致的延迟。数据处理单元 (DPU) 采用软件定义、网络硬件加速的计算,包括预配置的数据处理引擎和可编程引擎。

相关技术包括:

IO 管理

用户需要先进的网络感知和深度故障排除技术,才能实现计算、网络和存储等各类 IO 优化。Magnum IO 管理平台可助力研究和工业数据中心操作人员对现代数据中心架构进行高效预配、监控与管理以及预防性维护。

相关技术包括:

跨应用加速 IO

Magnum IO 可与 NVIDIA CUDA-X 高性能计算 (HPC) 和人工智能 (AI) 库交互,加速 IO,使其用于各类用例,涵盖 AI 和科学可视化等领域。

  • 数据分析
  • 高性能计算
  • 深度学习
数据分析

数据分析

目前,数据科学和机器学习 (ML) 是计算能力需求最大的领域。预测式 ML 模型的准确性即便提升微小,最少也能带来数十亿美元的价值。为提升准确性,RAPIDS 加速器库基于 UCX 构建了内置 Apache Spark shuffle,可将其配置为开启 GPU 对 GPU 通信和 RDMA 功能。NVIDIA 数据中心平台与 NVIDIA 网络、Magnum IO 软件、GPU 加速型 Spark 3.0 和 NVIDIA RAPIDS™ 相结合,具有独特的优势,能够以出色的性能和效率加速这些大规模工作负载。

 Adobe 借助 Databricks 上的 Spark 3.0,将模型训练速度提升了七倍,同时节省了 90% 的成本

 TPCx-BB 性能提升至 19.5 倍,NVIDIA DGX A100 上的 UCX 和 RAPIDS 数据科学软件随之激增

高性能计算

高性能计算

HPC 是现代科学的基石。为点燃新一代发现的火花,科学家们希望通过仿真,更好地理解复杂分子结构以支持药物发现,理解物理现象以寻找潜在的新能源,理解大气数据以更好地预测极端天气状况并为其做准备。Magnum IO 提供硬件级加速引擎和智能卸载,例如 RDMA、NVIDIA GPUDirect®和 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ 功能,同时支持 HDR 200Gb/s InfiniBand 的高带宽和超低延迟。这可以提供超高性能,以及任意规模的高效 HPC 与 ML 部署。

规模最大的交互式立体数据可视化 - 150TB 的 NASA 火星着陆器仿真

深度学习

深度学习

当今的 AI 模型需要应对对话式 AI 和深度推荐系统等新型挑战,这促使其复杂度持续呈爆炸式增长。与 ResNet-50 等图像分类模型相比,训练 NVIDIA Megatron-BERT 等对话式 AI 模型所需的算力增加了 3000 多倍。研究人员需要强大的性能和巨大的可扩展性,才能不断在 AI 领域取得突破性进展。HDR 200Gb/s InfiniBand 网络和 Magnum IO 软件堆栈结合后,可实现单集群中数千台 GPU 的高效可扩展性。

Facebook 数据中心的深度学习训练:纵向扩展和横向扩展系统的设计