云原生超级计算

无与伦比的高效能运算和人工智能效能、
多节点租用户隔离和安全性功能。

兼具多租户隔离和裸机性能

云端原生超级运算结合高效能运算的力量及云端运算服务的安全性与易用性。NVIDIA 云端原生超级运算平台运用 NVIDIA ® BlueField® 数据处理器 (DPU) 架构和高速且低延迟的 NVIDIA ® InfiniBand 网络,以简单且安全的方式提供裸机效能、使用者管理和隔离、数据保护、随选高效能运算 (HPC)和人工智能服务。

面向未来十年甚至以后的创新

云端原生超级运算平台

超级计算机既要提供出色性能,又需要具备多租户安全性,云原生平台正是一个理想的解决方案。实现这种架构升级的关键要素就是 DPU。

DPU作为一个集数据中心于芯片的平台,它可以从主机处理器将管理数据中心基础设施的操作卸载下来,实现对于超级计算机的安全保障与编排。

通过与 NVIDIA InfiniBand 交换器相结合,此架构可提供卓越的裸机性能,同时原生支持多节点租户隔离。

云端原生超级运算平台
朝向零信任架构发展

向零信任架构发展

云原生超级计算系统的设计宗旨是在多租户环境中提供出色的性能、安全性和可编排性。

BlueField DPU 可以托管未受信任的多节点租用户,同时确保将清理过的超级运算资源交给新租用户,没有先前的残差。为实现这一点,BlueField DPU 为新调度的租户提供干净的启动镜像,执行完整的清理并重新建立信任,将存储虚拟化,并授予对已获批存储区域的访问权限。

应用程序效能加速

HPC 和 AI 的通信框架和通信库对延迟和带宽很敏感,它们直接决定着应用的性能。

将通信库从主机 CPU 或 GPU 卸载至 Bluefield DPU,可实现通信和计算操作的高度重叠,使二者并行运行。它还可以减少操作系统抖动带来的负面影响,并显著提升应用性能。这是构建新一代超级计算架构的关键。

俄亥俄州立大学的早期研究成果表明,云原生超级计算机在执行 HPC 作业时比传统超级计算机快 1.4 倍。

DPU 為 P3DFFT 提供了 1.4 倍的效能加速

应用程序效能加速

云端原生超级运算平台

NVIDIA Bluefield

NVIDIA BlueField DPU 集业界领先的 NVIDIA Mellanox ConnectX® 网卡、内置 PCIe 控制器的 一组Arm 处理器核、以及专为HPC应用量身定制的硬件加速引擎于一体,实现了在DPU芯片上对数据中心基础设施的完全可编程性。

InfiniBand

NVIDIA InfiniBand 可加速和卸载数据传输操作到网络,确保计算资源不会因缺乏数据或传输带宽而无法充分利用。InfiniBand 网络可支持在不同用户或租户之间进行分区隔离,提供安全性和 QoS 保证。

单芯片数据中心基础架构 (DOCA)

NVIDIA 单芯片数据中心基础架构 SDK 使基础设施开发者能够利用行业标准 API,在NVIDIA BlueField DPU上快速创建网络、存储、安全、管理、AI 和 HPC 等各种应用和服务。借助 DOCA,开发者可以通过创建高性能、软件定义和云原生DPU 加速的服务,对未来的超级计算基础设施进行编程。

Magnum IO

NVIDIA MAGNUM IO™ 软件开发包使开发者能够优化应用的输入/输出 (IO),从而缩短其工作流的端到端通信时间。

Magnum IO 涵盖输入/输出的所有层面,包括储存空间、网络、多 GPU 和多节点通讯。它还包含用于剖析和优化应用程序以及消除 IO 瓶颈的工具。

主要特色

  • 多租用户隔离、数据保护和安全性功能
  • 基础设施服务卸载
  • 加速通讯框架的专用硬件引擎
  • 增强的服务质量控制 (QoS)

优点

  • 提供最佳裸机效能
  • 提高 CPU 可用性、应用程序扩充性和系统效率
  • 更高的运算与通讯重叠
  • 减少干扰/系统噪音
  • 降低基础架构成本

参考技术概观,深入了解云端原生超级运算。