云原生超级计算

安全、多租户、裸机性能,

适用于 AI、数据分析以及
HPC 应用程序。

具有多租户隔离的裸机性能

云原生超级计算将高性能计算的强大性能与云计算服务的安全性和易用性融于一体。NVIDIA 云原生超级计算平台利用 NVIDIA® BlueField® 数据处理器 (DPU) 架构和高速、低延迟的 NVIDIA Quantum InfiniBand 网络,简单安全地提供裸机性能、用户管理和隔离、数据保护和按需高性能计算 (HPC) 和 AI 服务。 

面向未来十年及以后的创新

云原生超级计算平台

为提供更出色的性能,超级计算机需要提供多租户安全性,而理想的情况是通过云原生平台实现。实现这种架构转换的关键要素是 DPU。

作为一个完全集成的片上数据中心平台,DPU 能够为主机处理器卸载和管理数据中心基础设施,实现超级计算机的安全与编排。

此架构与 NVIDIA Quantum InfiniBand 交换相结合,能够提供理想的裸机性能,同时原生支持多节点租户隔离。

云原生超级计算平台
打造零信任架构

打造零信任架构

云原生超级计算系统专为在多租户环境中实现出色性能、安全性和编排而设计。

BlueField DPU 可以托管未受信任的多节点租户,同时确保将超级计算资源完全提供给新租户,而无先前的残留。为此,BlueField DPU 为新调度的租户提供干净的启动镜像,执行完全清理和重新建立信任,虚拟化存储,并授权访问经批准的存储区域。  

应用程序性能加速

HPC 和 AI 通信框架以及通讯库对延迟和带宽很敏感,对应用程序的性能有重要影响。

将通讯库从主机 CPU 或 GPU 卸载至 Bluefield DPU,能够针对通信和计算的并行处理创建高度重叠。它还能减少操作系统抖动的负面影响,并显著提高应用程序性能。这是启用新一代超级计算架构的关键所在。

俄亥俄州立大学的早期研究成果表明,与传统超级计算机相比,云原生超级计算机执行高性能计算任务的性能可提高 1.4 倍。

DPU 可为 P3DFFT 提供 1.4 倍性能加速

高性能计算和 AI 通信框架
NVIDIA 云原生超级计算机提供裸机性能

性能隔离

NVIDIA Quantum-2 InfiniBand 平台提供创新的主动监控和拥塞管理,以实现流量隔离,几乎完全消除性能抖动,确保可预测的性能,就像应用程序在专用系统上运行一样。

云原生超级计算平台

NVIDIA Bluefield

NVIDIA BlueField DPU 将先进的 NVIDIA ConnectX® 网卡、配备 PCIe 子系统的一组 Arm 核和定制设计的高性能计算硬件加速引擎相结合,实现片上数据中心基础设施的完全可编程性。  

InfiniBand

NVIDIA Quantum InfiniBand 网络可加速并卸载数据传输,确保不会因数据或带宽限制而使计算资源“挨饿”。NVIDIA Quantum InfiniBand 网络可以在不同的用户或租户之间进行分区,提供安全性和服务质量 (QoS) 保证。  

DOCA

NVIDIA DOCA SDK 使基础设施开发者能够利用行业标准 API,在 NVIDIA BlueField DPU 上快速创建网络、存储、安全、管理以及 AI 和 HPC 等各种应用程序和服务。借助 DOCA,开发者可以通过创建高性能、软件定义和云原生 DPU 加速的服务,对未来的超级计算基础设施进行编程。

Magnum IO

NVIDIA MAGNUM IO™ 软件开发套件 (SDK) 使开发者能够优化应用程序中的输入/输出 (IO),从而减少其工作流程中的端到端时间。

Magnum IO 涵盖 IO 的方方面面,包括存储、网络、多 GPU 和多节点通信。其还包含用于配置和优化应用程序以消除 IO 瓶颈的工具。  

主要特性

  • 多租户隔离、数据保护和安全性
  • 基础设施服务卸载
  • 用于加速通信框架的专用硬件引擎
  • 服务质量提升 (QoS)

优势

  • 提供理想的裸机性能
  • 提高 CPU 可用性、应用程序可扩展性以及系统效率
  • 提高计算和通信重叠度
  • 减少抖动/系统噪音
  • 降低基础设施成本

在技术概述中详细了解云原生超级计算。