NVIDIA Grace CPU 超级芯片

NVIDIA Grace CPU

面向现代数据中心的突破性 CPU。

为满足当今 AI 数据中心性能和效率需求而设计

NVIDIA Grace™ CPU 专为处理海量数据产生智能并实现卓越能效的新型数据中心而设计。这些数据中心可运行各种工作负载,包括 AI、数据分析、超大规模云应用以及高性能计算 (HPC)。与当今的前沿服务器相比,NVIDIA Grace 可提供每瓦两倍的性能、两倍的封装密度和超高内存带宽,以满足数据中心极为严苛的需求。

Grace CPU 集成 72 个高性能、高能效的 Arm® Neoverse™ V2 核心,并通过 NVIDIA 可扩展一致性结构 (SCF) 相连接,提供 3.2 TB/s 对分带宽 — 是传统 CPU 的两倍,可在提供超高性能的同时,保持与 Arm 生态系统完全兼容。Grace 是首个采用服务器级高速 LPDDR5X 显存的数据中心级 CPU,其宽内存子系统提供最高达 500 GB/秒的带宽,在成本相近的情况下,功耗仅为传统 DDR 内存的五分之一。

面向开发者的 NVIDIA Grace CPU

探索我们专为 NVIDIA Grace CPU 产品系列打造的开发者工具。查找资源、说明、驱动程序等。

了解 NVIDIA Grace CPU

NVIDIA Grace CPU 超级芯片

NVIDIA Grace CPU 超级芯片

Grace CPU 超级芯片由两个 Grace CPU 芯片组成,通过 NVIDIA NVLink™ 芯片间互连 (C2C) 技术以每秒 900 GB 的带宽实现连接一致性。它将 144 个 Neoverse V2 核心封装到单一模块中,且配备服务器级 LPDDR5X 显存,提供最高达 1 TB/秒的显存带宽。Grace CPU 超级芯片是紧凑型双路服务器的核心模块,可在与传统 DDR5 内存服务器 CPU 相同的功耗下提供两倍性能。

NVIDIA Grace CPU C1

NVIDIA Grace CPU C1

NVIDIA Grace C1 是一款高性能单路服务器平台,专为超大规模云、内容分发网络 (CDN)、存储、电信等可扩展平台和边缘平台,以及其他高性能边缘平台进行了优化,且不会牺牲性能或带宽。该平台在保持高端 x86 性能水平的同时,其 Grace CPU 与 LPDDR5X 显存配置的功耗介于 140 W 至 250 W 区间,而同类 x86 平台的功耗普遍超过 400 W。得益于 NVIDIA 设计的可扩展的一致性结构,Grace CPU 具备主流 x86 平台的 2 倍能效。

亮点

借助 Grace CPU 将数据中心的输出能力提高一倍,或将能耗降低一半

图形分析

3x

数据分析

2x

天气预测

2x

微服务

1.6x

NVIDIA Grace 超级芯片 480 GB LPDDR5X,AMD EPYC 9654 768 GB DDR5。操作系统:Ubuntu 22.04 编译器:GCC 12.3(除非下方另有说明)。能效计算包含 CPU + 内存的实测功耗。图形分析:GAP 基准测试套件 BFS arXiv:1508.03619 [cs.DC],2015 年。数据分析:HiBench+K-means Spark(HiBench 7.1.1,Hadoop 3.3.3,Spark 3.3.0;Grace:NVHPC 24.5,x86:英特尔 2021.4)天气预测:ICON QUBICC 80 km 分辨率 NVHPC 24.5 (Grace) ICC 2021.4 (x86) 微服务:Google Protobufs(Commit 7cd0b6fbf1643943560d8a9fe553fd206190b27f | N 个并行实例)

NVIDIA Grace CPU 超级芯片图形分析

图形分析

NVIDIA Grace CPU 超级芯片通过定制的 NVIDIA Scaled Coherency 网络连接 Arm Neoverse V2 核心,可为 GapBS 广度优先搜索等需要高强度核心间通信与同步的负载提供极快的性能。与主流 x86 系统相比,NVIDIA Grace 可提供 2 倍以上的服务器级性能提升以及 3 倍能效提升。

NVIDIA Grace CPU 超级芯片数据分析

数据分析

随着数据的持续增长,为了确保竞争力,企业需要更大限度地从数据中学习。HiBench 测试套件通过 K-means 聚类算法实现知识发现与数据挖掘,并充分发挥 NVIDIA Grace CPU 的高带宽低功耗内存优势。与当今市场上的主流 x86 CPU 相比,Grace CPU 可提供 2 倍以上的能效提升。

面向高性能计算 (HPC) 的天气预测模型

天气预测

天气预测模型是高性能计算 (HPC) 的重要用例,对于理解和应对气候变化导致的天气模式变化具有重要意义。Grace CPU 上高带宽、高能效的 LPDDR5X 内存能够以低至约 16W 的功耗提供高达 500 GB/s 的带宽,得益于此,Grace 在与现有 x86 解决方案相同的功率下,可完成近两倍于后者的工作量。

NVIDIA Grace CPU 提供领先的性能和能效

微服务

微服务是一组小型独立服务的集合,可帮助数据中心轻松扩展以满足需求。它们还可以在不影响整个应用的情况下,为单个服务的管理提供灵活性。Google Protobufs 能够通过测量系统序列化与反序列化数据的速度,评估微服务架构中跨系统数据交互的关键性能指标。NVIDIA Grace CPU 的高性能和高能效提供了领先的性能和能效,能够更大限度地提高数据中心的吞吐量。

特性

技术突破

Arm Neoverse V2 核心

Arm Neoverse V2 核心

Grace CPU 的核心是 Arm Neoverse V2 CPU 核心,这是当今市场上性能最高的 Arm 数据中心核心。Neoverse V2 核心经过优化,可提供领先的单核性能,能效与传统 CPU 相比实现大幅飞跃。Grace CPU 集成 72 个核心,在与 LPDDR5X 显存与 NVIDIA Scaled Coherence Fabric 的配合下,能够在与主流 x86 CPU 相同的功耗下提供两倍于后者的性能。

NVIDIA 可扩展一致性结构

NVIDIA 可扩展一致性结构

NVIDIA 可扩展一致性网络 (SCF) 是 NVIDIA 设计的网格网络和分布式缓存架构,旨在以高能效和小面积的方式应对核心扩展与带宽提升方面的挑战。SCF 提供超过 3.2 TB/秒的总对分带宽,是传统 CPU 的两倍,以确保 CPU 核心、内存和系统 I/O 之间的数据高效流动。SCF 可有效缓解数据密集型应用(如图形分析)中的传输瓶颈,使 NVIDIA Grace 实现与主流 x86 服务器相比最高达 2 倍的性能提升。

LPDDR5X 显存

LPDDR5X 显存

NVIDIA Grace 是首款使用 LPDDR5X 内存的服务器 CPU,通过纠错码 (ECC) 等机制实现服务器级可靠性。NVIDIA Grace 中的 LPDDR5X 显存可有效实现成本、功耗、带宽和容量的平衡。它能够以低至约 16 W(约为传统 DDR5 显存的五分之一)的功率提供最高达 500 GB/秒的传输速率。

单路与双路

单路与双路

NVIDIA Grace CPU 产品组合中包括 Grace 超级芯片,它是紧凑型双路服务器的核心模块,集成 144 个 Neoverse V2 核心与最高达 960 GB 的 LPDDR5X,CPU 和内存总功耗仅为 500 W。为了提供额外的灵活性,Grace CPU C1 通过单路配置实现出众性能,72 个 Arm Neoverse V2 核心由超高速的 NVIDIA 可扩展一致性互连结构连接,针对云、存储、边缘和电信部署进行优化,与传统 x86 服务器相比,可实现最高达 2 倍的每瓦性能提升。

新闻

NVIDIA Grace CPU 超级芯片

NVIDIA Grace CPU 实现全球顶级数据中心性能和突破性能效优势

NVIDIA 将 NVIDIA Grace CPU 设计为新型高性能数据中心级 CPU — 专为实现突破性能效而打造,并针对数据中心级规模的计算任务进行了深度优化。

NVIDIA Grace CPU 超级芯片与 NVIDIA Grace C1

NVIDIA Grace CPU 与 Arm 软件生态系统集成

由于数据中心面临越来越严格的功耗限制,因此加速尽可能多工作负载,并在具有最佳能效的计算平台上运行剩余任务已成为关键。Grace CPU 经过优化,既可以处理加速任务,也可以处理纯 CPU 负载,在与传统 CPU 相同的功率下,可实现最高达 2 倍的性能提升。

NVIDIA Grace CPU 超级芯片

聚焦:Petrobras 利用 NVIDIA Grace CPU 加速用于油藏模拟的线性求解器

本篇博客展示了 NVIDIA Grace CPU 在石油勘探线性系统求解工作流中的卓越表现,相较于传统的 x86 架构 CPU,Petrobras 得以将求解时间缩短 4.5 倍,能效提高 4.3 倍,可扩展性提高 1.5 倍。

规格

Grace CPU 规格

  NVIDIA Grace CPU C1 NVIDIA Grace CPU Superchip
Configuration 1x Grace CPU 2x Grace CPU
Core Count 72 Arm Neoverse V2 Cores with 4x 128b SVE2 144 Arm Neoverse V2 Cores with 4x 128b SVE2
L1 cache 64KB i-cache + 64KB d-cache per core 64KB i-cache + 64KB d-cache per core
L2 cache 1MB per core 1MB per core
L3 cache 114MB 228MB
LPDDR5X size 120GB, 240GB and 480GB on-module memory options available 240GB, 480GB and 960GB options available
Memory bandwidth Up to 384 GB/s for 480GB
Up to 512 GB/s for 120GB, 240GB
Up to 768 GB/s for 960GB
Up to 1024 GB/s for 240GB, 480GB
NVLink-C2C bandwidth n/a Up to 900 GB/s
PCIe Links Up to 4x PCIe Gen 5x16 with option to bifurcate Up to 8x PCIe Gen 5x16 with option to bifurcate