NVIDIA Hopper 架构

全球 AI 基础设施引擎实现数量级的性能飞跃

为新一代工作负载打造的加速计算平台。

详细了解通过 NVIDIA Hopper 架构为加速计算实现新的巨大飞跃。从小型企业到百亿亿次级高性能计算 (HPC) 和万亿参数的 AI,Hopper 架构可安全扩展每个数据中心的各种工作负载,让出色的创新者能够以人类历史上更快的速度完成工作。

准备好迎接企业 AI 了吗?

企业采用 AI 现已成为主流,企业组织需要端到端的 AI 就绪型基础设施,加快自身迈向新时代的步伐。

适用于主流服务器的 NVIDIA H100 Tensor Core GPU 随附 NVIDIA AI Enterprise 软件套件,能够以强大的性能简化 AI 的采用。

探索技术突破

Hopper 采用先进的台积电 4N 工艺制造,拥有超过 800 亿个晶体管,采用五项突破性创新技术为 NVIDIA H200H100 Tensor Core GPU 提供动力支持。在这些创新技术的加持下,新一代 Hopper 与上一代相比,在生成式 AI 训练和推理方面实现了惊人的速度提升。

Transformer 引擎

Transformer 引擎

NVIDIA Hopper 架构通过 Transformer 引擎推进 Tensor Core 技术的发展,旨在加速 AI 模型训练。Hopper Tensor Core 能够应用混合的 FP8 和 FP16 精度,以大幅加速 Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32、FP64、FP16 和 INT8 精度的每秒浮点运算 (FLOPS) 提高了 3 倍。Hopper Tensor Core 与 Transformer 引擎和第四代 NVIDIA® NVLink® 相结合,可使 HPC 和 AI 工作负载的加速实现数量级提升。

NVLink、NVSwitch 和 NVLink Switch 系统

为了满足业务活动的快节奏需求,百亿亿次级 HPC 和万亿参数的 AI 模型需要服务器集群中的每一个 GPU 之间实现平滑流畅的高速通信,以实现大规模加速。

第四代 NVLink 可通过 NVIDIA DGX™ 和 HGX™ 服务器扩展多 GPU 输入和输出 (IO),每个 GPU 的双向传输速率可达 900 GB/s,比 PCIe 5.0 的带宽高 7 倍。

第三代 NVIDIA NVSwitch™ 支持 SHARP™ 网络计算技术,打破了该技术只能通过 InfiniBand 提供的传统。此外,八卡 H200 或 H100 GPU 服务器与上一代 A100 Tensor Core GPU 系统相比,all-reduce 吞吐量增加了两倍。

配备 NVLink Switch 系统的 DGX GH200 系统支持由多达 256 个相互连接的 H200 组成的集群,同时提供 57.6 TB/s 的 all-to-all 带宽。

NVLink Switch 系统
NVIDIA 机密计算

NVIDIA 机密计算

虽然数据在存储中和在网络传输时处于加密状态,但在数据处理期间并不受保护。NVIDIA 机密计算通过保护使用中的数据和应用来弥合这一差距。NVIDIA Hopper 架构引入了具有机密计算功能的加速计算平台。

凭借强大的基于硬件的安全性,用户可以在内部、云端或边缘运行应用,并确保未经授权的实体在使用时无法查看或修改应用代码和数据。这一方面能够保护数据和应用的机密性和完整性,另一方面在用于 AI 训练、推理和 HPC 工作负载时可以实现 H200 和 H100 GPU 的大幅加速。

第二代 MIG

借助多实例 GPU (MIG),GPU 可以分割成多个较小的、完全独立的实例,并拥有自己的内存、缓存和计算核心。Hopper 架构通过多达 7 个 GPU 实例在虚拟化环境中支持多租户、多用户配置,进一步增强了 MIG,在硬件和管理程序级别使用机密计算安全地隔离每个实例。借助每个 MIG 实例的专用视频解码器,在共享基础架构上提供安全、高吞吐量的智能视频分析 (IVA)。此外,借助 Hopper 架构的并发 MIG 分析,管理员可以监控合适规模的 GPU 加速,并为用户优化资源分配。

对于工作负载较小的研究人员,不必租用完整的云服务实例,他们可以选择使用 MIG 安全地划出一部分 GPU,同时保证其数据在静态、传输和计算时安全无虞。

第二代 MIG
DPX 指令

DPX 指令

动态编程是一种算法技术,通过将复杂递归问题分解为更简单的子问题来解决。通过存储子问题的结果,您之后也不必重新计算它们,从而减少了指数级问题解决的时间和复杂性。动态编程常用于各种用例。例如,Floyd-Warshall 是一种路线优化算法,可用于绘制运输和配送车队的最短路线;Smith-Waterman 算法可用于 DNA 序列比对和蛋白质折叠应用。

Hopper 架构引入了 DPX 指令,与 CPU 相比将动态编程算法速度提高了 40 倍,与 NVIDIA 前一代 Ampere 架构 GPU 相比,则提高了 7 倍。这大幅加快了疾病诊断、实时路由优化甚至图形分析的速度。

初步规格,可能会有所变更
DPX 指令比较 HGX H100 4-GPU 与双路 32 核 IceLake CPU

深入了解 NVIDIA Hopper 架构