NVIDIA Hopper 架构

全球 AI 基础设施引擎实现数量级的性能飞跃。

为新一代工作负载打造的加速计算平台。

详细了解通过 NVIDIA Hopper 架构为加速计算实现新的巨大飞跃。从小型企业到百亿亿次级高性能计算 (HPC) 和万亿参数的 AI,Hopper 架构可安全扩展每个数据中心的各种工作负载,让出色的创新者能够以人类历史上更快的速度完成工作。

准备好迎接企业 AI 了吗?

企业采用 AI 现已成为主流,企业组织需要端到端的 AI 就绪型基础设施,加快自身迈向新时代的步伐。

适用于主流服务器的 NVIDIA H100 Tensor Core GPU 随附 NVIDIA AI Enterprise 软件套件,能够以强大的性能简化 AI 的采用。

探索技术突破

Hopper 采用先进的台积电 4N 工艺制造,拥有超过 800 亿个晶体管,采用五项突破性创新技术为 NVIDIA H100 Tensor Core GPU 提供动力支持。与上一代 NVIDIA Megatron 530B 聊天机器人的 AI 推理速度相比,实现了令人难以置信 30 倍提速,这是世界上最大的生成语言模型。

Transformer 引擎

Transformer 引擎

NVIDIA Hopper 架构通过 Transformer 引擎推进 Tensor Core 技术的发展,旨在加速 AI 模型训练。Hopper Tensor Core 能够应用混合的 FP8 和 FP16 精度,以大幅加速 Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32、FP64、FP16 和 INT8 精度的每秒浮点运算 (FLOPS) 提高了 3 倍。Hopper Tensor Core 与 Transformer 引擎和第四代 NVIDIA® NVLink® 相结合,可使 HPC 和 AI 工作负载的加速实现数量级提升。

NVLink Switch 系统

为了加快业务速度,百亿亿次级 HPC 和万亿参数的 AI 模型需要服务器集群中每个 GPU 之间高速、无缝的通信,以实现大规模加速。

第四代 NVLink 是一种纵向扩展互联技术。当与新的外部 NVLink 交换机结合使用时,NVLink Switch 系统现在可以跨多个服务器以每个 GPU 900 GB/s 的双向带宽扩展多 GPU IO,比 PCIe 5.0 的带宽高 7 倍。NVLink Switch 系统支持由多达 256 个相互连接的 H100 组成的集群,且带宽比 Ampere 架构上的 InfiniBand HDR 高 9 倍。

此外,NVLink 现在支持名为 SHARP 的网络计算(以前只能在 InfiniBand 上使用),并且可提供惊人的 1 exaFLOP FP8 稀疏 AI 计算能力,同时提供 57.6 TB/s 的 all-to-all 带宽。

NVLink Switch 系统
NVIDIA 机密计算

NVIDIA 机密计算

虽然数据在存储中和在网络传输时处于加密状态,但在数据处理期间并不受保护。NVIDIA 机密计算通过保护使用中的数据和应用来弥合这一差距。NVIDIA Hopper 架构引入了具有机密计算功能的加速计算平台。

凭借强大的基于硬件的安全性,用户可以在内部、云端或边缘运行应用,并确保未经授权的实体在使用时无法查看或修改应用代码和数据。这样可保护数据和应用的机密性和完整性,同时在用于 AI 训练、推理和 HPC 工作负载时实现 H100 GPU 的大幅加速。

第二代 MIG

借助多实例 GPU (MIG),GPU 可以分割成多个较小的、完全独立的实例,并拥有自己的内存、缓存和计算核心。Hopper 架构通过多达 7 个 GPU 实例在虚拟化环境中支持多租户、多用户配置,进一步增强了 MIG,在硬件和管理程序级别使用机密计算安全地隔离每个实例。借助每个 MIG 实例的专用视频解码器,在共享基础架构上提供安全、高吞吐量的智能视频分析 (IVA)。此外,借助 Hopper 架构的并发 MIG 分析,管理员可以监控合适规模的 GPU 加速,并为用户优化资源分配。

对于工作负载较小的研究人员,不必租用完整的云服务实例,他们可以选择使用 MIG 安全地划出一部分 GPU,同时保证其数据在静态、传输和计算时安全无虞。

第二代 MIG
DPX 指令

DPX 指令

动态编程是一种算法技术,通过将复杂递归问题分解为更简单的子问题来解决。通过存储子问题的结果,您之后也不必重新计算它们,从而减少了指数级问题解决的时间和复杂性。动态编程常用于各种用例。例如,Floyd-Warshall 是一种路线优化算法,可用于绘制运输和配送车队的最短路线;Smith-Waterman 算法可用于 DNA 序列比对和蛋白质折叠应用。

Hopper 架构引入了 DPX 指令,与 CPU 相比将动态编程算法速度提高了 40 倍,与 NVIDIA 前一代 Ampere 架构 GPU 相比,则提高了 7 倍。这大幅加快了疾病诊断、实时路由优化甚至图形分析的速度。

初步规格,可能会有所变更
DPX 指令比较 HGX H100 4-GPU 与双路 32 核 IceLake CPU

深入了解 NVIDIA Hopper 架构