NVIDIA HGX 平台

加速每个数据中心的 AI 和 HPC 的发展。

概览
推理
训练
网络

概览

概览
推理
训练
网络

专为 AI 和高性能计算打造

AI、复杂模拟和海量数据集需要多个 GPU，这些 GPU 要具有极快的互连速度和完全加速的软件堆栈。NVIDIA HGX™ 平台将 NVIDIA GPU、NVIDIA NVLink™、NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能，可提供更高的应用性能，并加快获得见解的速度。

卓越的端到端加速计算平台

NVIDIA HGX 系统将 NVIDIA Blackwell Ultra GPU 与高速互连技术集成，推动数据中心迈入加速计算和生成式 AI 的新时代。NVIDIA 基于 Blackwell 的 HGX 系统是一款出色的加速纵向扩展平台，推理性能比上一代产品高 11 倍，专为要求严苛的生成式 AI、数据分析和 HPC 工作负载而设计。

NVIDIA HGX 包含高级网络选项 (速度高达 800Gb/s)，使用 NVIDIA Quantum-X800 InfiniBand 和 Spectrum™-X 以太网实现卓越的 AI 性能。HGX 还包含 NVIDIA BlueField®-3 数据处理单元 (DPU)，可在超大规模 AI 云中实现云网络、可组合存储、零信任安全性和 GPU 计算弹性。

AI 推理：性能和通用性

预测性能可能会有所变化。token 到 token 延迟 (TTL) = 20 毫秒实时，第一个 token 延迟 (FTL) = 5 秒，输入序列长度 = 32,768，输出序列长度 = 1,028，8 个 8 路 HGX H100 GPU 风冷与 1 个 HGX B300 风冷，单 GPU 性能比较；使用分解推理提供服务。

实时大语言模型推理

对于 Llama 3.1 405B 等模型，HGX B300 的推理性能比上一代 NVIDIA Hopper™ 提升多达 11 倍。第二代 Transformer 引擎将定制的 Blackwell Tensor Core 技术与 TensorRT™-LLM 创新相结合，加速大语言模型 (LLM) 的推理。

AI 训练：性能和可扩展性

预测性能可能会有所变化。1 个 8 路 HGX H100 与 1 个 HGX B300，单 GPU 性能比较。

训练性能进一步提升

第二代 Transformer 引擎采用 8 位浮点 (FP8) 和新精度，可使 Llama 3.1 405B 等大语言模型的训练速度显著提升 4 倍。第五代 NVLink（1.8 TB/s 的 GPU 到 GPU 互连能力）、InfiniBand 网络和 NVIDIA Magnum IO™ 软件对这一突破起到了补充作用。这些因素共同确保了企业和广泛的 GPU 计算集群的高效可扩展性。

借助 NVIDIA 网络来加速 HGX

数据中心是新的计算单元，而网络在扩展数据中心应用性能方面发挥着不可或缺的作用。与 NVIDIA Quantum InfiniBand 搭配使用时，HGX 可提供卓越的性能和效率，确保计算资源得到充分利用。

对于部署以太网的 AI 云数据中心，最好将 HGX 与 NVIDIA Spectrum-X 网络平台结合使用，该平台可通过以太网助力实现超高 AI 性能。它采用 Spectrum-X 交换机和 NVIDIA SuperNIC，可实现最佳资源利用率和性能隔离，为数千个各种规模的并行 AI 作业提供一致、可预测的结果。Spectrum-X 可实现先进的云多租户和零信任安全性。作为参考设计，NVIDIA 设计了 Israel-1，这是一台采用基于 NVIDIA HGX 8 GPU 平台的 Dell PowerEdge XE9680 服务器、BlueField-3 SuperNIC 和 Spectrum-4 交换机构建的超大规模生成式 AI 超级计算机。

详细了解 NVIDIA Blackwell 架构。

了解详情