加速每个数据中心的 AI 和 HPC 的发展。
AI、复杂模拟和海量数据集需要多个 GPU,这些 GPU 要具有极快的互连速度和完全加速的软件堆栈。NVIDIA HGX™ 平台将 NVIDIA GPU、NVIDIA NVLink™、NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能,可提供更高的应用性能,并加快获得见解的速度。
NVIDIA HGX 系统将 NVIDIA Blackwell Ultra GPU 与高速互连技术集成,推动数据中心迈入加速计算和生成式 AI 的新时代。NVIDIA 基于 Blackwell 的 HGX 系统是一款出色的加速纵向扩展平台,推理性能比上一代产品高 11 倍,专为要求严苛的生成式 AI、数据分析和 HPC 工作负载而设计。
NVIDIA HGX 包含高级网络选项 (速度高达 800Gb/s),使用 NVIDIA Quantum-X800 InfiniBand 和 Spectrum™-X 以太网实现卓越的 AI 性能。HGX 还包含 NVIDIA BlueField®-3 数据处理单元 (DPU),可在超大规模 AI 云中实现云网络、可组合存储、零信任安全性和 GPU 计算弹性。
预测性能可能会有所变化。token 到 token 延迟 (TTL) = 20 毫秒实时,第一个 token 延迟 (FTL) = 5 秒,输入序列长度 = 32,768,输出序列长度 = 1,028,8 个 8 路 HGX H100 GPU 风冷与 1 个 HGX B300 风冷,单 GPU 性能比较;使用分解推理提供服务。
对于 Llama 3.1 405B 等模型,HGX B300 的推理性能比上一代 NVIDIA Hopper™ 提升多达 11 倍。第二代 Transformer 引擎将定制的 Blackwell Tensor Core 技术与 TensorRT™-LLM 创新相结合,加速大语言模型 (LLM) 的推理。
预测性能可能会有所变化。1 个 8 路 HGX H100 与 1 个 HGX B300,单 GPU 性能比较。
第二代 Transformer 引擎采用 8 位浮点 (FP8) 和新精度,可使 Llama 3.1 405B 等大语言模型的训练速度显著提升 4 倍。第五代 NVLink(1.8 TB/s 的 GPU 到 GPU 互连能力)、InfiniBand 网络和 NVIDIA Magnum IO™ 软件对这一突破起到了补充作用。这些因素共同确保了企业和广泛的 GPU 计算集群的高效可扩展性。
数据中心是新的计算单元,而网络在扩展数据中心应用性能方面发挥着不可或缺的作用。与 NVIDIA Quantum InfiniBand 搭配使用时,HGX 可提供卓越的性能和效率,确保计算资源得到充分利用。
对于部署以太网的 AI 云数据中心,最好将 HGX 与 NVIDIA Spectrum-X 网络平台结合使用,该平台可通过以太网助力实现超高 AI 性能。它采用 Spectrum-X 交换机和 NVIDIA SuperNIC,可实现最佳资源利用率和性能隔离,为数千个各种规模的并行 AI 作业提供一致、可预测的结果。Spectrum-X 可实现先进的云多租户和零信任安全性。作为参考设计,NVIDIA 设计了 Israel-1,这是一台采用基于 NVIDIA HGX 8 GPU 平台的 Dell PowerEdge XE9680 服务器、BlueField-3 SuperNIC 和 Spectrum-4 交换机构建的超大规模生成式 AI 超级计算机。
详细了解 NVIDIA Blackwell 架构。