塑造新一代 AI。
概览
NVIDIA Vera Rubin 平台专为代理式 AI 和推理时代而构建,用于应对大规模多步骤问题求解和长上下文工作流。通过消除通信和内存移动中的关键瓶颈,Vera Rubin 平台显著提升了推理能力,与 NVIDIA Blackwell 架构产品相比,实现了每瓦更多 Token 输出,并降低了每 Token 成本。
Rubin GPU 采用了全新的 Transformer 引擎 (TE),该引擎j具备硬件加速的自适应压缩功能,可在保持准确性的同时提升 NVFP4 性能,实现高达 50 petaFLOPS 的 NVFP4 推理。此 Transformer 引擎与 NVIDIA Blackwell 完全兼容,可确保无缝升级,因此之前优化的代码可轻松迁移到 Vera Rubin 平台。
NVIDIA 机密计算的第三代产品通过 NVIDIA Vera Rubin NVL72 将安全性扩展到整机架规模。这个平台在所有 36 个 NVIDIA Vera CPU、72 个 NVIDIA Rubin GPU 以及无缝连接它们的 NVIDIA NVLink™ 互连结构之间创建了一个统一、可信的执行环境。该平台可跨 CPU、GPU 和 NVLink 域保持数据安全。通过提供用于合规性加密验证服务,在实现超大规模扩展的同时确保无妥协的安全防护,为全球规模最大的专有模型、训练数据及推理工作负载提供全方位保护。
第六代 NVLink 实现了 NVIDIA 高速 GPU 互联结构的重大飞跃,将 72 颗 NVIDIA Rubin GPU 整合到一个性能域中。借助 Rubin GPU,NVIDIA Blackwell 的性能增长了一倍,可为每个 GPU 提供 3.6 TB/s 的带宽和 260 TB/s 的低延迟连接,以实现更快的通信。NVIDIA®(SHARP™)技术可将集合运算的网络拥塞降低多达 50%,结合该技术,这种新一代互连可在大规模环境下加速全球最大模型的训练和推理,且性能不打折扣。
NVIDIA Vera Rubin平台凭借先进的可靠性功能提供机架级高韧性。NVIDIA Rubin GPU 配备专用的第二代 RAS 引擎,可实现主动维护和实时健康检查,且无需停机。NVIDIA Vera CPU则通过小型化压缩附加内存模组 (SOCAMM) LPDDR5X 和对 CPU 核心的系统内测试,增强了可维护性。 该机架引入了模块化、无电缆的托盘设计,相比 NVIDIA Blackwell 提升了组装和维护速度 18 倍。同时,它结合了智能弹性功能和软件定义的 NVLink 路由,确保持续运行并降低维护成本。
NVIDIA Vera CPU 专为跨加速系统的数据移动和代理式推理而设计,提供全面的机密计算支持。它与 NVIDIA GPU 无缝配合,或独立运行在分析、云计算、编排、存储和高性能计算 (HPC) 工作负载上。Vera 集成了 88 个 NVIDIA 设计的核心、速度快达 1.2 TB/s 的 LPDDR5X 显存带宽和 NVIDIA 可扩展一致性网络,为数据和内存密集型工作负载提供可预测、高能效的性能,并完全兼容 Arm®。集成了 NVIDIA NVLink®-C2C 互连技术支持高带宽、一致性的 CPU–GPU 内存访问,从而最大限度提高系统利用率和效率。
阅读技术博客,了解 NVIDIA Vera Rubin 如何将数据中心而非芯片作为计算单元,为高效、安全、可预测的大规模智能生产奠定新的基础。