NVIDIA CMX 上下文记忆存储平台

面向数据中心的 AI 存储生态系统

NVIDIA CMX 上下文记忆存储平台

重构推理存储,开辟 AI 的下一个前沿领域。

概览

AI 原生存储加速大规模长上下文推理

NVIDIA® CMX™ 上下文记忆存储是一个面向长上下文、多轮次和代理式 AI 推理的 AI 原生上下文层。它由 NVIDIA BlueField®‑4 存储处理器提供支持,通过共享的、针对 KV 缓存优化的 POD 级上下文层来扩展 GPU 内存。该平台提供了高带宽路径,可降低大规模推理工作负载的延迟、成本和功耗,从而帮助 NVIDIA Rubin 平台实现更高的吞吐量和更佳的能效。

NVIDIA BlueField-4 助力新型 AI 原生存储,开辟 AI 的下一个前沿领域

NVIDIA CMX 助力扩展 GPU 容量,并在机架级 AI 系统中实现高带宽 KV 缓存共享。与传统存储相比,它可为长上下文、多轮次推理提供更高的吞吐量和更好的能效。

隆重推出基于 NVIDIA BlueField-4 的上下文记忆存储平台,开辟 AI 的下一个前沿领域

NVIDIA CMX 采用 NVIDIA BlueField‑4、DOCA™ 和 Spectrum‑X™ 以太网来添加 POD 级上下文记忆层,为长上下文、代理式 AI 推理提供更高的吞吐和能效。

产品

端到端集成的 AI 原生存储基础设施

从加速上下文记忆和安全数据搬运到以太网结构和推理框架,NVIDIA CMX 是计算、网络、存储和软件领域极致协同设计的结晶。

NVIDIA BlueField-4

NVIDIA BlueField 平台提供突破性的性能、效率和创新,加速 NVIDIA CMX。BlueField-4 管理非易失性存储器 (NVMe) 固态硬盘 (SSD),运行存储服务,并高能效地卸载 KV 缓存的数据完整性和加密计算任务。其先进的计算能力以及软件定义的硬件加速器,加速网络、存储和安全,打造了一个安全、高能效、适合各类工作负载的基础设施。

NVIDIA DOCA Memos

NVIDIA DOCA Memos 是面向 BlueField-4 和 CMX 优化的 SDK,可在 AI 计算节点和 CMX 数据节点之间管理和共享 KV 缓存,提供简单的键值 API,将以太网连接的闪存资源转变为 POD 级缓存层。它提供安全、低延迟的访问,对数据完整性和加密计算进行硬件加速,使应用保持无状态运行,而 CMX 处理大规模场景下的 KV 缓存路由和数据复用。

NVIDIA Spectrum-X 以太网网络

NVIDIA Spectrum-X 以太网提供高性能远程直接内存访问 (RDMA) 网络,支持对 Pod 内的 AI 原生 KV 缓存进行低延迟、高带宽的访问。Spectrum-X 以太网专为 AI 构建,采用先进的拥塞控制、动态路由和无损 RoCE 技术,最大限度地减少抖动和尾延迟,在大型多租户环境中提供一致、可重复的性能。这助力 CMX 以可预测的高性能进行扩展,最大限度地提升多轮次、代理式推理工作负载的吞吐量和响应能力。

NVIDIA Dynamo

NVIDIA Dynamo 是一个分布式推理服务框架,使 CMX 和底层上下文存储层在 Pod 中无缝呈现,将请求路由到 KV 缓存的位置。通过在服务层处理 KV 感知放置和复用,Dynamo 可提高每秒 Token 量、缩短首 Token 的生成时间,并支持 Pod 范围的上下文复用,以处理多轮次、多智能体工作负载。

产品优势

适用于长上下文 AI 的加速上下文记忆

NVIDIA CMX 引入了一个专用的上下文层,与传统存储方法相比,可提高 KV 缓存密集型、长上下文工作负载的持续吞吐量和能效。

为十亿瓦级 AI 回收能源

采用对 KV 缓存优化的高效存储层扩展 AI 服务,回收宝贵的能源,将数据中心的更多能源预算用于 GPU 而不是传统存储。

最大限度地提高 GPU 利用率、吞吐量和响应能力

通过重用 CMX 层中预计算的 KV 缓存从而减少重复计算,优化数据路径并减少停滞。这可提升多轮次、代理式推理的每秒 Token 数和吞吐量。CMX 可缩短首个 Token 生成时间和末个 Token 生成时间,因此即使模型、上下文窗口和并发量不断增长,也能更快的生成答案并更快完成。

在 AI Pod 中实现智能、高效的 KV 缓存共享

提供对 AI 原生上下文的高速、Pod 级访问,使多轮次智能体能够协调、共享状态,并随着工作负载的增长无缝扩展,同时减少节点间的 KV 缓存重复,扩展容量。

扩展 GPU 容量以支持长上下文推理

提供海量 KV 缓存容量,以便同时为多个用户提供长上下文推理、多智能体工作流、万亿参数模型和长上下文窗口。

NVIDIA STX

NVIDIA STX 是面向 AI 存储的模块化参考架构,由 NVIDIA 与领先的存储合作伙伴共同设计,基于 NVIDIA 加速计算、网络和 AI 软件构建。NVIDIA STX 为构建通用数据引擎奠定了基础,可加速从训练和分析到实时代理式推理的整个 AI 生命周期。

生态系统

NVIDIA CMX 上下文记忆存储合作伙伴

资源

上下文时代的基石

NVIDIA BlueField-4 STX 存储平台已发布,并已获得广泛的业界采用

NVIDIA STX 是一个模块化 AI 存储参考架构,与业界领先的供应商共同开发,基于 NVIDIA 加速计算、网络和 AI 软件构建。了解它如何为 NVIDIA BlueField‑4 STX 存储平台提供支持,为代理式 AI 和 AI 数据基础设施提供强大动力。

隆重推出基于 NVIDIA BlueField-4 的上下文记忆存储平台

一种新型的 AI 原生存储基础设施,使用 BlueField 消除推理过程中的 GPU 停滞、提高能效并实现高速 KV 共享,助力推理基础设施扩展。

NVIDIA CMX 上下文内存存储平台解决方案概述

NVIDIA CMX 提供了优化的高带宽路径,相比通用存储方法降低了延迟、成本和功耗开销,助力实现高达 5 倍的吞吐量提升和 5 倍的能效提升。

开始体验

与 NVIDIA 专家合作

联系 NVIDIA 企业销售团队或 NVIDIA 合作伙伴网络 (NPN) 计划中合适的合作伙伴,开始合作旅程。

需要帮助选择合适的合作伙伴或产品吗?

与 NVIDIA 专家讨论您的业务需求。

及时了解 NVIDIA 新闻

注册以获取 NVIDIA 的最新资讯、更新等内容。