面向数据中心的 AI 存储生态系统
重构推理存储,开辟 AI 的下一个前沿领域。
概览
NVIDIA® CMX™ 上下文记忆存储是一个面向长上下文、多轮次和代理式 AI 推理的 AI 原生上下文层。它由 NVIDIA BlueField®‑4 存储处理器提供支持,通过共享的、针对 KV 缓存优化的 POD 级上下文层来扩展 GPU 内存。该平台提供了高带宽路径,可降低大规模推理工作负载的延迟、成本和功耗,从而帮助 NVIDIA Rubin 平台实现更高的吞吐量和更佳的能效。
产品
从加速上下文记忆和安全数据搬运到以太网结构和推理框架,NVIDIA CMX 是计算、网络、存储和软件领域极致协同设计的结晶。
产品优势
NVIDIA CMX 引入了一个专用的上下文层,与传统存储方法相比,可提高 KV 缓存密集型、长上下文工作负载的持续吞吐量和能效。
采用对 KV 缓存优化的高效存储层扩展 AI 服务,回收宝贵的能源,将数据中心的更多能源预算用于 GPU 而不是传统存储。
通过重用 CMX 层中预计算的 KV 缓存从而减少重复计算,优化数据路径并减少停滞。这可提升多轮次、代理式推理的每秒 Token 数和吞吐量。CMX 可缩短首个 Token 生成时间和末个 Token 生成时间,因此即使模型、上下文窗口和并发量不断增长,也能更快的生成答案并更快完成。
提供对 AI 原生上下文的高速、Pod 级访问,使多轮次智能体能够协调、共享状态,并随着工作负载的增长无缝扩展,同时减少节点间的 KV 缓存重复,扩展容量。
提供海量 KV 缓存容量,以便同时为多个用户提供长上下文推理、多智能体工作流、万亿参数模型和长上下文窗口。
NVIDIA STX 是面向 AI 存储的模块化参考架构,由 NVIDIA 与领先的存储合作伙伴共同设计,基于 NVIDIA 加速计算、网络和 AI 软件构建。NVIDIA STX 为构建通用数据引擎奠定了基础,可加速从训练和分析到实时代理式推理的整个 AI 生命周期。
生态系统
资源
联系 NVIDIA 企业销售团队或 NVIDIA 合作伙伴网络 (NPN) 计划中合适的合作伙伴,开始合作旅程。
与 NVIDIA 专家讨论您的业务需求。
注册以获取 NVIDIA 的最新资讯、更新等内容。