NVIDIA DSX 参考设计的代际特定、经过验证的 AI 工厂架构涵盖了计算、网络、存储、设施基础结构和硬件集群设计。
NVIDIA DSX™ 统一了设计、仿真、运维和生态系统技术,帮助构建为实现最低 Token 成本而优化的 AI 工厂。
概览
NVIDIA DSX 定义了 AI 工厂在整个技术栈内的设计、构建和优化方式——从芯片和系统到基础设施软件、设施和合作伙伴技术。
DSX 将开放软件库、工作流指南和参考设计与 NVIDIA 计算平台以及共同设计的 OEM 基础设施相结合,以实现广泛的软件和硬件解决方案生态系统。
优势
NVIDIA DSX AI 工厂作为统一产品共同设计,旨在实现每兆瓦最低的 Token 成本。
技术
NVIDIA DSX 是一个涵盖多种技术的平台,合作伙伴可以利用和基于它进行构建,该平台旨在最大限度地提高 AI 工厂的每瓦特 AI Token 数。
经过验证的 AI 工厂架构,从芯片到电网
AI 工厂设计和运维的仿真
高效大规模运行 AI 工厂
动态电源管理,最大化每瓦特 Token 数
面向 AI 工厂的电网响应式电力编排
保护 IT、OT 和 AI 工厂运维的数据交换
NVIDIA AI Cloud-Ready ISV 验证计划针对 NVIDIA 云合作伙伴部署,对涵盖网络、计算、编排和 AI 平台层的基础设施软件进行评估。
资源
利用 NVIDIA 参考架构、仿真工具和生态系统软件设计和优化 AI 工厂。
探索已经过验证、符合 NVIDIA 对 AI 工厂应用的功能要求的产品。
NVIDIA DSX 是 NVIDIA 的 AI 工厂级平台。它整合了设计、仿真、运维和生态系统技术,帮助合作伙伴构建为实现最低 Token 成本而优化的 AI 工厂。DSX 涵盖芯片和系统、基础设施软件、设施以及合作伙伴技术,使 AI 工厂每瓦特能产生更多 Token。
它包括以下技术:DSX 参考设计、DSX Sim、DSX MaxLPS、DSX Flex、DSX Exchange 和 DSX 操作系统。
AI 工厂是专为 AI 工作负载打造的,注重推理性能、能效和最低的 Token 成本。NVIDIA DSX AI 工厂被协同设计为涵盖芯片、系统、网络、基础设施软件、功耗、冷却和运维的统一系统,这与通常由孤立组件组装的传统数据中心不同。
传统数据中心主要负责存储、处理、检索和提供信息。AI 工厂生成智能,将数据和能量转化为 Token、预测、仿真和 AI 赋能的输出。
NVIDIA Omniverse DSX Blueprint 是一个开放、全面的框架,用于设计和运维大规模 AI 工厂。它已在 build.nvidia.com 上正式提供,并与 NVIDIA Vera Rubin DSX AI 工厂参考设计完全兼容。
该 Blueprint 使开发者能够构建其 AI 工厂的物理精准数字孪生,实时模拟运维,并在建设或部署开始之前优化性能。它包括一个完整的 AI 工厂数字孪生、NVIDIA SimReady 资产、硬件配置、预构建的 Web UI、示例脚本、工作流指南,以及 NVIDIA CUDA-X™ 和 Omniverse 核心技术。
NVIDIA DSX 服务于广泛的多领域生态系统:NVIDIA 云合作伙伴 (NCP)、主权云以及场地/电力/机房 (LPS) 提供商;电力和冷却设备制造商;从事设计、仿真和设施运维的独立软件供应商 (ISV);原始设备制造商 (OEM) 和系统集成商;建筑、工程和施工公司;以及提供 IaaS 和 PaaS 解决方案的基础设施 ISV。
DSX 提供了一个通用设计标准,使所有各方 (从冷却液分配单元 (CDU) 制造商到 ISV) 都可以为 AI 工厂建设做出贡献,无需进行定制集成。
NVIDIA DSX 使 AI 工厂能够在相同的功耗、基础设施和运维预算下生成更多 Token,从而帮助降低 Token 成本。DSX 不将计算、冷却、功耗和运维视为独立的系统,而是将它们协调成一个集成的 AI 工厂。
DSX MaxLPS 帮助回收搁置电力,使客户能够在相同的兆瓦预算内调配多达 40% 的额外 GPU。DSX 操作系统通过自动化的集群级操作来提升正常运行时间。DSX 参考设计可加速部署,而 DSX Exchange 和 DSX Sim 有助于统一设施、功耗、冷却和计算信号,以提高吞吐量、效率和每瓦特 Token 数。
从 NVIDIA DSX 文档开始,探索用于构建 AI 工厂的参考设计、软件组件和合作伙伴集成路径。这些文档为设计、优化和运行符合 DSX 标准的基础设施提供了技术指导。