AI 基础设施的设计目标是支持 AI 模型和应用的开发、部署和管理,包含了专为提高 AI 工作负载的性能、可扩展性和效率而构建的硬件和软件技术。
AI 基础设施需要全面的全栈方法,来无缝集成计算、数据、软件框架、操作流程和网络。这确保了 AI 生命周期的每个阶段——从数据提取和模型开发到推理和持续改进——都能得到高效部署和管理,从而实现更快的创新和可扩展的性能。这些组件可能包括:
AI 基础设施专为处理训练和推理工作负载的高吞吐量、低延迟需求而构建,使用 GPU 等专用硬件、高速互连 (例如 InfiniBand 或光纤以太网) 和优化的软件堆栈。当使用对功率和冷却要求较高的高密度计算时,需要带有管理软件的机械、电气和液冷系统来实现高效运行。相比之下,传统 IT 基础设施专为通用计算、存储和网络任务而设计——支持数据库、电子邮件和企业工作负载等应用——通常依赖 CPU 和传统以太网网络。从根本上说,AI 基础设施为在众多 GPU 核心上同时执行数千项操作而优化的,而 IT 基础设施则侧重于在单服务器工作负载中实现广泛的兼容性。
AI 工厂通过一系列互连的流程和组件来运行,每个流程和组件均以优化 AI 模型的创建和部署味目标。
AI 工厂 (特别是运行 AI 推理模型的工厂) 所需的 AI 基础设施包括上述所有组件,以及高效节能和可替代的技术。软件组件具有模块化、可扩展和 API 驱动的特点,将所有部分整合成一个紧密协作的系统中。这种组合确保持了持续的更新和增长,使企业能够随着 AI 的进步而发展。
面向 AI 工厂的 AI 基础设施是紧密集成的高性能计算、存储、网络、电源和冷却组件堆栈,用于支持代理式 AI、物理 AI 以及 HPC 和 AI 工作负载的整个生命周期 — 从数据提取和预处理到训练、微调和实时推理。它通常包括 GPU 加速服务器、高带宽、低延迟的互连技术 (如 InfiniBand 或以太网)、快速存储系统、配电系统、冷却系统和编排软件。该基础设施专为提高可扩展性和效率而构建,构成 AI 工厂的数字装配线,能够持续迭代和部署日益智能的模型。
AI 需要跳出传统的企业 IT 基础设施的约束,因为它需要专门的硬件、软件以及 AI 算法——这些技术高度依赖于并行处理和加速计算的算力。传统的非加速数据中心无法有效应对 AI 工作负载日益增长的需求,这些工作负载通常涉对可快速访问的海量数据进行处理和分析。
现代 AI 基础设施需要能够高效存储和检索海量数据的高容量、高性能存储解决方案。因此,构建专为 AI 量身定制的专用存储基础设施变得势在必行,而不是试图重新利用现有存储基础设施。专为加速基础设施而构建的 AI 软件对于在整个 AI 工作流中提供最高吞吐量的同时节省成本是必不可少的。
投资能够应对未来未知工作负载的基础设施,是长期 AI 战略的重要组成部分。借助加速计算 (使用 GPU 的并行处理能力),不仅可以提高高负载应用的运行速度,同时从长远来看,还能提高能效并节约成本。
基于云的解决方案有助于经济高效地启动 AI 计划,不仅可降低采购成本,还可将资本支出 (CapEx) 转变为运营支出 (OpEx)。然而,虽然云解决方案的初始成本可能较低,但长期费用可能会增加。IT 领导者应评估一段时间内的总拥有成本 (TCO),并考虑数据存储、计算资源和持续维护等因素。
总的来说,将投资回报率 (ROI) 而不是初始 TCO 视为关键指标,这一点非常重要。构建 AI 基础设施需要专用资源、周密规划以及对云和本地解决方案的考量。通过合理结合全栈优化技术和策略,企业能够应对构建 AI 基础设施过程中的挑战,并获得成功。
首先,请查看数据中心和 AI 基础设施中心。您将找到使用 NVIDIA 全栈解决方案优化数据中心和 AI 工厂的相关资源。