什么是 AI 基础设施？

AI 基础设施的设计目标是支持 AI 模型和应用的开发、部署和管理，包含了专为提高 AI 工作负载的性能、可扩展性和效率而构建的硬件和软件技术。

AI 基础设施由哪些部分组成？

AI 基础设施需要全面的全栈方法，来无缝集成计算、数据、软件框架、操作流程和网络。这确保了 AI 生命周期的每个阶段——从数据提取和模型开发到推理和持续改进——都能得到高效部署和管理，从而实现更快的创新和可扩展的性能。这些组件可能包括：

加速计算资源：
- 高性能 CPU 和 GPU
- 本地服务器和/或基于云的计算实例
- 用于低延迟或带宽受限环境中的本地推理的边缘计算设备
高效节能的基础设施：
- 先进的光子学和光刻技术
- 液冷和散热，提升能效和降低水资源消耗
- 数据中心电气系统创新和设计
- 电网协调和灵活性
- 集成 OT (运营技术) 和 IT (信息技术) 管理系统，用于协调监控和运行 AI 工厂的电力和冷却系统
数据存储和管理：
- 用于存储结构化和非结构化数据的数据湖和数据仓库
- 可扩展存储系统 (例如对象存储、分布式文件系统)
- 用于专业数据处理的数据库解决方案
- 数据工作流和提取框架
- 数据版本化和编目，实现数据的可追溯性并强化数据治理能力
网络和连接：
- GPU 之间的高效带宽、低延迟通信
- 无损远程直接内存访问 (RDMA) 网络
- 具有低尾延迟的确定性、可预测性能
- 专为 AI 或 InfiniBand 构建的以太网
软件开发框架：
- 深度学习库
- 机器学习库
- 分布式训练框架
- 数据处理框架
- 大语言模型和生成式 AI 库
用于大规模生产推理的软件
- 集群管理
- 容器 (例如 Docker) 和编排系统 (例如 Kubernetes)
- 高效且高性能的推理栈
MLOps 平台：
- 针对 AI 工作流量身定制的持续集成/持续交付 (CI/CD) 流水线
- 模型服务平台
- 实验跟踪和版本控制
- 模型性能监控和可观察性工具
- 自动化模型再训练和模型漂移检测解决方案

AI 基础设施与 IT 基础设施有什么区别？

AI 基础设施专为处理训练和推理工作负载的高吞吐量、低延迟需求而构建，使用 GPU 等专用硬件、高速互连 (例如 InfiniBand 或光纤以太网) 和优化的软件堆栈。当使用对功率和冷却要求较高的高密度计算时，需要带有管理软件的机械、电气和液冷系统来实现高效运行。相比之下，传统 IT 基础设施专为通用计算、存储和网络任务而设计——支持数据库、电子邮件和企业工作负载等应用——通常依赖 CPU 和传统以太网网络。从根本上说，AI 基础设施为在众多 GPU 核心上同时执行数千项操作而优化的，而 IT 基础设施则侧重于在单服务器工作负载中实现广泛的兼容性。

适用于 AI 工厂的 AI 基础设施

AI 工厂通过一系列互连的流程和组件来运行，每个流程和组件均以优化 AI 模型的创建和部署味目标。

AI 工厂 (特别是运行 AI 推理模型的工厂) 所需的 AI 基础设施包括上述所有组件，以及高效节能和可替代的技术。软件组件具有模块化、可扩展和 API 驱动的特点，将所有部分整合成一个紧密协作的系统中。这种组合确保持了持续的更新和增长，使企业能够随着 AI 的进步而发展。

面向 AI 工厂的 AI 基础设施是紧密集成的高性能计算、存储、网络、电源和冷却组件堆栈，用于支持代理式 AI、物理 AI 以及 HPC 和 AI 工作负载的整个生命周期 — 从数据提取和预处理到训练、微调和实时推理。它通常包括 GPU 加速服务器、高带宽、低延迟的互连技术 (如 InfiniBand 或以太网)、快速存储系统、配电系统、冷却系统和编排软件。该基础设施专为提高可扩展性和效率而构建，构成 AI 工厂的数字装配线，能够持续迭代和部署日益智能的模型。

AI 基础设施如何支持全面的 AI 战略？

AI 需要跳出传统的企业 IT 基础设施的约束，因为它需要专门的硬件、软件以及 AI 算法——这些技术高度依赖于并行处理和加速计算的算力。传统的非加速数据中心无法有效应对 AI 工作负载日益增长的需求，这些工作负载通常涉对可快速访问的海量数据进行处理和分析。

现代 AI 基础设施需要能够高效存储和检索海量数据的高容量、高性能存储解决方案。因此，构建专为 AI 量身定制的专用存储基础设施变得势在必行，而不是试图重新利用现有存储基础设施。专为加速基础设施而构建的 AI 软件对于在整个 AI 工作流中提供最高吞吐量的同时节省成本是必不可少的。

AI 基础设施的成本是多少？

投资能够应对未来未知工作负载的基础设施，是长期 AI 战略的重要组成部分。借助加速计算 (使用 GPU 的并行处理能力)，不仅可以提高高负载应用的运行速度，同时从长远来看，还能提高能效并节约成本。

基于云的解决方案有助于经济高效地启动 AI 计划，不仅可降低采购成本，还可将资本支出 (CapEx) 转变为运营支出 (OpEx)。然而，虽然云解决方案的初始成本可能较低，但长期费用可能会增加。IT 领导者应评估一段时间内的总拥有成本 (TCO)，并考虑数据存储、计算资源和持续维护等因素。

总的来说，将投资回报率 (ROI) 而不是初始 TCO 视为关键指标，这一点非常重要。构建 AI 基础设施需要专用资源、周密规划以及对云和本地解决方案的考量。通过合理结合全栈优化技术和策略，企业能够应对构建 AI 基础设施过程中的挑战，并获得成功。

开始使用 NVIDIA AI 基础设施

首先，请查看数据中心和 AI 基础设施中心。您将找到使用 NVIDIA 全栈解决方案优化数据中心和 AI 工厂的相关资源。

后续步骤

了解 NVIDIA AI 工厂

加速和部署专为 AI 工厂构建的全栈 AI 基础设施。

了解详情

使用 NVIDIA 参考架构进行构建

使用 NVIDIA 企业参考架构构建可扩展、高性能且安全的 AI 基础设施，从而优化效率并确保 AI 工厂可以应对计算密集型需求。

了解详情

体验 NVIDIA DGX™ 平台的优势

NVIDIA AI 的精华，尽在一处呈现。

了解详情