NVIDIA Run:ai

用于 AI 工作负载和 GPU 编排的企业级平台。

开始体验

文档 | 解决方案概述 | 查找合作伙伴

概览
特性
性能
解决方案
优势
用例
技术
合作伙伴
后续步骤

概览
特性
性能
解决方案
优势
用例
技术
合作伙伴
后续步骤

与我们交流

概览

借助动态编排加速 AI 工作流

NVIDIA Run:ai 通过动态资源分配、全面的 AI 生命周期支持和战略资源管理来解决关键的基础设施挑战，从而加速 AI 和机器学习操作。通过跨环境汇集资源并利用高级编排，NVIDIA Run:ai 显著提高了 GPU 效率和工作负载容量。NVIDIA Run:ai 支持公有云、私有云、混合环境或本地部署数据中心，提供无与伦比的灵活性和适应性。

什么是智能编排？

了解 AI 原生工作负载编排如何最大限度地提高 GPU 效率，简化 AI 基础设施管理，以及如何在混合云和多云环境中无缝扩展 AI 工作负载。

阅读解决方案概览

什么是 NVIDIA Run:ai？

NVIDIA Run:ai 在整个 AI 生命周期内通过动态编排加速 AI 操作，最大限度地提高 GPU 效率，扩展工作负载，并无缝集成到混合 AI 基础设施中，无需人工干预。

NVIDIA Run:ai 提供无缝贯穿 AI 生命周期，通过 GPU 编排进行高级 AI 工作负载编排，以及强大的策略引擎，将资源管理转变为战略资产，确保资源利用率优化并与业务目标保持一致。

适用于可扩展 AI 运营的 NVIDIA Run:ai

NVIDIA Run:ai 现已成为 NVIDIA AI Enterprise 的一部分，可简化大规模运行 AI 工作负载的流程。它可更大限度地提高 GPU 利用率，提高工作负载吞吐量，并集中管理策略和治理，从而在训练、实验和推理中提供安全、可靠和高效的 AI 运营。

了解详情

特性

AI 工作负载和 GPU 编排，以大规模构建、训练和部署 AI 工作负载

AI 原生工作负载编排

跨分布式环境集中和自动执行 AI 工作负载，将分散的基础设施转变为可扩展的 AI 工厂。

动态 GPU 分配

通过实时动态匹配资源与工作负载需求，确保每个 GPU 都能提供最大价值。

策略驱动型治理

通过策略驱动的集中式治理，安全高效地跨部门、项目和团队运行 AI 工作负载，确保公平、优先且可靠地访问 GPU 资源。

开放式体系架构

NVIDIA Run:ai 采用 API 优先方法，可确保与所有主要 AI 框架、机器学习工具和第三方解决方案无缝集成。

性能

现实世界中的 AI 加速：经过验证的大规模 GPU 编排

动态调度和编排可加速 AI 吞吐量、实现无缝扩展并更大限度地提高 GPU 利用率。

10 倍

GPU 可用性

20 倍

运行中的工作负载

5 倍

GPU 利用率

人工干预

解决方案

来自 NVIDIA Run:ai 的开源解决方案

借助 KAI Scheduler 在 Kubernetes 上大规模、公平高效地 AI 工作负载调度

开源 KAI Scheduler 基于 NVIDIA Run:ai，与常见的 Kubernetes 技术集成，利用 YAML 文件轻松灵活地管理 AI 工作负载。非常适合开发者和小型团队，为 AI 资源的编排提供了高效的解决方案。

无缝、开源、Kubernetes 调度

使用 Grove 在 Kubernetes 上提供拓扑优化服务

Grove 在 Kubernetes 上连接 AI 推理框架和调度，通过统一的自定义资源实现相互依赖组件的高效扩展和声明式启动顺序。Grove 会自动生成调度约束，KAI Scheduler 等 Kubernetes 调度程序可将其解释为拓扑感知型帮式调度部署。作为 NVIDIA Dynamo 的模块化组件，Grove 还可以独立运行或与其他推理框架集成。

了解 Grove 的工作原理

借助 NVIDIA Run:ai Model Streamer，将模型加载时间从几分钟缩短到几秒钟

Model Streamer 是一款具有高性能 C++ 后端的 Python SDK，用于加速推理工作负载中的模型加载。它使用多个线程同时从任何存储类型中读取张量，同时将其直接传输到 GPU 显存。通过使可用的存储带宽饱和，Model Streamer 可显著减少加载模型所需的时间。

查看基准测试结果

优势

释放 AI 基础设施的全部潜力

NVIDIA Run:ai 专为 AI 调度和基础设施管理而打造，可在 AI 整个生命周期中加速 AI 工作负载，缩短价值实现时间。

更大限度地提高 GPU 利用率，最大限度地降低成本，并提高 AI 效率

NVIDIA Run:ai 在混合环境中动态地汇集和编排 GPU 资源。通过消除浪费、最大限度地利用资源，并将计算能力与业务优先级保持一致，企业实现了卓越的投资回报率，降低了运营成本，并快速扩展 AI 计划。

从开发到部署无缝加速 AI

NVIDIA Run:ai 可在 AI 生命周期中实现从开发到训练和部署的无缝过渡。通过编排资源并将不同的 AI 工具集成到统一的工作流中，该平台可减少瓶颈，缩短开发周期，并更快地将 AI 解决方案扩展到生产环境中，从而取得切实的业务成果。

集中式编排以实现全面 AI 控制

NVIDIA Run:ai 提供对分布式 AI 基础设施、工作负载和用户的端到端可视化和控制。该技术的集中式编排整合来自云端、本地部署和混合环境的资源，为企业提供可行的见解、策略驱动式治理和精细资源管理，从而实现高效和可扩展的 AI 运营。

跨越各种环境灵活集成

NVIDIA Run:ai 以卓越的灵活性和可用性为现代 AI 工厂提供支持。其开放式体系架构可与任何机器学习工具、框架或基础设施无缝集成，无论是在公有云、私有云、混合环境中，亦或本地部署数据中心。

用例

借助智能编排加速 AI 工作负载

NVIDIA Run:ai 专为 AI 工作负载而打造，可提供智能编排，最大限度地提高计算效率，并动态扩展 AI 训练和推理。

扩展 AI
分片推理
缓解冷启动问题

企业 AI 加速

NVIDIA Run:ai 帮助企业高效扩展 AI 工作负载，从而降低成本并改善 AI 开发周期。通过动态分配 GPU 资源，企业组织可更大限度地提高计算利用率，减少空闲时间，并加速机器学习计划。NVIDIA Run:ai 还通过提供统一的管理界面简化 AI 运营，实现数据科学家、工程师和 IT 团队之间的无缝协作。

观看视频 (08:02)

更大限度地提高 Token 吞吐量

在共享 GPU 基础设施上同时运行各种 AI 工作负载，以大幅提高总吞吐量和利用率。通过对推理、嵌入、生成任务进行 GPU 分片分配，企业可以并行运行更多模型，且不会出现资源争抢。与单模型、全 GPU 执行相比，混合工作负载可在 GPU、主机和集群级别提供更高的总吞吐量，从而更大限度地提高基础设施效率，同时加速跨团队的 AI 输出。

阅读博客

缓解模型冷启动问题

通过在 GPU 和主机之间动态交换模型存储，在不牺牲性能的情况下，降低模型部署成本。NVIDIA 的 GPU 显存交换技术可以让活跃的模型继续保留在 GPU 显存中，同时对非活跃的模型采用分页调度从 GPU 显存置换到主机内存上，从而支持在更少的 GPU 上运行更多的模型任务。这能够降低基础设施投入、减少资源空闲时间，并为生产环境部署提供高性价比的推理支持，尤其适用于内存密集型的大语言模型任务。

阅读博客