物理 AI

NVIDIA Cosmos

开发推动物理 AI 发展的世界基础模型。

概览

NVIDIA Cosmos 是什么?

NVIDIA Cosmos™ 是一个整合前沿生成式世界基础模型 (WFM) 先进分词器、护栏以及用于加速数据处理和管理的高效工作流的集成平台。 该技术为世界模型训练提供支持,并加速自动驾驶汽车(AV)机器人物理 AI 开发。

新模型可实现物理 AI 的预测、可控世界生成和推理

推出全球首个用于物理 AI 开发的推理模型,让开发者以前所未有的方式控制世界生成。

利用 NVIDIA Cosmos 扩展合成数据和物理 AI 推理

了解最新的 NVIDIA Cosmos 世界基础模型用于高级推理和可控合成数据生成,为新一代 AI 驱动式人形机器人和自动驾驶汽车提供助力。

优势

利用基础世界模型加速物理 AI 开发

Cosmos 为开发者提供开放、轻松访问的高性能基础世界模型和数据工作流,使任何开发者都可以进行物理 AI 开发。

物理优先数据

基础世界模型借助 2000 万小时的机器人和驾驶数据进行预训练,以生成基于物理的世界状态。

开放性

Cosmos WFM、护栏和标记器均根据 NVIDIA 开放式模型许可证获得许可,供所有物理 AI 开发者访问。

模型

Cosmos 基础世界模型

一系列预训练多模态模型,开发者可以开箱即用,用于世界生成和推理,或进行后训练以开发专用的物理 AI 模型。

预测

基于多模态输入的世界生成和运动预测的通用模型。 基于 9,000T 机器人与驾驶数据的 token 进行训练,专为后训练而打造。

作为 Cosmos NIM 提供,随时随地加速推理。

传输

物理感知世界生成以基准真实值和 3D 输入为基础。 输入包括用于生成可控合成数据NVIDIA Omniverse™ 分段图、深度信号、激光雷达扫描、关键点、轨迹、高清地图和地面实情仿真。

原因

这是一款具备完全可定制的多模态推理模型,基于对空间和时间的理解构建,用于规划响应。 

使用视觉语言模型微调和强化学习进行训练,以实现思想链推理。

护栏

借助 Cosmos WFM 开发负责任的模型,其内置预保护措施可提前过滤不安全输入,同时配备后保护错误,确保输出结果始终安全且一致。

工具

后训练 Cosmos 基础世界模型

Cosmos 为开发者提供开放式的高性能数据管护工作流、标记器、训练框架和训练后脚本。凭借这些,开发者能快速、轻松地构建各类专用世界模型,诸如用于具身 AI 的策略模型和视觉语言动作 (VLA) 模型等。

高效地对视频数据进行标记化

使用 Cosmos 标记器以更高的压缩率生成图像或视频标记,以实现可扩展、稳健且高效的大世界模型的开发。 选择高分辨率或低分辨率变体,将 Cosmos WFM 后训练为专用 AI 模型。

加速数据管护

借助 CUDA-X™ 的 NVIDIA NeMo™ Curator 工作流和用于处理 100PB 以上数据的 NVIDIA AI 加速工具,将数据管护速度提升 20 倍。 该技术可提供开箱即用的优化功能,最大限度地降低总拥有成本 (TCO) 并加快产品上市时间。

全托管开发支持

NVIDIA DGX Cloud 是一款用于加速训练的高性能 AI 平台,可帮助开发者利用全托管服务来整理数据,进行后训练和部署视频和基础世界模型。

用例

开发者如何使用 NVIDIA Cosmos

开发者对 Cosmos WFM 进行后训练,或与 NVIDIA Omniverse 结合,推动下游物理 AI 用例的发展。

合成数据生成 (SDG)

Cosmos 可加速合成数据生成,以训练感知 AI 模型。

Omniverse 提供生成式 API、工具和 NVIDIA RTX™ 渲染,为 Cosmos WFM 创建物理精准的 3D 场景。 利用这些视觉效果作为输入,Cosmos Transfer WFM 会生成逼真的输出,模拟不同的天气、环境和光照,同时根据文本提示,以物理精度预测世界状态。

开发者可直接使用开箱即用通用 Cosmos WFM 或基于自有数据定制,以提高下游 SDG 的精确性。

策略模型初始化

策略模型为物理 AI 系统的行为提供指导,确保系统安全运行,并符合其目标。 开发者可将 Cosmos Predict 或 Cosmos Reason 后训练到策略模型中,以生成动作,从而节省手动策略训练的成本、时间和数据需求。

策略模型评估

Cosmos WFM 通过视频输出模拟现实世界的动作,加速策略评估,并基于 Omniverse 基准真实物理引擎确保准确性。 开发者可以利用 Cosmos Reason 构建视觉语言动作 (VLA) 模型,并将其部署至智能决策评估和驾驶动作中。 这种仿真循环可降低现实世界测试的成本、时间和风险,同时提高策略的精确性。

Multiverse 引擎

Cosmos WFM 支持后训练优化,可作为多重宇宙引擎或系统,探索多个任务策略,奖励最有效的结果,并增强预测性控制和强化学习的决策制定。 开发者可以在 Cosmos WFM 中添加奖励模块,并在 Omniverse 中模拟结果。

即将推出

我们的承诺

为物理 AI 社区普及可信 AI

Hugging Face 和 GitHub 上提供 Cosmos 模型、护栏和标记器,并提供资源来解决训练物理 AI 模型时的数据稀缺问题。 我们致力于推动 Cosmos 向前发展——透明、开放,并面向所有人。

生态系统

已被领先的物理 AI 创新者广泛应用

来自机器人、自动驾驶汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。

下一步

准备好开始了吗?

使用 NVIDIA API 目录下基础世界模型试驾,或开始使用 NVIDIA Cosmos 构建您的世界模型。

WFM 后训练

使用 NVIDIA NeMo 的端到端工作流,在任何平台上对世界模型进行策划、标记和微调。

为世界模型策划视频数据

利用由 NVIDIA NeMo Curator 提供支持的加速数据处理和管护工作流,该工作流针对 NVIDIA 数据中心 GPU 进行了优化。

常见问题解答

物理 AI 开发者现在可以开始使用 Hugging Face 和 GitHub 上提供的 Cosmos 世界基础模型。 Cosmos 还提供端到端工作流,利用 NVIDIA NeMo 来微调基础模型。 开发者可以从 GitHub 上的 /NVIDIA/cosmos-tokenizer 和 Hugging Face 使用 Cosmos 标记器。

Cosmos 基础世界模型遵循 NVIDIA 开放模型许可协议,对所有人开放。

可以,有两种方法对 Cosmos 模型进行后训练:

1) 使用 NeMo,您可以使用 Low-Rank Adaptation (LoRA) 和基于人类反馈的强化学习 (RLHF) 等热门技术高效地训练和微调模型。您还可以选择 PyTorch,继续使用自己的数据集训练 WFM。

2) 您可以使用 GitHub 中的打开 PyTorch 脚本对 Cosmos WFM 进行后训练。

可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。 您可以首先使用 NeMo Curator 进行视频数据预处理。 然后使用 Cosmos tokenizer 对数据进行压缩和解码。 处理完数据后,您可以使用 NVIDIA NeMo 训练或微调模型。

借助 NVIDIA NIM™ 微服务,您可以轻松将物理 AI 模型集成到云、数据中心和工作站的应用中。

您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。

Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。

开发者可以将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控的逼真合成数据。

Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。

详细了解 NVIDIA Omniverse