物理 AI

NVIDIA Cosmos

开发世界基础模型以推动物理 AI 的发展。

Cookbook   |   文档   |   论坛

概览

NVIDIA Cosmos 是什么?

NVIDIA Cosmos™ 是一个包含开放世界基础模型 (WFM) 、护栏和数据处理库的平台,可加速智能汽车机器人视频分析 AI 智能体的物理 AI 开发。

Cosmos Cookbook

此指南可作为 Cosmos 开放模型的实用指南。它提供了用于构建、调整和部署 WFM 的分步工作流程、技术方法和具体示例。

如何借助 NVIDIA Cosmos Cookbook 扩展物理 AI 的数据生成

在本博客中,我们将对 Cosmos Transfer 方法进行采样,以更改视频背景、为驾驶数据添加新的环境条件、为机器人导航生成数据,并为城市交通场景生成合成数据。

模型

物理 AI 的世界基础模型

开放且完全可定制的预训练模型,用于生成和理解世界。

Cosmos Predict

预测机器人和 AI 智能体规划的动态环境的未来状态。此世界生成模型根据多模态提示生成长达 30 秒的高保真视频。

Cosmos Transfer

加速在各种环境和光照条件下的合成数据生成。Multicontrol 模型可将物理 AI 仿真框架 (例如 CARLA 或 NVIDIA Isaac Sim™) 的 3D 或空间输入转换为完全可控的高保真视频。

Cosmos Reason

使机器人和视觉 AI 智能体能够像人类一样进行推理。此多模态视觉语言模型 (VLM) 利用先前知识、物理理解和常识来理解现实世界并与之交互。

数据处理

加速数据集的高效处理和生成。

使用 Cosmos Curator 快速筛选、标注和去重物理 AI 开发所需的大量传感器数据。

您还可以使用 NVIDIA Cosmos Dataset Search (CDS) 即时查询这些数据集并检索场景。

用例

Cosmos 如何在各行各业加速 AI

使用 Cosmos 世界基础模型为机器人技术、自动驾驶汽车和工业视觉系统的下游流程进行模拟、推理和生成数据”。

机器人学习

机器人需要大量多样化的训练数据,才能有效感知环境并与之交互。Cosmos WFM 通过多种方式解决此问题:

  • 使用 Cosmos Transfer 生成合成数据。
  • 后训练 Cosmos 预测您的机器人策略。
  • 使用 Cosmos Reason 对合成数据进行推理和筛选。

智能汽车训练

多样化的高保真传感器数据对于安全训练、测试和验证智能汽车至关重要。但扩展难度大、耗时长且成本高昂。

通过使用车辆数据对 Cosmos WFM 进行后训练,您可以:

  • 使用 Cosmos Transfer,通过新的天气、光照和地理位置数据扩大现有的数据多样性。
  • 使用 Cosmos Predict 扩展到多传感器视图。

视频分析 AI 智能体

提高工业和城市环境的自动化、安全性和运营效率。

借助 Cosmos Reason,AI 智能体可以分析、总结实时或录制的视频流并与之交互,从而:

  • 提供实时问答和提醒。
  • 提供丰富的上下文见解。

启动选项

开始使用 NVIDIA Cosmos

1

准备好构建了吗?直接访问模型和代码。

2

还没有准备好构建?在我们的托管目录中试用 Cosmos 模型。

3

需要帮助?使用我们的实战模型快速入门。

可信 AI

支持物理 AI 社区

Cosmos 模型、护栏和分词器可在 Hugging Face 和 GitHub 上获取,同时提供相关资源解决训练物理 AI 模型时的数据稀缺问题。

AI Infrastructure

Get the Best Performance With NVIDIA Blackwell

NVIDIA RTX PRO 6000 Blackwell Series Servers accelerate physical AI development for robots, autonomous vehicles, and AI agents across training, synthetic data generation, simulation, and inference.

Unlock peak performance for Cosmos world foundation models on NVIDIA Blackwell GB200 for industrial post-training and inference workloads.

生态系统

已被领先的物理 AI 创新者广泛应用

来自机器人、智能汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。

后续步骤

加入 Cosmos 社区

与 Cosmos 专家交流,与其他开发者互动,提供模型反馈,并通过直播和教程获得持续学习

Cosmos Cookbook

一份全面的指南,介绍了如何利用 NVIDIA Cosmos 生态系统开发针对特定领域的现实应用,为机器人开发、仿真、自主系统和物理场景理解赋能。

构建视频分析 AI 智能体

结合使用 Cosmos Reason 与 NVIDIA Blueprint 进行视频搜索和总结 (VSS),以便构建 AI 智能体,实现可扩展的实时视频理解能力。

资源

Cosmos 开发者的最新动态

常见问题解答

文档开始。Cosmos WFM 在 Hugging Face 上公开可用,并在 GitHub 上提供推理和后训练脚本。

Cosmos 基础世界模型遵循 NVIDIA 开放模型许可协议,对所有人开放。

PyTorch 脚本可供所有 Cosmos 模型用于后训练。请参阅新的 Cosmos Cookbook,其中包含分步方法和后训练脚本,可快速构建、定制和部署适用于机器人和自主系统的 NVIDIA Cosmos 世界基础模型。

可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。您可以首先使用 NeMo Curator 进行视频数据预处理。然后使用 Cosmos tokenizer 对数据进行压缩和解码。处理完数据后,您可以使用 NVIDIA NeMo 训练或微调模型。

借助 NVIDIA NIM™ 微服务,您可以轻松将物理 AI 模型集成到云、数据中心和工作站的应用中。

您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。

这三个模型都是具有不同角色的世界基础模型:

  • Cosmos Predict 可以根据文本、图像或视频提示生成多样化的视频场景,非常适合用于机器人或智能汽车等主题的微调训练。
  • Cosmos Transfer 支持多重控制风格迁移,可对基于物理的视频 (通常在 NVIDIA Omniverse 等模拟器中生成) 进行光照和环境的变化。
  • Cosmos Reason 通过视频输入推理来回答文本查询。

Cosmos Reason 还可以基于一个起始视频,为 Cosmos Predict 生成全新且多样的文本提示,或对 Predict 和 Transfer 生成的合成数据进行评估和批判。

Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。

开发者可以将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控的逼真合成数据。

Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。

详细了解 NVIDIA Omniverse