物理 AI

NVIDIA Cosmos

利用领先的世界基础模型和开放数据处理、训练和评估框架,更快地开发物理 AI。

立即体验  |  视频  |  博客

Cosmos 3

开放物理 AI 基础模型

首个具有原生推理、世界和行动生成的全方位模型。基于 Mixture-of-Transformers 构建。

高性能视觉 AI 推理

将其作为视觉语言模型 (VLM) 使用,在复杂的现实世界场景中对物体、交互和意图进行推理。

用于质量检查、公共安全、流量监控、物流和辅助驾驶领域的实时警报和高密度图文描述。

构建策略模型

利用 Cosmos 3 作为世界行动模型 (WAM) 的骨架网络,加速机器人策略学习。

在专用摄像头和具身数据上对广义世界基础模型进行后训练。策略模型将预学习的行动大规模适应特定任务、领域和行为。

模拟世界

作为可控制、基于物理的世界仿真器运行,可预测多种方法、在闭环中评估结果,并收敛至正确的行为。

在环境、任务和条件下扩展循环,在没有现实世界风险的情况下持续改进。

扩展合成视频数据

根据文本、图像、视频、环境声音和行动输入,生成无限可信的未来。

利用视频生成技术,发挥想象力来训练物理 AI,而不受物理捕获内容的限制。

视频

介绍 Cosmos

听取 NVIDIA 创始人兼 CEO 黄仁勋在 Computex 2026 上介绍 NVIDIA Cosmos 3,这是全球最先进的基础模型,旨在帮助开发者构建能够在现实世界中理解、模拟和行动的辅助驾驶系统。

开始选项

NVIDIA Cosmos 入门

1

准备好构建了吗?直接访问开放模型和代码。

2

还没有准备好构建?在我们的托管目录中试用 Cosmos 模型。

3

需要帮助吗?凭借我们的实战模型示例快速上手。

使用 Cosmos 开发

基于为 Cosmos 3 提供支持的相同技术构建。开放的框架和技能,使全球开发者可以定制、扩展和贡献于物理 AI。

数据处理

可使用 Cosmos Curator 快速对海量传感器数据进行过滤、注释和去重处理。

使用 Cosmos Evaluator 大规模查看生成的视频输出并对其打分。

训练和加速

利用开放的后训练、评估、优化框架以及推理脚本和技能,快速构建、后期训练或部署世界模型。

用于合成数据生成的智能体技能

将编码智能体转化为用于物理 AI 开发的合成数据专家。

用例

Cosmos 如何加速各行各业的 AI 发展

使用 Cosmos WFM 为机器人开发、智能汽车和工业视觉系统中的下游工作流进行仿真、推理和数据生成支持。

机器人学习

构建机器人学习策略,使具身智能体能够在现实世界环境中,在可见和不可见的条件下运行。

  • 针对具身特定任务、环境、摄像头或传感器布局和策略,对 Cosmos 3 进行后训练
  • 运行物理精准的闭环仿真
  • 利用基于 Cosmos 构建的智能体技能创建端到端合成数据增强和评估工作流

智能汽车训练

生成自定义、多样化、高保真的传感器数据,用于安全地训练、测试和验证智能汽车。

  • 利用新的天气、光照和地理位置数据,强化现有数据多样性
  • 后训练以扩展为多传感器视图
  • 利用基于 Cosmos 构建的智能体技能创建端到端合成数据增强和评估工作流

视频分析 AI 智能体

提高工业和城市环境的自动化水平、安全性及运营效率。 

借助 Cosmos,AI 智能体可对实时或录制的视频流进行分析、总结与交互,从而:

  • 提供实时上下文警报
  • 与您的视频对话,并从实时摄像头流或大规模视频库中提取洞察
  • 利用 NVIDIA Metropolis Blueprint 构建视频分析 AI 智能体,实现视频搜索和总结
  • 生成合成训练数据,进一步提高理解模型精度

性能

在 NVIDIA AI 上运行效果最佳

Cosmos 3 经过优化,在 NVIDIA 硬件上实现了最佳性能。NVIDIA RTX PRO 系列工作站可加速机器人、智能汽车和 AI 智能体的物理 AI 开发,涵盖训练、合成数据生成、仿真和推理。

生态系统

已被领先的物理 AI 创新者广泛应用

自机器人开发、智能汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 加速物理 AI 开发。

后续步骤

加入 Cosmos 社区

联系 Cosmos 专家、与其他开发者互动、提供模型反馈,并通过直播和示例方案不断学习。

Cosmos Cookbook

一份全面的指南,介绍了如何利用 NVIDIA Cosmos 生态系统开发针对特定领域的现实应用,为机器人开发、仿真、自主系统和物理场景理解赋能。

NVIDIA Cosmos Lab

NVIDIA Cosmos Lab 率先推出了大规模世界基础模型,这些模型能够模拟物理世界,为实现突破性的物理 AI 奠定了坚实基础。

下载资源

Cosmos 开发者的最新动态

常见问题解答

Cosmos 3 基于 Mixture of Transformers 体系架构构建。推理和生成器模块使用不同的转换器来实现高效生成和性能。因此,该模型首先推理后生成,在各方面都实现了领先的物理模型精度。在此处了解更多体系架构。

Cosmos WFM 根据 Linux Foundation 的 OpenMDW1.1 许可提供。

Cosmos 3 已在 GitHub 上开源,每种模态和模组都提供了后训练脚本。此外,NVIDIA TAO 7 提供了一套智能体技能和工具,包括编码智能体和自然语言提示词,用于微调视觉 AI 模型 (如 Cosmos 3)。在 GitHub 上下载 TAO 7 代理式技能和工具。

可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。您可以开始使用 Cosmos Curator 进行视频数据预处理。然后使用 Cosmos tokenizer 对数据进行压缩和解码。数据处理后,您可以训练或调优模型。

可使用 NVIDIA NIM™,轻松将物理 AI 模型集成到云端、数据中心和工作站的应用中。

您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。

Cosmos 3 是一款全方位模型,可以生成文本、图像、视频、声音和行动。而 Cosmos 2.5 和 Cosmos 2 将感知和生成作为独立的模型,且模态仅限于文本、图像和视频。

Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。

开发者可将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控制的照片级逼真的合成数据。

Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。

详细了解 NVIDIA Omniverse