物理 AI

NVIDIA Cosmos

面向物理 AI 的开放平台,配备世界基础模型 (WFM)、视频数据处理库、视频评估和后训练框架。

指南   |   文档

世界基础模型

面向世界生成和理解的开放模型

Cosmos Predict

领先的世界生成模型,可灵活适配各类物理 AI 任务或环境。

使用 2B/14B 模型,根据文本、图像或视频生成 30 秒预测视频世界,或对数据进行后训练,以创建自定义边缘案例、闭环策略和多视图、以机器人为中心的仿真环境。

Cosmos Transfer:

用于仿真到照片级逼真转换的多控制模型。

与 CARLA 或 NVIDIA Isaac Sim™ 等物理 AI 仿真框架搭配使用,可在各种环境和光照条件下加速合成数据生成

Cosmos Reason

领先的视觉语言模型 (VLM),使机器人和视觉 AI 智能体具备类似人类的推理能力。

结合先前知识、物理规律和常识,为公共安全、流量监控、物流、质量检测和物理 AI 提供实时警报和可操作的洞察。

数据处理和评估

加速高效的数据集处理和评估。

Cosmos Curator

可使用 Cosmos Curator 快速对海量传感器数据进行过滤、注释和去重处理。

Cosmos 数据集搜索

使用 NVIDIA COSMOS 数据集搜索 (CDS) 即时查询数据集并检索场景。

Cosmos Evaluator

使用 Cosmos Evaluator 大规模查看生成的视频输出并对其打分。

应用案例

Cosmos 如何加速各行各业的 AI 发展

使用 Cosmos WFM 为机器人开发、智能汽车和工业视觉系统中的下游工作流进行仿真、推理和数据生成支持。

机器人学习

针对下游任务、环境、摄像头或传感器布局及策略构建自定义世界模型。

  • 后训练 Cosmos Predict,以适配机器人特定视角或控制策略
  • 使用 Cosmos Transfer 各种环境和光照条件生成合成数据
  • 利用 Cosmos RL 框架后训练 Cosmos Reason,以构建视觉-语言-动作 (VLA) 模型
  • 使用基于 Cosmos 构建的物理 AI 数据工厂蓝图,创建端到端的合成数据增强和评估工作流

自动驾驶汽车训练

生成自定义、多样化、高保真的传感器数据,用于安全地训练、测试和验证自动驾驶汽车。

  • 使用 Cosmos Transfer 提供新的天气、光照和地理位置数据,强化现有数据多样性
  • 使用 Cosmos Predict 扩展为多传感器视图
  • 使用基于 Cosmos 构建的物理 AI 数据工厂蓝图,创建端到端的合成数据增强和评估工作流

视频分析 AI 智能体

提高工业和城市环境的自动化水平、安全性及运营效率。 

借助 Cosmos Reason,AI 智能体可对实时或录制的视频流进行分析、总结与交互,从而:

  • 提供实时问题解答和警示
  • 提供丰富的场景洞察
  • 使用 NVIDIA Blueprint 从大规模视频数据中提取洞察,用于视频搜索和总结

开始选项

NVIDIA COSMOS 入门

1

准备好构建了吗? 直接访问开放模型和代码。

2

还没有准备好构建? 在我们的托管目录中试用 Cosmos 模型。

3

需要帮助吗? 凭藉我们的实战模型示例快速上手。

可信 AI

支持物理 AI 社区

Hugging Face 和 GitHub 已上线 Cosmos 模型、防护栏和分词器,并提供了相应资源,以解决物理 AI 模型训练过程中的数据稀缺问题。

AI 基础设施

借助 NVIDIA Blackwell 获得最佳性能

NVIDIA RTX PRO 6000 Blackwell 系列服务器可加速机器人、智能汽车和 AI 智能体的物理 AI 开发,涵盖训练、合成数据生成、仿真和推理。

在 NVIDIA Blackwell GB200 上释放 Cosmos 世界基础模型的峰值性能,用于工业后训练和推理工作负载。

生态系统

已被领先的物理 AI 创新者广泛应用

自机器人开发、智能汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 加速物理 AI 开发。

后续步骤

加入 Cosmos 社区

联系 Cosmos 专家、与其他开发者互动、提供模型反馈,并通过直播和示例方案不断学习。

Cosmos Cookbook

一份全面的指南,介绍了如何利用 NVIDIA Cosmos 生态系统开发针对特定领域的现实应用,为机器人开发、仿真、自主系统和物理场景理解赋能。

构建视频分析 AI 智能体

结合使用 Cosmos Reason 与 NVIDIA Blueprint 进行视频搜索和总结 (VSS),以便构建 AI 智能体,实现可扩展的实时视频理解能力。

资源

Cosmos 开发者的最新动态

常见问题解答

[2026 年 1 月 22 日] 发布了关于 Cosmos 策略的研究,该研究基于 Cosmos Predict-2 进行视觉运动控制规划。

[2026 年 2 月 9 日] 全新 Cosmos Reason 2 增强计算支持、量化和 CUDA 兼容性。

[2025 年 12 月 19 日] 通过 Hugging Face 发布 Cosmos-Predict2.5-2B Diffusers 支持,在 Hugging Face 上发布 Cosmos-Predict2.5-2B Text2World 蒸馏权重以及蒸馏南。

[2025 年 12 月 19 日] 发布了 Cosmos Transfer 2.5 的 Image2Image 和 ImagePrompt 功能。 请在此处查看推理指南。

探索 GitHub 了解详情

Cosmos 世界基础模型采用 NVIDIA 开放模型许可证,向所有人开放使用。

请参阅全新的 Cosmos 开发手册,其中包含分步方案和后训练脚本,可帮助您快速构建、定制和部署面向机器人开发和辅助驾驶系统的 NVIDIA Cosmos 世界基础模型。

可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。 您可以开始使用 Cosmos Curator 进行视频数据预处理。 然后使用 Cosmos tokenizer 对数据进行压缩和解码。 数据处理后,您可以训练或调优模型。

可使用 NVIDIA NIM™ 微服务,轻松将物理 AI 模型集成到云端、数据中心和工作站的应用中。

您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。

这三款都是世界基础模型,发挥不同作用:

  • Cosmos Predict 根据文本、图像或视频提示词生成各种视频场景,非常适合机器人或自动驾驶汽车等主题的后训练。
  • Cosmos Transfer 将多控件风格传输(改变光照和环境)应用于基于物理效果的视频,通常是在 NVIDIA Omniverse™ 等模拟器中创建的。
  • Cosmos Reason 通过对视频和图像输入进行推理来回答查询。 Cosmos Reason 可从 Cosmos Predict 的初始视频生成各种新的文本提示词,或从 Predict 和 Transfer 中对合成数据进行评论和注释。

Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。

开发者可将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控制的照片级逼真的合成数据。

Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。

详细了解 NVIDIA Omniverse