Cosmos 3
首个具有原生推理、世界和行动生成的全方位模型。基于 Mixture-of-Transformers 构建。
将其作为视觉语言模型 (VLM) 使用,在复杂的现实世界场景中对物体、交互和意图进行推理。
用于质量检查、公共安全、流量监控、物流和辅助驾驶领域的实时警报和高密度图文描述。
利用 Cosmos 3 作为世界行动模型 (WAM) 的骨架网络,加速机器人策略学习。
在专用摄像头和具身数据上对广义世界基础模型进行后训练。策略模型将预学习的行动大规模适应特定任务、领域和行为。
作为可控制、基于物理的世界仿真器运行,可预测多种方法、在闭环中评估结果,并收敛至正确的行为。
在环境、任务和条件下扩展循环,在没有现实世界风险的情况下持续改进。
根据文本、图像、视频、环境声音和行动输入,生成无限可信的未来。
利用视频生成技术,发挥想象力来训练物理 AI,而不受物理捕获内容的限制。
视频
听取 NVIDIA 创始人兼 CEO 黄仁勋在 Computex 2026 上介绍 NVIDIA Cosmos 3,这是全球最先进的基础模型,旨在帮助开发者构建能够在现实世界中理解、模拟和行动的辅助驾驶系统。
开始选项
基于为 Cosmos 3 提供支持的相同技术构建。开放的框架和技能,使全球开发者可以定制、扩展和贡献于物理 AI。
可使用 Cosmos Curator 快速对海量传感器数据进行过滤、注释和去重处理。
使用 Cosmos Evaluator 大规模查看生成的视频输出并对其打分。
利用开放的后训练、评估、优化框架以及推理脚本和技能,快速构建、后期训练或部署世界模型。
将编码智能体转化为用于物理 AI 开发的合成数据专家。
用例
构建机器人学习策略,使具身智能体能够在现实世界环境中,在可见和不可见的条件下运行。
生成自定义、多样化、高保真的传感器数据,用于安全地训练、测试和验证智能汽车。
提高工业和城市环境的自动化水平、安全性及运营效率。
借助 Cosmos,AI 智能体可对实时或录制的视频流进行分析、总结与交互,从而:
性能
Cosmos 3 经过优化,在 NVIDIA 硬件上实现了最佳性能。NVIDIA RTX PRO 系列工作站可加速机器人、智能汽车和 AI 智能体的物理 AI 开发,涵盖训练、合成数据生成、仿真和推理。
生态系统
自机器人开发、智能汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 加速物理 AI 开发。
Cosmos 3 基于 Mixture of Transformers 体系架构构建。推理和生成器模块使用不同的转换器来实现高效生成和性能。因此,该模型首先推理后生成,在各方面都实现了领先的物理模型精度。在此处了解更多体系架构。
Cosmos WFM 根据 Linux Foundation 的 OpenMDW1.1 许可提供。
Cosmos 3 已在 GitHub 上开源,每种模态和模组都提供了后训练脚本。此外,NVIDIA TAO 7 提供了一套智能体技能和工具,包括编码智能体和自然语言提示词,用于微调视觉 AI 模型 (如 Cosmos 3)。在 GitHub 上下载 TAO 7 代理式技能和工具。
可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。您可以开始使用 Cosmos Curator 进行视频数据预处理。然后使用 Cosmos tokenizer 对数据进行压缩和解码。数据处理后,您可以训练或调优模型。
可使用 NVIDIA NIM™,轻松将物理 AI 模型集成到云端、数据中心和工作站的应用中。
您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。
Cosmos 3 是一款全方位模型,可以生成文本、图像、视频、声音和行动。而 Cosmos 2.5 和 Cosmos 2 将感知和生成作为独立的模型,且模态仅限于文本、图像和视频。
Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。
开发者可将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控制的照片级逼真的合成数据。
Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。
详细了解 NVIDIA Omniverse。