模型
开放且完全可定制的预训练模型,用于生成和理解世界。
预测机器人和 AI 智能体规划的动态环境的未来状态。此世界生成模型根据多模态提示生成长达 30 秒的高保真视频。
加速在各种环境和光照条件下的合成数据生成。Multicontrol 模型可将物理 AI 仿真框架 (例如 CARLA 或 NVIDIA Isaac Sim™) 的 3D 或空间输入转换为完全可控的高保真视频。
使机器人和视觉 AI 智能体能够像人类一样进行推理。此多模态视觉语言模型 (VLM) 利用先前知识、物理理解和常识来理解现实世界并与之交互。
加速数据集的高效处理和生成。
使用 Cosmos Curator 快速筛选、标注和去重物理 AI 开发所需的大量传感器数据。
您还可以使用 NVIDIA Cosmos Dataset Search (CDS) 即时查询这些数据集并检索场景。
用例
使用 Cosmos 世界基础模型为机器人技术、自动驾驶汽车和工业视觉系统的下游流程进行模拟、推理和生成数据”。
机器人需要大量多样化的训练数据,才能有效感知环境并与之交互。Cosmos WFM 通过多种方式解决此问题:
多样化的高保真传感器数据对于安全训练、测试和验证智能汽车至关重要。但扩展难度大、耗时长且成本高昂。
通过使用车辆数据对 Cosmos WFM 进行后训练,您可以:
提高工业和城市环境的自动化、安全性和运营效率。
借助 Cosmos Reason,AI 智能体可以分析、总结实时或录制的视频流并与之交互,从而:
启动选项
生态系统
来自机器人、智能汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。
从文档开始。Cosmos WFM 在 Hugging Face 上公开可用,并在 GitHub 上提供推理和后训练脚本。
Cosmos 基础世界模型遵循 NVIDIA 开放模型许可协议,对所有人开放。
PyTorch 脚本可供所有 Cosmos 模型用于后训练。请参阅新的 Cosmos Cookbook,其中包含分步方法和后训练脚本,可快速构建、定制和部署适用于机器人和自主系统的 NVIDIA Cosmos 世界基础模型。
可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。您可以首先使用 NeMo Curator 进行视频数据预处理。然后使用 Cosmos tokenizer 对数据进行压缩和解码。处理完数据后,您可以使用 NVIDIA NeMo 训练或微调模型。
借助 NVIDIA NIM™ 微服务,您可以轻松将物理 AI 模型集成到云、数据中心和工作站的应用中。
您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。
这三个模型都是具有不同角色的世界基础模型:
Cosmos Reason 还可以基于一个起始视频,为 Cosmos Predict 生成全新且多样的文本提示,或对 Predict 和 Transfer 生成的合成数据进行评估和批判。
Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。
开发者可以将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控的逼真合成数据。
Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。
详细了解 NVIDIA Omniverse。