物理 AI
开发推动物理 AI 发展的世界基础模型。
概览
NVIDIA Cosmos™ 是一个整合前沿生成式世界基础模型 (WFM) 先进分词器、护栏以及用于加速数据处理和管理的高效工作流的集成平台。该技术为世界模型训练提供支持,并加速自动驾驶汽车(AV) 和机器人的物理 AI 开发。
Cosmos 为开发者提供开放、易于访问的高性能基础世界模型、数据工作流,以及用于机器人和自动驾驶应用生成合成数据并进行后训练的工具。
基础世界模型借助 2000 万小时的机器人和驾驶数据进行预训练,以生成基于物理的世界状态。
Cosmos WFM、护栏和标记器均根据 NVIDIA 开放式模型许可证获得许可,供所有物理 AI 开发者访问。
模型
一系列预训练多模态模型,开发者可以开箱即用,用于世界生成和推理,或进行后训练以开发专用的物理 AI 模型。
基于多模态输入的世界生成和运动预测的通用模型。基于 9000T 机器人与驾驶数据的 token 进行训练,专为后训练而打造。
作为 Cosmos NIM 提供,随时随地加速推理。
物理感知世界生成以基准真实值和 3D 输入为基础。输入包括用于生成可控合成数据的 NVIDIA Omniverse™ 分段图、深度信号、激光雷达扫描、关键点、轨迹、高清地图和地面实情仿真。
这是一款具备完全可定制的多模态推理模型,基于对空间和时间的理解构建,用于规划响应。
使用视觉语言模型微调和强化学习进行训练,以实现思想链推理。
借助 Cosmos WFM 开发负责任的模型,其内置预保护措施可提前过滤不安全输入,同时配备后保护错误,确保输出结果始终安全且一致。
Cosmos 为开发者提供开放式的高性能数据管护工作流、标记器、训练框架和训练后脚本。凭借这些,开发者能快速、轻松地构建各类专用世界模型,诸如用于具身 AI 的策略模型和视觉语言动作 (VLA) 模型等。
硬件
Cosmos WFM 已针对 NVIDIA 最新的 Blackwell 架构 GPU 进行了进行全面优化。
对于运行 Cosmos 世界基础模型等大规模自定义多模态模型的企业,NVIDIA Blackwell 架构 GPU 可为数十亿多个参数的工作负载提供行业领先的速度和可扩展性。访问 NVIDIA DGX Cloud,开发新一代 AI 超级集群和大规模物理 AI 应用。
物理 AI 开发者可以利用搭载 NVIDIA RTX PRO Blackwell GPU 和 DGX Cloud 的服务器和工作站平台,使用 NVIDIA Omniverse 和 Cosmos 加速合成数据生成。这种组合可让您快速生成基于物理的良好合成数据。这有助于先进的机器人、自动驾驶汽车和仿真工作流程。
加速下游基础模型开发,通过合成数据生成和后训练推动视觉 AI 和具身 AI 的发展。
Omniverse 可创建逼真的 3D 场景,用于 Cosmos Transfer 的输入,Cosmos Transfer 将这些场景扩展至各种逼真的环境和光照条件中。此过程会生成可扩展的增强型数据,从而消除数据瓶颈,实现更高效的基础模型训练。
Cosmos Reason 能够评估合成数据,删除不符合后训练或评估要求的输出结果。它还会生成标注信息,为数据添加上下文并帮助组织数据,从而加速视觉 AI 和具身 AI 的基础模型开发。
Hugging Face 和 GitHub 上提供 Cosmos 模型、护栏和标记器,并提供资源来解决训练物理 AI 模型时的数据稀缺问题。我们致力于推动 Cosmos 向前发展——透明、开放,并面向所有人。
来自机器人、自动驾驶汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。