推理 VLA (视觉-语言-动作) 是一种统一的 AI 模型,将视觉感知、语言理解和动作生成与逐步推理集成在一起。
推理 VLA 模型整合了明确的 AI 推理功能,在传统视觉-语言-动作模型的基础上构建。AI 推理是 AI 逐步解决复杂问题并生成类似于人类思维过程推理痕迹的能力。这些系统对一系列互联网规模的任务进行预训练,包括语言生成和视觉连接,以发展通用知识和感知基础。
对于特定的物理 AI 应用,可通过额外训练扩展这些知识,使其包含潜在动作。为了激发明确的推理能力,该模型通过各种技术进行进一步训练,包括监督式思维链生成任务或提供可验证奖励的强化学习,以确保逻辑一致性,从而确保可信赖的解释性。
最终结果是,与将视觉输入直接映射到动作的标准 VLA 模型不同,推理视觉-语言-动作 (VLA) 模型将复杂的任务分解成可管理的子问题,并以可解释的形式阐明其推理过程。这使模型能够更准确地解决问题或执行任务。它还能对模型正在进行的操作提供一定程度的反思,在实时操作期间,可作为设计问题或语义异常的监控信号。对于输出而言,除了一般推理痕迹之外,这些模型还生成具体的可操作命令,例如辅助驾驶汽车的精确转向角度或机器人系统的精确关节角度。
要构建推理 VLA 模型,三种基本 AI 功能非常重要:
视觉感知
处理来自感知传感器(如摄像头、毫米波雷达或激光雷达)的实时数据,尤其注重多视角输入和 3D 理解,这对于配备多个摄像头的机器人和辅助驾驶汽车尤为重要。
语言理解
自然语言处理可以解释命令、上下文提示和对话输入,以便为后续应用专属推理提供信息。
动作和决策制定
推理 VLA 模型使用融合的感官和语言信息来计划、选择和安全地执行任务,包括执行驾驶操作、操纵物体以及做出情境感知决策,同时生成可解释的推理痕迹。
推理 VLA 模型可以通过数据飞轮构建,以 NVIDIA COSMOS Reason 作为基础推理模型。这需要一个自我强化的循环,在这个循环中,来自机器人和辅助驾驶汽车的数据越多,推理模型就越强大,而推理模型越强大,推理 VLA 部署后生成的有用数据就越多。
数据飞轮:来自已部署系统的真实数据使基础推理模型得到不断改进,从而改进推理 VLA 模型,一旦部署即可生成更多的有用数据。
3D 空间理解:为机器人系统和 AI 智能体提供专门支持,实现鲁棒的 3D 空间和时间理解,这对于在复杂物理环境中运行的机器人和辅助驾驶汽车至关重要。
跨行业研究:虽然各种应用可能处于不同的发展阶段,但整个研究界正在积极探索跨所有物理 AI 领域的推理 VLA 模型,将其确立为一个全行业的研究领域。
推理 VLA 构成了 L4 级自动驾驶汽车的认知骨架,可处理来自多个传感器的数据,同时理解上下文信息,以实现安全、智能的导航。
这些模型可以对交通状况进行逐步推理,从而处理复杂的驾驶场景。例如,接近一个十字路口时,系统可能会进行如此推理:“我看到一个停止标志,左边有车辆驶来,还有行人正在过马路。我应该减速,完全停下来,等待行人通过人行横道,安全时再继续前进”。
推理 VLA 处理长时程任务和复杂操作的能力让物理 AI 应用获益。机器人系统使用推理 VLA 来处理多视图感官数据,理解指令并以更高的自主性执行操纵或导航任务。
当被指示“去自助餐厅拿一个苹果”时,推理 VLA 可以将其分解为导航阶段(在环境中穿越)和操纵阶段(抓取特定物体)。推理能力有助于机器人了解何时在不同类型的动作之间转换,以及如何适应环境中的意外障碍或变化。
城市基础设施系统利用推理 VLA 在大规模环境中实现监控、事件识别和自动响应功能。利用推理 VLA,视频分析 AI 智能体能够处理大量的实时或录制视频流。它们为各种空间(城市、工厂、仓库和机场)的 AI 智能体提供强大助力,使其能够更安全、更高效地运行。例如,在城市中,它们不仅能进行简单的异常检测,还能解读来自多个摄像头视频源的上下文,使应急响应人员能够实时检测关键事件并确定其优先级。对于工厂而言,它可以通过场景进行推理,以识别和了解安全隐患,有助于保护工人并保持更安全的环境。
通过集成多模态推理,更准确地感知环境、解释上下文并预测风险。
推理 VLA 模型生成的明确推理痕迹让用户能够理解为什么做出决策并进行相应调整。
核心模型可以快速定制并在交通运输、机器人和城市基础设施中部署。
基础推理模型(例如 Cosmos Reason)和已部署推理 VLA 之间的数据飞轮可实现终身自我强化和改进。