世界模型是理解现实世界动态(包括其物理和空间属性)的生成式 AI 模型。 它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习,它们能够理解现实世界环境的物理特性,从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。
基础模型是基于海量无标记数据集预训练的 AI 神经网络,可根据输入数据生成新数据。 由于具有通用性,它们可以大大加速各类生成式 AI 应用的开发。开发者可利用轻量级特定任务数据集对这些预训练模型进行微调,以构建专用领域的定制化模型。
开发者可以利用基础模型的强大功能生成高质量数据,用于在工业和机器人应用中训练 AI 模型,例如工厂机器人、仓库自动化以及高速公路或复杂地形上的自动驾驶汽车。物理 AI 系统需要视觉、空间和物理精准的大规模数据,以便通过逼真的仿真进行学习。世界基础模型能够高效地大规模生成这些数据。
世界基础模型可以有不同类型:
世界模型在与 3D 仿真引擎协调工作,可用作虚拟环境,以安全高效地简化和扩展自主机器训练。开发者可借助生成、治理和编码视频数据的能力,更有效地训练自主机器感知、理解动态环境并与之进行交互。
WFMs 能够显著提升自动驾驶汽车 (AV) 工作流的每一个阶段。借助预标记和编码的视频数据,开发者可以重新实现和训练 AV 堆栈,以更准确地识别车辆、行人和物体的行为。此类模型还可以生成新场景,例如不同的交通流量模式、路况、天气和光照,以弥补训练中的数据缺口并扩大测试覆盖率。这些模型还可以根据文本和视觉输入创建预测视频模拟,加速虚拟训练和测试。
WFMs 可生成照片级逼真的合成数据和预测性世界状态,帮助机器人开发空间智能。通过物理引擎驱动的虚拟仿真平台,此类模型确保机器人能够安全高效地进行任务练习,并通过快速的测试与训练加速学习。它们通过学习多样化的数据和经验来帮助机器人适应新情况。
修改后的世界模型通过模拟对象交互、预测人类行为以及引导机器人准确实现目标来增强规划。他们还通过运行多个仿真并从反馈中学习来改进决策。借助虚拟仿真,开发者可以减少真实测试风险,同时削减时间、成本和资源。
为物理 AI 系统 (如自动驾驶汽车) 构建世界模型耗费资源和时间。首先,在全球各种地形和条件下驾驶汽车收集真实数据集需要 PB 级数据、漫长周期和数百万小时的仿真视频。接下来,过滤和准备这些数据需要花费数千小时的人工劳动。最后,训练这些大型模型在 GPU 计算方面需要花费数百万至数千万美元,并且需要大量 GPU。
世界基础模型用于捕捉世界的底层结构和动态,实现更复杂的推理和规划能力。这些神经网络经过海量精选高质量真实数据进行训练,可作为物理 AI 系统的视觉、空间和物理感知的合成数据生成器。
世界基础模型使开发者能够将生成式 AI 扩展到 2D 软件之外,将其功能引入现实世界,同时减少对真实试验的需求。传统上,强大的 AI 应用主要集中在数字空间,而世界模型正在突破 AI 数字边界,将解锁 AI 与物理世界交互的无限可能。
世界模型通过理解物体移动和交互方式的底层原理,可创造出更逼真且物理精准的视觉内容。这些模型可以按需生成逼真的 3D 世界,用于多种用途,包括视频游戏和交互式体验。在某些特定情况下,高度准确的世界模型输出可采用合成数据形式,这些数据可用于训练感知 AI。
目前的 AI 的视频生成可能还无法应对复杂场景,对因果关系的理解能力也有限。但是,当世界模型与 3D 仿真平台和软件深度集成时,展现出对例如准确模拟画家在画布上留下笔触的动态过程等视觉场景中因果关系的深层理解。
WFMs 通过仿真现实世界的行动和预测结果,帮助物理 AI 系统学习、适应并做出更好的决策。它们使系统能够“想象”不同的场景,测试行为,并从虚拟反馈中学习,就像智能汽车在仿真器中练习处理突发的障碍物或恶劣天气一样。通过预测可能的结果,自主机器可以规划更明智的行动,而无需进行现实世界的试验,从而节省时间并降低风险。
与大语言模型 (LLM) 结合使用时,世界模型可帮助 AI 理解自然语言中的指令,并提高交互效率。例如,送货机器人可以解释语音请求以“找到最快的路线”,并仿真不同的路径以确定最佳路径。
这种预测智能提高了物理 AI 模型的效率、适应性和安全性,帮助机器人、智能汽车和工业机器在复杂的现实环境中更智能地运行。
策略学习是一个通过探索策略,找到最佳行动的过程。策略模型能够帮助系统 (如机器人) 根据其当前状态和世界的更广泛状态来决定采取的最佳行动。它会将系统状态 (例如位置) 与行为 (例如运动) 联系起来,以达到实现目标或提高性能的目的。策略模型可以通过对模型的调优衍生得出。策略模型通常被用于强化学习,即通过交互和反馈来学习。
使用推理 WFM 对合成数据进行筛选和评判,从而快速提高质量和相关性。
世界模型支持策略探索,并对最有效的结果给予奖励。通过添加一个奖励模块来运行仿真,并构建跟踪资源使用情况的成本模型,这能够提升现实世界任务的性能和效率。
世界模型需要大量现实世界数据,特别是视频和图像,以便学习 3D 环境中不断变化的行为。含有数十亿个参数的神经网络会对这些数据进行分析,创建和更新环境的隐藏状态或内部表示。这赋予机器人理解和预测变化的能力,例如感知视频中的运动和深度、预测隐藏物体,并为应对可能发生的事件做好准备。得益于深度学习对隐藏状态的持续改进,世界模型对于新场景具有适应能力。
以下是构建世界模型的一些关键组成部分:
数据整理是世界模型预训练和持续训练的关键步骤,尤其在处理大规模多模态数据时。该流程包含图像或视频数据的过滤、标记、分类和去重等处理步骤,以确保在训练或微调高准确度模型时确保高质量。
在视频处理中,数据整理首先要将视频分割和转码为更小的片段,然后进行质量筛选,以保留高质量数据。先进的视觉语言模型用于标记关键对象或操作,而视频嵌入向量则有助于进行语义重复删除,移除重复数据。
然后,对数据进行整理和清理,以便训练。在整个过程中,高效的数据协调确保了 GPU 之间数据流的平稳,从而处理大规模数据并实现高吞吐量。
视觉标记器 (Tokenization) 是指将高维视觉数据转换为被称作“标记” (token) 的较小单位,为机器学习处理提供便利。视觉标记器会将图像和视频中的像素冗余转换为紧凑的语义级标记,从而更高效地对大规模生成模型进行训练并对有限资源进行推理。主要有两种方法:
这种方法能够提高模型学习的速度和性能。
基础模型是使用大量无标记数据集进行训练的人工智能神经网络,可执行各种生成式任务。开发者可以从头开始训练模型架构,或使用额外数据对预训练基础模型进行微调。
世界基础模型作为普通模型,使用大量视觉数据集进行训练,以模拟物理环境。通过使用微调框架,这些模型可以采用专属设计,用于机器人、自主系统和其他物理 AI 领域的精确应用。有多种方法可以对模型进行微调。
为轻松入门并简化端到端开发流程,开发者可以使用训练框架 (包括库、软件开发套件和工具) 进行数据准备、模型训练、优化以及性能评估和应用部署。
推理模型通过微调预训练的大语言模型或大视觉语言模型进行训练。他们还使用强化学习在做出决策之前进行分析和推理。
强化学习 (RL) 是一种机器学习方法,AI 智能体通过与环境交互进行学习,并根据其行为接收奖励或惩罚。随着时间的推移,它可以优化决策制定,以获得最佳结果。
强化学习使 WFM 能够适应、规划和做出明智的决策,这对于需要通过复杂任务进行推理的机器人、自主系统和 AI 助手至关重要。
单击此处详细了解强化学习。