为智能汽车等物理 AI 系统构建世界模型需要海量的现实世界数据,尤其是来自各种地形与条件的视频和图像。收集这些数据需要 PB 级的信息和数百万小时的仿真素材,随后还需要数千小时的人工过滤和数据准备工作。然后,具有数十亿参数的神经网络会分析这个庞大的数据集,以便创建和更新 3D 环境的内部表示,使机器人能够理解动态行为、预测运动和深度等变化,并准备好应对可能发生的事件。通过深度学习进行持续改进有助于世界模型适应新的场景,并理解复杂的物理交互。训练这些大型模型需要花费数百万美元的 GPU 计算资源。
世界模型多种多样:
世界基础模型 (WFM),例如NVIDIA Cosmos™ 模型是一种专用的世界模型,可满足基础模型对规模和通用性的要求。这些神经网络已使用海量的未标记数据集进行训练,能够适应广泛的物理 AI 任务。因为具有通用性,它们可以显著加速各种物理 AI 应用的开发,这是因为它们可以作为经过预训练的基础模型,而开发者可以利用针对特定任务的较小数据集对其进行后期训练。
这些世界基础模型使开发者能够将生成式 AI 扩展到 2D 软件之外,将其功能引入现实世界,同时减少对真实试验的需求。传统上,强大的 AI 应用主要集中在数字空间,而世界模型正在突破 AI 数字边界,将解锁 AI 与物理世界交互的无限可能。
以下是构建世界模型的一些关键组成部分:
数据整理是世界模型预训练和持续训练的关键步骤,尤其在处理大规模多模态数据时。该流程包含图像或视频数据的过滤、标记、分类和去重等处理步骤,以确保在训练或微调高准确度模型时确保高质量。
在视频处理中,数据整理首先要将视频分割和转码为更小的片段,然后进行质量筛选,以保留高质量数据。先进的视觉语言模型用于标记关键对象或操作,而视频嵌入向量则有助于进行语义重复删除,移除重复数据。
这些数据随后会被整理和清洗,以用于训练。在整个过程中,高效的数据编排确保了GPU之间的数据流畅通,从而使它们能够处理大规模数据并实现高吞吐量。
数据整理完成后,开发者必须能够在其中进行搜索,以便找到适用于特定测试用例的场景。考虑到这些数据集的体量,此过程可能会像大海捞针一样困难。不过,借助从世界模型训练而来的强大嵌入模型,开发者可以快速轻松地执行语义搜索,检索目标场景,将后期训练周期从数年缩短到数天。
视觉标记器 (Tokenization) 是指将高维视觉数据转换为被称作“标记” (token) 的较小单位,为机器学习处理提供便利。视觉标记器会将图像和视频中的像素冗余转换为紧凑的语义级标记,从而更高效地对大规模生成模型进行训练并对有限资源进行推理。主要有两种方法:
这种方法能够提高模型学习的速度和性能。
开发者可以从零开始训练世界模型架构,也可以使用其他数据对经过预训练的基础模型进行后期训练,以便执行下游任务。
WFM 是通用模型,已使用海量的视觉数据集进行训练,可以模拟物理环境。通过使用后期训练框架,可以对这些模型进行专业化优化,使其适用于机器人开发、自主系统和其他物理 AI 领域的精准应用。可以通过多种方法对模型进行后期训练:
为轻松入门并简化端到端开发流程,开发者可以使用训练框架 (包括库、软件开发套件和工具) 进行数据准备、模型训练、优化以及性能评估和应用部署。
推理模型通过微调预训练的大语言模型或大视觉语言模型进行训练。他们还使用强化学习在做出决策之前进行分析和推理。
强化学习 (RL) 是一种机器学习方法,AI 智能体通过与环境交互进行学习,并根据其行为接收奖励或惩罚。随着时间的推移,它可以优化决策制定,以获得最佳结果。
强化学习使世界模型能够适应、规划和做出明智的决策,这对于需要通过复杂任务进行推理的机器人、自主系统和 AI 助手至关重要。
世界模型能够深入了解三维环境中的空间关系和物理行为,因此可扩展 AI 功能。这使得它们能够模拟真实的因果情景,例如预测物体在复杂场景中将如何移动和交互。
开发者可以利用世界模型的强大功能生成高质量的数据,以便在工业应用和机器人开发应用领域训练 AI 模型,例如以下领域:工厂机器人、仓库自动化,以及在高速公路或具有挑战性的地形上运行的自动驾驶汽车。物理 AI 系统需要视觉、空间和物理精准的海量数据,以便通过逼真的仿真进行学习。世界模型可以为众多应用高效地大规模生成这些数据。
世界模型可以理解物体移动和交互方式的基本原理,因此可以创建更逼真的物理精准视觉内容。在某些情况下,高度精准世界模型的输出可以采取合成数据的形式,这些数据可用于训练感知 AI。
当前的 AI 视频生成技术难以应付复杂的场景,并且对因果关系的理解有限。不过实践表明,与 3D 仿真平台和软件搭配使用的世界模型或许可以在视觉场景中更深入地理解因果关系,例如模拟工业机器人捡起被杂物覆盖的重物。
世界模型可以模拟现实世界中的行动并预测结果,因此可以帮助物理 AI 系统学习、适应和做出更好的决策。它们使系统能够“想象”不同的场景、测试行动,并从虚拟反馈中学习,这很大程度上类似于自动驾驶汽车在模拟器中练习处理突然出现的障碍物或恶劣的天气条件。通过预测可能的结果,自主机器可以规划更智能的行动,而无需在现实世界中进行试验,从而可节省时间并降低风险。
与大语言模型 (LLM) 结合使用时,世界模型可以帮助 AI 理解自然语言指令并更有效地进行交互。例如,送货机器人可以解读“找到最快路线”的语音请求,然后模拟不同的路线来确定最佳路线。
这种预测智能可以提高物理 AI 模型的效率、适应性和安全性,有助于机器人、自动驾驶汽车和工业机器在复杂的现实环境中更智能地运作。
策略学习涉及探索相关策略,以确定最有效的行动。策略模型可以帮助机器人等系统根据其当前状态和更广泛的世界状态来确定最佳行动。它将系统的状态 (例如位置) 与行动 (例如移动) 联系起来,以便实现目标或提升性能。可以通过对模型进行微调,得到策略模型。策略模型通常用于强化学习,即通过交互和反馈来学习。
使用推理型世界模型对合成数据进行过滤和评判,有助于快速提高质量和相关性。
世界模型使探索策略成为可能,并奖励最有效的结果。通过添加奖励模组,可以运行仿真并构建用于追踪资源使用情况的成本模型,从而提升实际任务的效果和效率。
与 3D 模拟器搭配使用时,世界模型可作为虚拟环境,安全地简化和扩展自主机器的训练。借助视频数据生成、整理和编码功能,开发者可以更好地训练自主机器来感知动态环境并与之交互。
世界模型能够为智能汽车开发工作流的各个阶段带来显著的好处。借助预先标记的已编码视频数据,开发者可以整理和训练自动驾驶栈 ,使其更准确地识别车辆、行人和物体的行为。这些模型可以基于文本和视觉输入内容创建预测型视频仿真,并生成新的场景,例如不同的交通模式、道路状况、天气和光线,以便对驱动车辆的推理型“视觉-语言-行动”模型进行后期训练,并加快测试和验证速度。
世界模型可以生成逼真的合成数据和预测的世界状态,助力机器人发展空间智能。这些模型使用由物理模拟器提供支持的虚拟仿真,让机器人能够安全高效地练习执行任务,通过快速测试和训练加快学习速度。它们能够帮助机器人通过从各种数据和经验中学习来适应新的情况。
修改后的世界模型能够模拟物体交互、预测人类行为,并引导机器人准确达成目标,因此可以增强规划能力。它们还能够通过进行多次模拟和从反馈中学习,来增强决策能力。借助虚拟仿真,开发者可以降低现实世界中的测试风险,同时节省时间、成本和资源。
世界模型已使用丰富的多模态数据和先进的推理功能进行训练,可以对海量的录制视频和实时视频进行复杂的分析。这些模型有助于实现自然语言问答、自动总结、物体检测、事件定位,以及对视频中的视觉内容进行更丰富的上下文理解,这些功能超越了传统的计算机视觉方法。
在工业场景和智能城市场景中,都能看到视频分析世界模型的常见应用,其目的是提高安全性和运营效率。例如,识别伤害风险和不安全行为以保障工业安全,为快速事件调查提供详细的因果理解结果,监控智慧城市中的交通、人群流动、公共安全事件和环境危害,以及通过目测检查发现生产线上的缺陷和异常来控制质量。