世界模型是什么?

世界模型是理解现实世界动态 (包括物理和空间属性) 的 AI 工具。使用文本、图像、视频、声音和运动等输入数据来预测接下来会发生什么。

世界模型是如何构建的?

世界模型已从人工编写的规则发展为包含数十亿个参数的神经网络,但其核心目标始终未变:让 AI 学会如何在现实世界中行动。

传统方法依赖于工程师对物理规则进行显式编程。这类方法在特定狭窄条件下是精确的,但一旦超出适用范围便毫无用处。它们在游戏引擎和早期机器人仿真器等受控环境中表现出色,但在现实世界出现意外情况便立即失效。现代世界模型则从数据中学习这些规则。

生成式 AI 的出现彻底改变了这一范式。开发者不再手动编写规则,而是使用互联网规模的数据来集训练模型。当给定提示后,这些模型能够生成高保真的合成世界。

新一代世界基础模型现已基于海量真实世界数据和无限的合成数据进行预训练,不仅能够生成内容,还能根据物理规律进行推理和预测。预训练的基础模型承担了主要的计算与建模工作,而针对专有数据进行有目的的后训练则处理剩余部分,将开发时间从几年缩短到几个月。

构建世界基础模型 (WFM) 通常包括以下步骤:

数据整理

数据整理是世界模型预训练和持续训练的关键步骤,尤其在处理大规模多模态数据时。该流程包含图像或视频数据的过滤、标记、分类和去重等处理步骤,以确保在训练或微调高准确度模型时确保高质量。

在视频处理中,数据整理首先要将视频分割和转码为更小的片段,然后进行质量筛选,以保留高质量数据。先进的视觉语言模型用于标记关键对象或操作,而视频嵌入向量则有助于进行语义重复删除,移除重复数据。

这些数据随后会被整理和清洗,以用于训练。在整个过程中,高效的数据编排确保了 GPU 之间的数据流畅通,从而使它们能够处理大规模数据并实现高吞吐量。

数据整理完成后,开发者必须能够在其中进行搜索,以便找到适用于特定测试用例的场景。考虑到这些数据集的体量,此过程可能会像大海捞针一样困难。不过,借助从世界模型训练而来的强大嵌入模型,开发者可以快速轻松地执行语义搜索,检索目标场景,将后期训练周期从数年缩短到数天。

视觉标记器

视觉标记器 (Tokenization) 是指将高维视觉数据转换为被称作“标记” (token) 的较小单位,为机器学习处理提供便利。视觉标记器会将图像和视频中的像素冗余转换为紧凑的语义级标记,从而更高效地对大规模生成模型进行训练并对有限资源进行推理。主要有两种方法:

  • 离散标记化:将图像和视频表示为整数。
  • 持续分词:将图像和视频表示为连续向量。

这种方法能够提高模型学习的速度和性能。

预训练

构建基础模型的第一步是为任务目标选择架构设计并围绕任务目标使用海量数据进行训练。Transformer 是现代世界模型的支柱,但有两种不同的使用方式,每种方式都有不同的优势:

  • 自回归转换器按标记生成世界 token,每帧基于之前的所有内容。就像预测下一个单词的语言模型一样,自回归世界模型预测下一个视觉状态。它非常适合顺序决策和长期规划。它能够及时理解因果关系。
  • 扩散转换器从噪声开始,并逐渐将其降噪为一个连贯、逼真的世界。它们不是按顺序生成,而是同时优化整个输出,并产生更高的视觉保真度和更好的空间一致性。它们擅长生成丰富的合成环境。

每种方法都会将复杂的世界生成问题分解为更小、可处理的步骤。

后训练世界模型

开发者可以使用其他数据对预训练的基础模型进行后期训练,以适配下游任务。

WFM 作为通用模型,基于大量视觉数据集进行训练,以模拟和推理物理环境。使用后训练框架,这些模型可以专门用于机器人、自主系统和其他物理 AI 领域的精确应用。有多种方法可以对模型进行后训练:

  • 无监督后训练 (Unsupervised Post-Training) — 指使用未标记数据对模型进行适配,使其能够在没有明确标记的情况下,从新数据集中学习表征和模式。该方法有助于实现广泛的泛化能力和领域自适应。
  • 有监督后训练 (Supervised Post-Training) — 使用已标记的数据集,明确引导模型学习特定任务的特征。该方法能够增强决策制定能力,提升结构化模式识别水平,并最终为更复杂的人工智能应用培养推理能力。

为轻松入门并简化端到端开发流程,开发者可以使用训练框架 (包括库、软件开发套件和工具) 进行数据准备、模型训练、优化以及性能评估和应用部署。

强化学习

推理模型通过微调预训练的大语言模型或大视觉语言模型进行训练。他们还使用强化学习在做出决策之前进行分析和推理。

强化学习 (RL) 是一种机器学习方法,AI 智能体通过与环境交互进行学习,并根据其行为接收奖励或惩罚。随着时间的推移,它可以优化决策制定,以获得最佳结果。

强化学习使世界模型能够适应、规划和做出明智的决策,这对于需要通过复杂任务进行推理的机器人、自主系统和 AI 助手至关重要。

世界模型有哪些优势?

现实世界的数据采集成本高、难以规模化。机器人、智能汽车、智慧城市和工业系统等物理智能体需要在各种环境、任务和条件下运行。合成数据生成对于匹配规模至关重要。在合成数据上进行持续训练有助于世界模型不断进化,即使面对从未见过的场景也能做出准确预测。

实现闭环学习

机器人可以在世界模型中反复进行训练、试错和改进,无需承担物理风险或成本,只需在仿真环境中运行数千次强化学习迭代,而这些迭代在真实硬件上是无法实现的。

跨具身与领域泛化

单个基础模型即可后训练出适用于人形机器人、自动驾驶汽车、手术机器人和工业机械臂的策略,无需为每种新的具身形态或环境从头单独训练模型。

仿真到现实的迁移

仿真与现实之间的差距会导致仿真训练策略失效。世界模型将基于物理性质的仿真输出转换为逼真的环境,从而缩小差距,使在合成环境中训练的策略在实际部署中同样可靠。

加速 AI 模型训练

从预训练世界基础模型出发,意味着开发者无需从零开始,而是继承物理理解、空间推理和时间一致性能力,再针对特定领域的数据进行后训练,从而更快地达到生产级性能。

世界模型的现实应用有哪些?

与 3D 模拟器搭配使用时,世界模型可作为虚拟环境,安全地简化和扩展自主机器的训练。借助视频数据生成、整理和编码功能,开发者可以更好地训练自主机器来感知动态环境并与之交互。

智能汽车

世界模型能够为智能汽车开发工作流的各个阶段带来显著的好处。借助预先标记的已编码视频数据,开发者可以整理和训练自动驾驶栈,使其更准确地识别车辆、行人和物体的行为。这些模型可以基于文本和视觉输入内容创建预测型视频仿真,并生成新的场景,例如不同的交通模式、道路状况、天气和光线,以便对驱动车辆的推理型“视觉-语言-行动”模型进行后期训练,并加快测试和验证速度。

机器人开发

世界模型可以生成逼真的合成数据和预测的世界状态,助力机器人发展空间智能。这些模型使用由物理模拟器提供支持的虚拟仿真,让机器人能够安全高效地练习执行任务,通过快速测试和训练加快学习速度。它们能够帮助机器人通过从各种数据和经验中学习来适应新的情况。

修改后的世界模型能够模拟物体交互、预测人类行为,并引导机器人准确达成目标,因此可以增强规划能力。它们还能够通过进行多次模拟和从反馈中学习,来增强决策能力。借助虚拟仿真,开发者可以降低现实世界中的测试风险,同时节省时间、成本和资源。

视频分析

世界模型利用丰富的多模态数据和先进的推理能力进行训练,可以对海量的录制视频和实时视频进行复杂的分析。这些模型支持自然语言问答、自动总结、目标检测、事件定位,以及对视频中的视觉内容进行更丰富的上下文理解——其能力远超传统计算机视觉方法。世界模型还能针对极端场景生成逼真的合成数据,帮助更好地训练 AI 模型以检测关键事件。

世界模型在视频分析方面的常见应用主要集中在工业和智能城市场景,以提升安全性和运营效率。具体应用包括:在工业安全领域识别伤害风险和不安全行为;为快速事故调查提供详细的因果关系分析;在智慧城市中监控交通、人流、公共安全事件和环境危害;以及通过视觉检测识别生产线上的缺陷和异常,实现质量控制。

如何开始使用世界模型

NVIDIA Cosmos

Cosmos 平台汇集最先进的生成式世界基础模型、高级视觉标记器、护栏,以及经加速的数据处理和管理工作流,专为加速物理 AI 系统的开发而打造。

Cosmos 世界基础模型

Cosmos WFM 是一系列预训练模型,专为生成用于物理 AI 开发的物理感知视频和世界状态而构建。

NVIDIA Isaac GR00T

NVIDIA Isaac GR00T 是一个积极的研究计划和开发平台,用于加速人形机器人开发。它包含一系列机器人基础模型、工作流程和仿真工具。