适用于物理 AI 的合成数据生成

加速物理 AI 工作流的开发。

探索用于物理 AI 的 SDG

概览
技术实施
开始使用
相关用例

概览
技术实施
开始使用
相关用例

探索用于物理 AI 的 SDG

工作负载

仿真/建模/设计
机器人
生成式 AI

行业

所有行业

业务目标

创新

产品

概览

为什么使用合成数据？

在开发物理 AI 模型时，需要使用经过仔细标记、高质量、多样化的数据集，以实现理想的模型精度和性能。在许多情况下，数据会受到限制或无法使用。收集和标记这些真实世界数据既耗时又昂贵，并阻碍高性能物理 AI 模型的开发。随着我们不断提高计算和模型质量，瓶颈转向使用高质量、多样化的数据训练先进的模型。

合成数据 (由计算机仿真、世界基础模型、AI 智能体或这些的组合生成) 可帮助应对这一挑战。合成数据可由文本、视频以及跨视觉和非视觉频谱的 2D 或 3D 图像组成，可与实际数据一起用于训练多模态物理 AI 模型。借助智能体就绪的仿真和数据生成工具，开发者可以在监督下扩展训练工作流、降低成本并提高模型性能。

AI 模型训练速度

利用智能体技能弥补数据差异，并加速 AI 模型开发，同时降低获取和标记模型训练所需数据的总体成本。

隐私和安全

通过生成内容多样的合成数据集来模拟现实世界，解决隐私问题并减少偏差。

模型精度

通过在训练时使用包含罕见但重要的极端案例的数据 (通常不可能收集到），创建高度准确的通用 AI 模型。

可扩展

使用自动化工作流程序化地生成数据，这些工作流可根据您的案例在制造业、汽车、机器人开发等各种行业进行扩展。

合成数据生成的 4 个步骤

学习如何使用 NVIDIA Isaac Sim 和 NVIDIA OSMO 构建和编排端到端的 SDG 工作流。

查看工作流

快速链接

用于大规模合成数据生成和评估的 NVIDIA 物理 AI 数据工厂 Blueprint

了解 NVIDIA Cosmos 世界基础模型平台

观看：借助 GR00T Dreams 合成数据训练机器人

用于物理 AI 开发的合成数据

物理 AI 模型支持自主系统感知、理解环境，与物理世界进行交互、导航。合成数据对于训练和测试物理 AI 模型至关重要。

世界模型

世界模型利用各种输入数据，包括文本、图像、视频和运动信息，以极高的精度生成并仿真虚拟世界。

世界模型具有卓越的泛化能力，仅需极少的微调即可满足各种应用需求。其可作为机器人和自动驾驶汽车的认知引擎，充分发挥对现实世界动态的全面理解。为了达到这种复杂程度，世界模型依赖于海量的训练数据。

世界模型开发从有助于自动执行碎片化合成数据生成工作流的智能体技能中受益匪浅。智能体可以访问仿真工具、开放模型和库，以生成物理精准的合成数据、创建极端场景，并在光照、背景、颜色、位置和环境中应用域随机化。这有助于团队更快地生成多样化的训练数据、提高模型泛化、加速模型训练，并将开发扩展到仅靠真实世界数据无法实现的范围之外。

机器人策略训练

机器人学习涵盖一系列算法和方法，让机器人能够在模拟或真实环境中获得操作、运动和分类等新技能。强化学习、模仿学习和扩散策略是用于训练机器人的关键方法。

拾取、分拣和组装物品等操作能力，是机器人的一项重要技能，类似于工厂中的作业场景。通常，现实世界的人类示范会被用作训练的输入数据。然而，收集大量且多样化的数据集的成本很高。

为了克服这一挑战，开发者可以利用基于 NVIDIA Cosmos™ 构建的 NVIDIA Isaac GR00T-Dreams blueprint，生成大型、多样化的合成运动数据集以进行训练。

NVIDIA Isaac GR00T-Dreams blueprint 使用 Cosmos 生成大量合成轨迹数据，这些数据由单张图像和语言指令驱动生成。借助于此，机器人无需特定的遥操作数据，即可在陌生环境中学习新任务。

NVIDIA Isaac GR00T-Mimic Blueprint 仅通过少量人工演示，即可生成海量的合成轨迹数据。此举助力机器人在已知任务和环境中提高操作能力。

然后，这些数据集可用于在 Isaac Lab 内训练 Isaac GR00T 开源基础模型，从而实现通用化的人形机器人推理和稳健的技能习得。

借助 NVIDIA Cosmos 3，开发者可以从机器人学习的坚实基础开始，并针对其具身、环境和任务使用后训练进行专业化。

测试和验证

软件在环 (SIL) 测试对于 AI 赋能机器人和自动驾驶汽车而言是一个关键的测试阶段。在这个阶段，控制软件将在仿真环境中而不是在真实硬件上进行测试。

仿真生成的合成数据可确保对真实物理现象进行精确建模，包括传感器输入、执行器动态和环境相互作用。这也提供了一种捕捉罕见场景的方法，而在现实世界中收集这种场景是很危险的。这可确保在仿真环境中机器人软件栈的表现与在实体机器人上表现一致，从而无需物理硬件，即可进行全面测试和验证。

来自这些仿真中的合成数据会反馈给机器人大脑。机器人大脑会感知结果，决定下一步行动。该循环持续进行，而 Mega 则精确追踪数字孪生中所有资产的状态和位置。

阅读：通过仿真和数据增强实现全方位智能

回放：为物理 AI 生成合成数据

技术实施

为物理 AI 生成合成数据

场景创建：将全面的 3D 场景作为基础，其中包含各种重要资产，如用于仓库的货架、箱子和托盘，或用于室外环境的树木、道路和建筑物。开发者现在可以使用 NVIDIA NuRec (一组 API 和库），根据真实世界数据生成神经仿真，以加速场景创建过程。可使用 NVIDIA 通用场景描述 (OpenUSD) NIM™ 对这些环境进行动态增强，从而实现对不同对象的无缝添加，并融入 360° HDRI 背景。在某些情况下，可能并不需要 3D 场景。GR00T-Dreams 利用 (WFM) 生成新环境。
域随机化：通用场景描述 Code NIM 是一个专门用于 OpenUSD 的先进 LLM，用于执行域随机化。这一强大的工具不仅可以解答与 OpenUSD 相关的疑问，还能生成通用场景描述 Python 代码以在场景中进行更改，简化了在基于 OpenUSD 的数字孪生应用 (这些应用利用 NVIDIA Omniverse™ 库) 中以编程方式更改各种场景参数的过程。
数据生成：第三步涉及导出初始标注图像集。Omniverse 库提供一系列预构建的标注数据功能，包括 2D 边界框、语义分割、深度图、表面法线等。输出格式 (如边界框或动画) 的选择取决于特定的模型要求或用例。
数据增强和评估：在下一阶段，开发者可以使用视频增强技能，由 NVIDIA Cosmos 世界基础模型和 NVIDIA Nemotron 提供支持，将图像进一步从 3D 增强到现实。其可通过简单的用户提示为生成的图像带来所需的照片级真实感。视频增强智能体还可以通过自动、一致的生成式输出评分来帮助识别伪件和不准确性，因此团队可以在引导 AI 模型之前，放心地使用合成数据。