合成数据

合成数据是人工生成的数据,在机器人、自动驾驶汽车等众多领域用于加速 AI 模型的训练。

什么是合成数据生成 (SDG)?

合成数据生成是基于计算机仿真、生成式 AI 模型或两者的组合,在视觉和非视觉频谱中创建文本、2D 或 3D 图像流程。这种技术既适用于结构化数据,也适用非结构化数据,而且经常被应用于原始数据稀缺、敏感或收集难度大的领域。

合成数据生成的工作原理

构建准确且性能卓越的人工智能模型依赖于经过仔细标记的高质量、多样化数据集。然而,现实世界的数据通常是有限的,不能充分代表所需的样本,或因数据保护标准限制而难以获取。由于存在上述限制,原始数据的获取和标记是一个耗时且成本高昂的流程,可能会延缓 AI 开发的进展。

而合成数据通过基于规则、算法或模拟现实数据统计学属性的仿真来创建人工生成的数据的方法解决这些挑战。开发者和研究人员可以使用这样的合成数据对模型进行鲁棒测试和训练,不受实际数据使用相关限制或隐私相关顾虑的影响。

合成数据为何对 AI 具有重要意义?

合成数据生成可应对核心数据科学挑战,改善机器学习 (ML) 模型训练并简化 AI 开发。

  • 数据稀缺:合成数据能解决新型用例中真实数据稀缺的问题。这对于提高模型的性能和鲁棒性而言至关重要,特别是现实世界中数据有限的小众应用。
  • 数据隐私:合成数据通过生成模拟真实世界中统计数据,而非与个别记录直接对应的训练数据,来帮助克服隐私问题。这一匿名化在医疗健康和金融服务等领域至关重要,这些领域的数据隐私和数据使用需遵守严格的法规监管。
  • 数据质量:真实数据集可能失衡,导致生成式模型和机器学习模型中存在输出偏差。合成生成的数据可将现有数据增强为规模更大、更具代表性的数据集。这有助于最大限度地减少模型偏置并提高精度。
  • 测试:合成测试数据支持在安全环境中为 AI 软件测试和评估进行真实模拟,再将其部署到真实场景中。

生成式 AI 在合成数据生成中的作用是什么?

生成式 AI 可用于加速合成数据生成,简化创建和迭代虚拟场景以提取数据的流程。

扩散模型可根据文本或图像描述生成高质量视觉内容。通过学习图像与描述图像文本之间的关系,扩散模型可以编程方式改变布局、资产放置、颜色、对象大小和光照条件等图像参数。 

基础世界模型还可生成超逼真、物理精准的视觉数据。针对领域特定设置微调基础世界模型,可让开发者生成仿真视频,这些视频可高度适应工厂车间等复杂系统和环境。

支持合成数据生成的神经网络架构包括生成式对抗网络 (GAN) 和变分自编码器 (VAE)。GAN 通过两个神经网络之间的竞争性流程生成数据,其中一个神经网络生成数据样本,另一个神经网络根据真实数据评估数据样本。

Transformer 是一种深度学习模型,可生成合成数据。通过学习数据集中的复杂模式和依赖项,Transformer 可生成与现有训练数据相对应的全新数据。例如,在自然语言处理中,Transformer 可用于创建模仿给定文本主体的样式和上下文的新文本内容。Transformer 可将数据集中的每一行和每一列视为序列,学习关系和模式,并生成保持原始数据集特征的新数据,从而模仿表格数据。

从资产创建到代码生成,生成式 AI 可帮助创建合成数据集,以增强不同场景中模型训练数据集。

 

基于仿真的合成数据用例

合成数据正在为物理 AI工业 AI 中基于仿真的用例提供支持。

机器人

合成数据对于训练物理 AI 模型至关重要,这些模型可驱动运用于仓库等空间的人形机器人和自主移动机器人 (AMR),以及应用于分配中心、制造工厂等其他工业空间的工业机械手。合成数据生成用于创建和注释来自 3D 模拟的数据,以增强训练数据集,从而训练感知 AI 模型,使机器人能够准确检测物体、避开障碍物并与环境安全交互。

合成数据也可用于训练机器人策略模型,这些模型需要不同的数据来执行各种任务,如运动和操纵。

自主驾驶汽车

在汽车行业,需要使用合成数据来训练为自动驾驶汽车提供支持的感知、规划和预测模型。为了将每一个可能的交通场景纳入考量而手动收集和标记大量数据不仅成本昂贵且耗时费力,因此可以利用深度学习方法生成的数据来增强从激光雷达、摄像头和雷达等传感器中收集的数据。借助更丰富的数据集,开发者可以对车用 AI 进行优化和验证。

工业检测

适用于固定摄像头的计算机视觉算法可以检测、分类和追踪物体,以帮助提高公共场所或工业场所的安全性,实现店内自动结账,并标记装配线上的产品缺陷。但是,收集大量多样的图像数据集,以训练精确的计算机视觉和自动光学检测算法困难重重。借助合成图像数据,开发者可以通过改变参数,如场景角度、位置、照明等,快速创建丰富多样的训练数据集。让开发者能针对各种各样的用例简化开发检测算法。

基于文本的合成数据用例

合成数据正在推动 AI 在各领域和用例中的应用。

文本生成

合成文本生成的应用十分广泛,从训练网络安全模型到识别网络钓鱼电子邮件,再到生成保护隐私的医疗记录。例如,在医疗行业,数据往往被分散保存在孤岛中,隐私受到保护,这使得依赖访问高质量数据的技术创新难以开展。为了克服这一障碍,可以利用 AI 生成合成医疗数据集,在准确捕获真实医疗记录的统计属性的同时,保护敏感数据的隐私。这些数据集的使用不受限制,从而为适用于各种用例的医疗软件开发提供了机会。

在上述所有用例中,开发者均可受益于构建合成数据库,将其用于存储、组织带标注的数据,并对其进行编目,用于未来的模型培训和 AI 项目。

合成数据生成入门指南

基于仿真

NVIDIA 提供了一整套技术,可帮助开发者为各行各业的用例构建合成数据生成工作流。  

NVIDIA Omniverse™平台是一款结合 API、SDK 和服务的平台。借助此平台,开发者可轻松将基于通用场景描述 (OpenUSD)的 Omniverse Cloud Sensor RTX 整合至现有软件工具和仿真工作流中,以通过创建逼真模拟所需的高级光线跟踪功能生成合成数据。 

OpenUSD 是一种开源文件格式和可扩展框架,可作为通用语言管理 NVIDIA Omniverse 上的各种软件应用和复杂 3D 场景及工作流。

Omniverse 可与 NVIDIA Cosmos™ 基础世界模型配合使用,将 3D 图像或动画增强到必要的逼真度,并进一步缩小仿真与训练之间的差距。 

借助这些工具,开发者可以创建高质量合成数据集,为新一代 AI 解决方案提供强劲动力。

基于文本

对于基于文本的合成数据生成而言,NVIDIA Nemotron-4 340B 提供了一系列模型,可供开发者用于生成训练 LLM 所需的合成数据。这些经 NVIDIA NeMo 训练并经 NVIDIA TensorRT-LLM 优化的模型,根据独特的开放式模型许可证提供。

NVIDIA API 目录中提供 Nemotron-4 340B 的体验和下载选项。开发者可以使用 DGX Cloud 对 AI 模型轻松调优。有关更多详细信息,请参阅数据集模型研究论文

后续步骤

开始使用合成数据生成工作流

开始使用合成数据生成工作流

了解如何利用合成数据加速物理和代理式 AI 工作流的开发。

如何构建生成式 AI 赋能合成数据流水线

如何构建生成式 AI 赋能合成数据流水线

了解如何通过生成式 AI 加速构建定制合成数据生成工作流。