合成数据是人工生成的数据,在机器人、自动驾驶汽车等众多领域用于加速 AI 模型的训练。
构建准确且性能卓越的人工智能模型依赖于经过仔细标记的高质量、多样化数据集。然而,现实世界的数据通常是有限的,不能充分代表所需的样本,或因数据保护标准限制而难以获取。由于存在上述限制,原始数据的获取和标记是一个耗时且成本高昂的流程,可能会延缓 AI 开发的进展。
而合成数据通过基于规则、算法或模拟现实数据统计学属性的仿真来创建人工生成的数据的方法解决这些挑战。开发者和研究人员可以使用这样的合成数据对模型进行鲁棒测试和训练,不受实际数据使用相关限制或隐私相关顾虑的影响。
合成数据生成可应对核心数据科学挑战,改善机器学习 (ML) 模型训练并简化 AI 开发。
生成式 AI 可用于加速合成数据生成,简化创建和迭代虚拟场景以提取数据的流程。
扩散模型可根据文本或图像描述生成高质量视觉内容。通过学习图像与描述图像文本之间的关系,扩散模型可以编程方式改变布局、资产放置、颜色、对象大小和光照条件等图像参数。
基础世界模型还可生成超逼真、物理精准的视觉数据。针对领域特定设置微调基础世界模型,可让开发者生成仿真视频,这些视频可高度适应工厂车间等复杂系统和环境。
支持合成数据生成的神经网络架构包括生成式对抗网络 (GAN) 和变分自编码器 (VAE)。GAN 通过两个神经网络之间的竞争性流程生成数据,其中一个神经网络生成数据样本,另一个神经网络根据真实数据评估数据样本。
Transformer 是一种深度学习模型,可生成合成数据。通过学习数据集中的复杂模式和依赖项,Transformer 可生成与现有训练数据相对应的全新数据。例如,在自然语言处理中,Transformer 可用于创建模仿给定文本主体的样式和上下文的新文本内容。Transformer 可将数据集中的每一行和每一列视为序列,学习关系和模式,并生成保持原始数据集特征的新数据,从而模仿表格数据。
从资产创建到代码生成,生成式 AI 可帮助创建合成数据集,以增强不同场景中模型训练数据集。
在汽车行业,需要使用合成数据来训练为自动驾驶汽车提供支持的感知、规划和预测模型。为了将每一个可能的交通场景纳入考量而手动收集和标记大量数据不仅成本昂贵且耗时费力,因此可以利用深度学习方法生成的数据来增强从激光雷达、摄像头和雷达等传感器中收集的数据。借助更丰富的数据集,开发者可以对车用 AI 进行优化和验证。
适用于固定摄像头的计算机视觉算法可以检测、分类和追踪物体,以帮助提高公共场所或工业场所的安全性,实现店内自动结账,并标记装配线上的产品缺陷。但是,收集大量多样的图像数据集,以训练精确的计算机视觉和自动光学检测算法困难重重。借助合成图像数据,开发者可以通过改变参数,如场景角度、位置、照明等,快速创建丰富多样的训练数据集。让开发者能针对各种各样的用例简化开发检测算法。
合成数据正在推动 AI 在各领域和用例中的应用。
合成文本生成的应用十分广泛,从训练网络安全模型到识别网络钓鱼电子邮件,再到生成保护隐私的医疗记录。例如,在医疗行业,数据往往被分散保存在孤岛中,隐私受到保护,这使得依赖访问高质量数据的技术创新难以开展。为了克服这一障碍,可以利用 AI 生成合成医疗数据集,在准确捕获真实医疗记录的统计属性的同时,保护敏感数据的隐私。这些数据集的使用不受限制,从而为适用于各种用例的医疗软件开发提供了机会。
在上述所有用例中,开发者均可受益于构建合成数据库,将其用于存储、组织带标注的数据,并对其进行编目,用于未来的模型培训和 AI 项目。
NVIDIA 提供了一整套技术,可帮助开发者为各行各业的用例构建合成数据生成工作流。
NVIDIA Omniverse™平台是一款结合 API、SDK 和服务的平台。借助此平台,开发者可轻松将基于通用场景描述 (OpenUSD)的 Omniverse Cloud Sensor RTX 整合至现有软件工具和仿真工作流中,以通过创建逼真模拟所需的高级光线跟踪功能生成合成数据。
OpenUSD 是一种开源文件格式和可扩展框架,可作为通用语言管理 NVIDIA Omniverse 上的各种软件应用和复杂 3D 场景及工作流。
Omniverse 可与 NVIDIA Cosmos™ 基础世界模型配合使用,将 3D 图像或动画增强到必要的逼真度,并进一步缩小仿真与训练之间的差距。
借助这些工具,开发者可以创建高质量合成数据集,为新一代 AI 解决方案提供强劲动力。
对于基于文本的合成数据生成而言,NVIDIA Nemotron-4 340B 提供了一系列模型,可供开发者用于生成训练 LLM 所需的合成数据。这些经 NVIDIA NeMo 训练并经 NVIDIA TensorRT-LLM 优化的模型,根据独特的开放式模型许可证提供。
NVIDIA API 目录中提供 Nemotron-4 340B 的体验和下载选项。开发者可以使用 DGX Cloud 对 AI 模型轻松调优。有关更多详细信息,请参阅数据集和模型研究论文。