合成数据生成

加速您的 AI 工作流程。

业务领域

计算机视觉 / 视频分析
机器人
生成式 AI
仿真 / 建模 / 设计
边缘计算

行业

制造业
汽车 / 交通运输
农业
智慧城市 / 空间
医疗健康
金融
零售
电信

业务目标

创新

产品

NVIDIA Omniverse Enterprise
NVIDIA AI Enterprise
NVIDIA Metropolis
NVIDIA Isaac
NVIDIA OVX
NVIDIA Drive
NVIDIA NIM
Nemotron

生成合成数据

合成数据的生成方式多种多样,具体取决于使用案例。  

使用模拟方法  

如果您正在为仓库机器人训练计算机视觉 AI 模型,那么你需要创建一个包含叉车和货架等物体的物理精确的虚拟场景。或者,您也可以为装配线上的视觉检查训练 AI 模型,这时你需要创建一个包含传送带和正在生产的产品等物品的虚拟场景。

开发合成数据工作流的主要挑战之一是消除仿真与现实之间的差异。域随机化通过让您控制场景的各个方面(例如物体的位置、纹理和照明)弥补了这一差距。

NVIDIA Omniverse™ NVIDIA Omniverse™ Cloud Sensor RTX 微服务为您提供了一种无缝的方式来模拟传感器并生成带注释的合成数据。或者,您可以使用 Omniverse Replicator SDK 来开发自定义 SDG 工作流。

使用生成式 AI

生成模型可用于初始化和增强合成数据生成过程。文本到 3D 模型支持创建 3D 资产,以填充 3D 模拟场景。文本到图像生成式 AI 模型还可用于修改和增强现有图像,无论是从模拟生成的图像,还是在现实世界中收集,并通过程序化的填充技术来完善或扩展的图像。

Evian 2 405B 和 Nemotron-4 340B 等文本到文本生成 AI 模型可用于生成合成数据,为医疗健康、金融、网络安全、零售和电信行业构建强大的 LLM。

Evian 2 405B 和 Nemotron-4 340B 提供开源许可,允许开发者在其学术和商业应用中拥有和使用所生成数据的权利。

机器人仿真

在机器人领域,合成数据可用于训练用于机器人感知、抓取或用于视觉检测的机器人的 AI 模型。

Robot Trained on Synthetic Data

快速链接

Techman Robot

图片由 Techman Robot 提供

工业检测

检测制造零件中的缺陷是一项极其困难的工作,因为异常现象通常都不易被发现。通过创建基于划痕、缺口或凹痕等实际缺陷的合成数据,可以训练 AI 模型在制造流程的早期阶段发现缺陷。

Delta Electronics

图片由台达电子提供

快速链接

Synthetic data for an object detection model

图片由 Edge Impulse 提供

自动驾驶汽车

要部署自动驾驶汽车并使其能够安全地四处行驶,就必须准备大量的训练数据,这不仅成本高昂,而且在现实生活中获取这些数据非常危险。不过,可以在仿真环境中利用 3D 合成数据来开发和测试自动驾驶汽车解决方案,从而减少测试和训练时间,并降低成本。

 Sensors of an Autonomous Vehicle

金融

合成数据可实现复杂的风险建模和欺诈检测,同时保护敏感的金融信息。这种方法对于开发用于风险评估、算法交易和客户支持的高级 AI 模型至关重要。

检索增强生成技术 (RAG)

各行各业的组织都在采用生成式 AI 来改善客户体验并提高运营效率。为确保模型提供最新且切合实际的回答,在人工智能工作流中实施了检索增强生成(RAG)流程。合成数据生成可以帮助企业评估其RAG实施的质量。

开始使用

利用 Omniverse Cloud APIs 或 SDK,针对机器人仿真、工业检测和自动驾驶汽车用例构建您自己的合成数据生成工作流。

资源

Take a course on synthetic data generation for training computer vision models

合成数据训练

在这个在线自主培训的课程中,您将学习如何生成合成数据,以便用于训练计算机视觉模型。

Consult the Omniverse Replicator documentation on synthetic data generation

合成数据文档

参阅 Omniverse Replicator 文档,了解如何生成合成数据。

Synthetic Data Generation LLM Training

合成数据生成 LLM 训练

了解 Llama 3.1 405BNemotron-4 340B 开源模型,开发者可以使用这些模型生成合成数据,以训练适用于商业应用的大语言模型 (LLM)。

Synthetic Data Generation Playlist

合成数据生成播放列表

观看有关合成数据生成的 NVIDIA GTC 会议,了解详情。