合成数据生成

加速您的 AI 工作流程。

业务领域

计算机视觉 / 视频分析
机器人
生成式 AI
仿真 / 建模 / 设计
边缘计算

行业

制造业
汽车 / 交通运输
农业
智慧城市 / 空间
医疗健康
金融
零售
电信

业务目标

创新

产品

NVIDIA Omniverse Enterprise
NVIDIA AI Enterprise
NVIDIA Metropolis
NVIDIA Isaac
NVIDIA OVX
NVIDIA Drive
NVIDIA NIM
Nemotron

概述
技术运用
合作伙伴生态系统

合成数据是什么？

在训练任何 AI 模型时，都需要用到经过仔细标记、内容多样的数据集。这些数据集通常包含数千乃至数千万个元素，其中一些数据会超出可见范围。在现实世界中，收集和标记这些数据不仅费时，而且成本高昂。这可能会阻碍 AI 模型的开发，并导致需要更多时间才能找到解决方案。

合成数据是利用计算机仿真技术生成的，包含 2D 图像或文本，可与实际数据一起用于训练面向计算机视觉工作流的 AI 模型。利用合成数据生成 (SDG) 技术可以大幅节省训练时间和训练成本。

快速链接

如何使用 OpenUSD NIM 构建支持生成式 AI 的合成数据工作流

借助 Cosmos 加速物理 AI 开发

大规模开发、测试并优化物理 AI 和机器人车队

为什么要使用合成数据？

强效助力 AI 模型训练

弥补数据差异加速 AI 模型开发，同时降低获取和标记文本、视觉和物理 AI 模型所需数据的总体成本。

保护隐私和安全

通过生成内容多样的合成数据集来模拟现实世界，解决隐私问题并减少偏差。

准确

通过在训练时使用包含罕见但重要的极端案例的数据（通常不可能收集到），创建高度准确的通用 AI 模型。

可扩展

使用自动化工作流数据以程序化方式生成数据，这些数据可根据您在制造业、汽车业、机器人业等领域的用例进行扩展。

快速链接

阅读合成数据博客

生成合成数据

合成数据的生成方式多种多样，具体取决于使用案例。

使用模拟方法

如果您正在为仓库机器人训练计算机视觉 AI 模型，那么你需要创建一个包含叉车和货架等物体的物理精确的虚拟场景。或者，您也可以为装配线上的视觉检查训练 AI 模型，这时你需要创建一个包含传送带和正在生产的产品等物品的虚拟场景。

开发合成数据工作流的主要挑战之一是消除仿真与现实之间的差异。域随机化通过让您控制场景的各个方面（例如物体的位置、纹理和照明）弥补了这一差距。

NVIDIA Omniverse™ NVIDIA Omniverse™ Cloud Sensor RTX 微服务为您提供了一种无缝的方式来模拟传感器并生成带注释的合成数据。或者，您可以使用 Omniverse Replicator SDK 来开发自定义 SDG 工作流。

使用生成式 AI

生成模型可用于初始化和增强合成数据生成过程。文本到 3D 模型支持创建 3D 资产，以填充 3D 模拟场景。文本到图像生成式 AI 模型还可用于修改和增强现有图像，无论是从模拟生成的图像，还是在现实世界中收集，并通过程序化的填充技术来完善或扩展的图像。

Evian 2 405B 和 Nemotron-4 340B 等文本到文本生成 AI 模型可用于生成合成数据，为医疗健康、金融、网络安全、零售和电信行业构建强大的 LLM。

Evian 2 405B 和 Nemotron-4 340B 提供开源许可，允许开发者在其学术和商业应用中拥有和使用所生成数据的权利。

快速链接

Amazon Robotics

了解 Amazon Robotics 如何利用 Isaac Sim 部署首款全自主机器人

机器人仿真

在机器人领域，合成数据可用于训练用于机器人感知、抓取或用于视觉检测的机器人的 AI 模型。

了解 AI 初创公司 Soft Robotics 如何将合成数据应用于食品加工

快速链接

了解如何利用合成数据训练自主移动机器人检测仓库托盘搬运车

了解如何训练仿真机器人并生成合成数据

了解 Amazon Robotics 如何部署首款全自主机器人

图片由 Techman Robot 提供

了解达明机器人如何优化光学检测

工业检测

检测制造零件中的缺陷是一项极其困难的工作，因为异常现象通常都不易被发现。通过创建基于划痕、缺口或凹痕等实际缺陷的合成数据，可以训练 AI 模型在制造流程的早期阶段发现缺陷。

了解台达电子如何针对工业检测用例生成物理精准、符合实际情况的合成数据

图片由台达电子提供

快速链接

了解 Exelon 如何利用合成数据实现无人机自动检测

了解西门子如何利用 AWS 加快缺陷检测速度

了解如何通过 NVIDIA Omniverse Replicator 使用合成数据训练缺陷检测模型

Synthetic data for an object detection model

图片由 Edge Impulse 提供

了解 Edge Impulse 如何助力开发者创建和部署 AI 模型

自动驾驶汽车

要部署自动驾驶汽车并使其能够安全地四处行驶，就必须准备大量的训练数据，这不仅成本高昂，而且在现实生活中获取这些数据非常危险。不过，可以在仿真环境中利用 3D 合成数据来开发和测试自动驾驶汽车解决方案，从而减少测试和训练时间，并降低成本。

了解如何利用合成数据验证主动车辆传感器

快速链接

了解合成数据如何为自动驾驶汽车开发和测试提供强力支持

金融

合成数据可实现复杂的风险建模和欺诈检测，同时保护敏感的金融信息。这种方法对于开发用于风险评估、算法交易和客户支持的高级 AI 模型至关重要。

检索增强生成技术 (RAG)

各行各业的组织都在采用生成式 AI 来改善客户体验并提高运营效率。为确保模型提供最新且切合实际的回答，在人工智能工作流中实施了检索增强生成（RAG）流程。合成数据生成可以帮助企业评估其RAG实施的质量。

了解如何使用生成合成数据评估 RAG 工作流的性能

合成数据合作伙伴生态系统

了解我们的生态系统如何在 NVIDIA 技术的基础上开发自己的合成数据应用和服务。

合成数据公司

服务交付合作伙伴

开始使用

利用 Omniverse Cloud APIs 或 SDK，针对机器人仿真、工业检测和自动驾驶汽车用例构建您自己的合成数据生成工作流。

开始使用

探索 OMNIVERSE

资源

Take a course on synthetic data generation for training computer vision models

合成数据训练

在这个在线自主培训的课程中，您将学习如何生成合成数据，以便用于训练计算机视觉模型。

参加在线自主培训课程

Consult the Omniverse Replicator documentation on synthetic data generation

合成数据文档

参阅 Omniverse Replicator 文档，了解如何生成合成数据。

参阅文档

合成数据生成 LLM 训练

了解 Llama 3.1 405B 和 Nemotron-4 340B 开源模型，开发者可以使用这些模型生成合成数据，以训练适用于商业应用的大语言模型 (LLM)。

阅读博客

合成数据生成播放列表

观看有关合成数据生成的 NVIDIA GTC 会议，了解详情。

观看 GTC 的合成数据会议