什么是数据增强?

数据增强通过对现有数据应用受控转换来增加数据集的规模、多样性和质量,帮助机器学习 (ML) 模型更好地泛化、解决类失衡问题,并在保持数据可用性的同时保护隐私。

数据增强的工作原理是什么?

数据增强通过应用转换 (例如旋转、交换、噪声或估算) 来生成新的训练示例,从而保留原始数据的标签或含义,同时引入有用的变化。这些方法可帮助机器学习模型学习更稳健的不变表征,从而减少过拟合并提高真实数据的性能。

增强可应用于几乎所有模态:图像 (通过翻转、裁剪、调整大小)、文本 (通过同义词替换或反向翻译)、音频 (通过音高偏移和噪声添加)、视频 (通过帧采样和抖动) 和合成表格数据 (通过特征工程、平衡和合成过采样)。在隐私敏感型设置中,增强功能还可以修改或假名化个人身份信息 (PII),同时保持统计价值。

总体而言,对于已标记数据集受限、不平衡或难以收集的情况,数据增强是一项基本技术,可提高数据集的多样性并提高机器学习系统的预测能力。

增强工作流因模态而异,但遵循相同的原则:了解基础数据,应用保留意义的转换,并确保增强的结果始终符合任务要求。技术包括简单的操作 (调整大小、降噪、同义词替换) 和更高级的方法,例如生成式建模和反向翻译。增强还可以纠正数据质量问题,包括填充缺失值、工程特征、平衡类分布或减少异常值。仔细验证可确保增强数据集保持可靠、无偏见,并且适合训练高性能模型。

数据增强工作流程

这些高阶步骤有助于启动数据增强流程:

  1. 分析数据集:在选择增强策略之前,先明确数据类型、分布、类别平衡和潜在偏差。
  2. 选择适配模态的技术:选用与数据类型匹配的变换方法 —— 视觉数据采用图像旋转,文本数据采用同义词替换,表格数据采用特征工程等。
  3. 生成增强样本:使用 NeMo Data Designer 等工具执行变换操作、生成合成样本,并扩展增强流程的规模化能力。
  4. 下游任务验证:分别在使用与不使用增强数据的条件下测试模型性能,监控是否出现标签污染、分布偏移或引入偏差等问题。
  5. 迭代和扩展:根据验证结果优化增强参数。对于敏感数据,可将数据增强与匿名化处理或合成数据生成相结合。

 

通过数据增强从一个样本扩展到多个样本

使用 SynthDa 提升合成数据增强和人体动作识别

结合真实和合成运动数据来训练高精度人类动作识别模型的模块化流程。

数据增强的应用和用例

数据增强用于机器学习、数据科学、分析和 AI,以扩展数据集、提高鲁棒性并解决数据稀缺挑战。其应用涵盖计算机视觉自然语言处理 (NLP)、表格分析、医疗健康、遥感和自主系统。

计算机视觉

改进图像分类和物体检测

通过旋转、裁剪、亮度变化和降噪来转换图像,以训练更准确、弹性更强的视觉模型。

NLP 工作流

增强文本分类和语言理解

使用同义词替换、随机插入 / 删除或反向翻译,使情感分析、命名实体识别 (NER) 和机器翻译的训练语料库多样化。

智能汽车

训练更安全的感知和控制系统

对图像、视频和激光雷达数据应用增强,以改进不同环境中的检测、分割和车道追踪模型。

表格数据分析

增强用于风险、分割和欺诈检测的结构化数据集

估算缺失值、检测 / 删除异常值、设计新特征并对少数类别进行上采样,以提高模型准确性。

医疗健康

加强诊断模型和电子病历分析

增强医学影像或结构化健康记录,以改进对疾病检测、治疗建议和临床预测的预测。

遥感和地理空间信息

促进土地使用建模和变化检测

通过采样、裁剪、抖动或时间序列变化来增强卫星图像,以改进环境监测和城市规划模型。

数据增强有哪些优势?

提高模型性能

通过扩大数据集规模并增加其多样性,实现更准确、更可靠的预测。

增强隐私保护

对敏感数据进行转换,在保留数据实用价值的同时降低重新识别的风险。

解决类别失衡问题

为少数群体类别生成更多样本,以提高公平性并减少模型偏差。

减少过拟合

生成多样化的数据变体,避免模型记住训练数据。

挑战和解决方案

数据增强需要审慎选择并进行验证,避免引入偏差、标签污染或降低数据质量。正确方法取决于数据模态、任务需求和隐私限制。

选择正确的增强技术

最佳转换取决于模态和任务类型。

解决方案:

  • 理解数据集结构和约束条件。
  • 采用特定领域的增强策略。
  • 对比验证使用增强前后的模型性能。

保持标签完整性

错误转换可能导致标签失效。

解决方案:

  • 确保转换后语义信息不变。
  • 通过自动化验证识别异常样本。
  • 尽可能采用监督式增强。

引入偏差或伪影

过度增强会产生不真实或偏差的样本。

解决方案:

  • 监测数据分布偏移。
  • 控制增强强度或应用概率。
  • 使用生成模型保留真实世界结构特征。

敏感数据的隐私风险

在某些场景下,增强可能无法完全消除 PII。

解决方案:

  • 将增强功能与匿名化或差分隐私技术相结合。
  • 使用合成数据技术处理自然语言或自由文本。
  • 持续评估隐私泄露风险。

后续步骤

准备好开始了吗?

利用可扩展的增强技术提高模型性能和数据质量。

使用结构化转换和合成数据生成来扩展数据集、减少不平衡并强化隐私保护。

AI 和 3D 工作流中的合成数据生成

了解如何为 AI 和 3D 工作流生成合成数据。

及时了解 NVIDIA 新闻

获取有关数据增强、合成数据和 NVIDIA AI 开发工具的最新信息。