利用特定领域的高质量合成数据加速开发自主式工作流。
概览
要训练专业的智能代理系统,需要广泛的高质量数据集,而这些数据集通常非常稀缺、相互孤立或具有敏感性。如果有合成数据,则可以为任何领域大规模生成多样化的数据集,从而消除上述瓶颈,加速 AI 智能体的开发。
合成数据有助于应对多种挑战,例如:
“到 2026 年,75% 的企业将使用生成式 AI 来生成合成客户数据,而 2023 年这一比例不到 5%。”
Gartner®;“Over 100 Data, Analytics and AI Predictions Through 2030”;作者:Sarah James、Alan D. Duncan;2025 年 5 月 2 日
GARTNER 是 Gartner, Inc. 和/或其关联公司在美国和其他国家/地区的注册商标和服务商标,经许可在此处使用。保留所有权利。
快速链接
代理式 AI 模型使自主系统能够在数字环境和现实环境中进行推理、规划和执行以目标为导向的行动。基于文本的合成数据对于安全、高效地大规模训练和评估这些模型至关重要。
生成式 AI 可用于生成进行高质量对话所需的数据,捕捉特定领域的语言、意图变化和罕见的边缘案例,克服现实转录数据稀缺的局限性。通过使用量身定制的对话来丰富训练数据,可以提高对话式 AI 的准确性和适应能力,并能够使其更好地处理细致入微的多回合互动。
可以使用具有针对性的评估和基准测试数据集(例如特定领域的问答对)来衡量和提升检索增强型生成 (RAG) 系统的性能。基于同一使用案例并排比较多个模型可确保评估的一致性和公平性,并确保做出明智的模型选择。
专有编码语言或小众语言等低资源领域能够极大地受益于逼真、复杂的合成文本数据,因为此类数据有助于提升 AI 模型的推理能力、准确性和整体性能。
借助旨在遵守 HIPAA 和 GDPR 等数据隐私法规的默认配置,NeMo Safe Synthesizer 可生成敏感数据的隐私安全版本,让用户能够无缝访问合成医疗数据,而不会受到监管或隐私限制,从而在内部和外部实现广泛的知识共享。
设计高保真的合成文档数据集,用于税务表单验证、法律文件、抵押贷款审批和其他结构化数据应用领域的大规模 AI 模型训练。
技术实现
配置要用于合成数据生成 (SDG) 的模型:在 NeMo Data Designer 中连接并自定义用于生成合成数据的模型。您可以使用模型别名以便轻松引用,还可微调推理参数,获得符合需求的输出质量和样式。
配置要用于实现数据集多样化的种子数据集:要生成与特定领域相符的合成数据,最有效的方式是使用现有的现实数据集作为 SDG 流程的种子。通过提供真实数据作为基础,您可以指导生成流程,确保合成数据保持实际数据的模式、分布和特征。
配置要用于实现数据集多样化的列:通过定义可协同工作以生成逼真、高质量数据的列,设计合成数据集的结构和内容。列是基本构建块,用于决定将生成哪些数据,以及所生成数据的结构。
使用提示和结构化输出来配置 LLM 生成的列:通过定义可协同工作以生成逼真数据的列,设计合成数据集的结构和内容。列是基本构建块,用于决定将生成哪些数据,以及所生成数据的结构。Data Designer 具备强大的功能,能够按用户定义的模式生成结构化数据。
预览数据集并优化设置:生成一个小的样本以进行验证。根据预览结果完善您的设计。
大规模生成数据。一旦您的设计符合您的要求,您便可以扩大规模以生成完整的数据集。
评估数据质量:借助 NeMo Data Designer 中全面的验证和评估工具,确保生成高质量的合成数据。利用自动化指标和基于 LLM 的评判标准,验证生成的代码是否正确,并评估整体数据质量。
快速链接
为对话式 AI、评估和基准测试以及其他代理式 AI 使用案例构建您自己的 SDG 工作流。