差分隐私是一个数学框架,通过在数据分析中添加校准噪声来提供可验证的隐私保证,使组织能够在不暴露敏感个人信息的情况下提取见解并训练模型。
差分隐私可保护个体数据点,同时使模型能够学习整体模式和分布。它的工作原理在数据分析过程中引入经过精心校准的随机性,并在查询结果或模型训练中添加噪声,使得从统计角度无法确定是否包含了任何特定个体的数据。
这由一个名为 epsilon (ε) 的参数控制,该参数定义了隐私预算:epsilon 值越低,隐私保护力度越强,引入的噪声也更多;而 epsilon 值越高,数据精度保留得越多,隐私保障力度则相对较弱。
Laplace 机制:将从 Laplace 分布中提取的噪声添加到数值查询结果中。噪声量取决于查询灵敏度,即输出结果在单条记录中的变化程度。
高斯机制:与拉普拉斯机制类似,但使用高斯 (正态) 分布噪声。通常首选用于复杂查询和大型数据集。
指数机制:用于非数值输出,根据评分函数的权重从可能的结果中选择结果,同时保持隐私。
DP-SGD (差分隐私随机梯度下降):通过裁剪梯度并添加噪声,在机器学习模型训练期间应用差分隐私,防止模型记住单个训练示例。
差分隐私在那些需要分析或共享敏感数据同时又要维持强有力隐私保障的行业中得到应用。它使得各组织能够在不引发个体身份被重新识别风险的前提下,提取汇总性洞察信息、训练机器学习模型并发布统计数据。
实现差分隐私需要平衡隐私保障与数据可用性。 组织必须仔细管理隐私预算,选择适当的机制,并验证噪声水平是否保持分析价值。
要开始使用差分隐私,需要了解您的隐私要求并为您的用例选择适当的机制。
后续步骤
构建具有可证明的差分隐私保障的隐私保护 AI。
将差分隐私应用于合成数据生成、模型训练和分析流程,在保持可用性的同时保护敏感信息。
在这个 20 分钟的教程中,上传样本客户数据、替换个人身份信息、微调模型、生成合成记录并查看评估报告。
获取有关差分隐私、合成数据和 NVIDIA 隐私保护 AI 工具的最新信息。