2022-03-10 组会报告摘要-01 | 电力大数据研究院

本次将会介绍有关《基于联邦对抗生成网络的用户用电隐私数据共享研究》的进展。

内容主要包括，1.如何在分布式GANs网络联邦学习过程中添加合适噪声（Noise），2.由分布式GANs网络生成的数据集Fake DataSet 如何计算它的隐私损失（Privacy Loss）。

课题的背景

在上一次的课题进展介绍中，我们已经实现了使用联邦学习训练分布式GANs网络的目的，经过训练后的GANs网络能够生成Fake Dataset ，这些Fake Dataset 在分类任务上取得了不错的效果。

为了保证数据的隐私，我们在联邦训练的过程中，向本地判别网络中的梯度（Local Gradient）添加了一定量的噪声，这种情况下生成的Fake Dataset在分类中仍然取得了不错的成绩，但这只能说明GANs生成数据的可用性满足要求，而我们添加的噪声是否合适以及它的隐私性是否达到了预期要求，当时并没有明确的评价方案。为了解决这个问题，我们将差分隐私的概念应用到我们的数据生成框架中。

补充知识

相邻数据集：如果两个数据集x和x‘中只存在单个个体的数据不同，则将其视为相邻数据集。

差分隐私：对于一个随机机制F，如果对于所有的相邻数据集x和x‘，F的输出F（x）和F（x’）几乎是相同的，即从F观察到的输出不会揭示x或x’中哪一个是输入，那么就说F机制满足差分隐私。

面临的问题

I.训练过程中添加多少噪声？

这个问题容易解决，我们在GANs的判别网络中按照高斯噪声机制（Gauss noise mechanism）添加相对应的噪声即可。

II.如何评估生成数据集的隐私损失？这个是整个评估问题的难点。

由差分隐私的定义可知，对于原始数据集D以及生成数据集D’，若要实现GANs生成数据集的差分隐私评估。我们需要按照如下5步进行：

1.在原始数据集D上训练GANs。2.从原始数据集D上随机删除一些样本i，此时数据集为D^-i 3.在集合D^-i上重新训练GANs 4.估计所有输出的概率分布，估计以及最大化的隐私损失值5.重复步骤1~4足够多次，以近似高斯差分隐私机制中的隐私预算ξ和失败概率δ，（ξ，δ）。

但在GANs数据的实际评估过程中，上述5步会面临两个具体的难点：

1.由于数据众多，重复步骤1~3将会耗费非常多的计算资源

2.在步骤4中，由于定义中的隐私边界要求严苛，使得获得最大隐私损失值十分困难

解决方案

为了解决评估过程中存在的上述两个问题，

1.我们尝试使用数据相似指标sim（x,y）来评估两个数据点的相似程度，其中x来自于原始数据集D，y来自于生成数据集D‘。我们在D中删除数据x得到的相邻数据集D^-x，而y代表x在生成数据D’中的映射，我们从D’中删除y得到其相似数据集D‘^-y，那么我们便可以尝试直接使用D‘和D’^-y作为相邻数据集来评估，而不必使用上述步骤1~3

2.我们放松在步骤4中的隐私损失边界，因此可以使用高纬KL-divergency estimator 获取每一对D‘和D’^-y相邻数据数据集的隐私损失（privacy loss）。

解决方案带来的好处

1.简化了为获取GANs相邻数据集频繁的训练过程,

2.使得评估生成数据的隐私损失成为了现实

待完成的任务

1.调试相关的隐私损失评估方案代码

2.使用常用的攻击方式对模型进行测试，包括Model inersion和Membership inference.