本次将会介绍有关《基于联邦对抗生成网络的用户用电隐私数据共享研究》的进展。
进展内容主要在两个部分的实验:
1.联邦学习下WDCGANs的生成实验,以及生成数据在聚类、分类任务取得的表现。
2.加入了差分隐私,多方安全计算理念的联邦WDCGANs数据生成实验,以及生成数据在分类,聚类任务中取得的表现。
两个实验都在包括2个、4个,10个数据节点上分别进行了Mnist(手写数字识别,图片数据),CER(用电数据,时序数据)数据集的数据生成,并在分类、聚类任务中取得了良好的效果。
下面补充课题的背景知识
课题的背景:目前有很多深度学习的模型应用在电力系统中,如用户的用电行为分析,电网的负荷预测,新能源的消纳融合。但这些模型的研究和实验,多数是假设数据可以从一个数据湖中自由的访问和共享。
研究的问题:然而,在实际的应用中,电力数据由不同的零售商所共享,由于电力数据的敏感特性及相关法规,电力数据不能自由的访问和共享。这成为了制约各种深度学习模型在电力领域应用和研究的瓶颈。
研究目的:我们提出使用联邦学习和对抗生成网络结合的方法,实现用户用电隐私数据的共享。
本次汇报,主要是介绍第2,3实现目标。
实现的目标:1.由于GANs网络的方法能够通过生成的方式实现隐私数据共享,因此,我们尝试设计一款适合电力时序数据的WDCGANs,生成电力数据用于共享。此时,我们针对的是某一个节点的数据进行生成实验,目的是设计一种能稳定生成电力数据的网络,并在socio-demographic任务中测试生成数据的质量。
2.解决单个数据源数据有限的问题,我们使用的方法是在GANs中加入联邦学习的理念,在多个节点共同训练WDCGANs。此时生成的数据是所有节点共同构成数据集,相当于拥有了所有节点的相似数据。我们在整个阶段设计了4个节点,10个节点的联邦WDCGANs的网络,并在Mnist,CER数据集上进行生成实验。生成的数据进行分类,聚类,回归实验,验证数据是否能够在这些任务中取代真实数据。
3. 解决联邦学习训练的模型可能由于梯度信息泄露造成的安全问题。我们在联邦WDCGANs的各个节点的梯度信息中加入差分隐私,或采用多方安全计算的方式汇集各个节点的梯度信息,以此,解决梯度信息可能泄露的问题。我们的实验设计了4个,10个节点的Fed-WDCGANs模型,并在 在Mnist,CER数据集上进行生成实验。生成的数据进行分类,聚类,实验。
模型带来的好处:
1.实现数据共享,
2.促进下游任务(分类,回归,聚类)的研究,
3.可以轻松汇集来自不同来源的数据,为分层聚合和构建更强大的数据提供可能性。
存在的问题:1.多方安全计算汇聚梯度信息时,汇聚的方式是否需要第三方还未考虑清楚。
2.尝试了对梯度信息使用RSA加密汇聚,但实验并没有成功。问题出在使用pytorch计算梯度时,batch计算时中间产生了一些文本信息,致使梯度合并时夹杂了不需要的内容。
3.尝试对CER数据进行聚类后,给每个用电数据一个新的标签进行分类实验,但取得的效果很差。
待完成的任务:
1.生成数据在回归任务中的表现。后续需要研究电力数据用于负荷预测,并用真实数据与生成数据进行比较。
2.实验是在各个节点的数据为非独立同分布的情况下进行的,而独立同分布的情况还没有进行,需要补充完成。
3.第二,三篇论文的攥写。