作者归档:陈志强

2022-11-24组会报告摘要-01

本次组会将介绍《数据合成技术综述》,内容包括:

1.什么是合成数据

2.为什么需要合成数据?主要从隐私性方面展开,与其他的匿名化技术进行比较

3. 介绍合成数据的优势

4. 常用的合成技术有哪些?包括基于插值法,统计模型法和GAN模型,由于开题时以着重介绍了GAN的生成方法,本次分享将重点介绍基于统计模型的数据生成方法。

本次分享,重点介绍统计模型的建立和特点,希望通过本次介绍,将机器学习理论中常用的模型、方法、技术梳理出来它们的由来和解决的问题,包括参数估计模型和非参数估计模型中的:矩估计,极大似然估计(MLE)贝叶斯估计(BE)极大后验估计(MAP)
直方图法(Histogram)核密度估计(KDE)高斯混合模型(GMM)

2022年9月22日 组会报告摘要-01

本次组会将按照博士开题报告要求介绍如下一些内容:

一、选题背景及其意义(包括理论意义和学术价值);
二、国内外研究现状及发展动态分析
三、课题研究内容、目标以及拟解决关键问题;课题研究内容
四、拟采取的研究方案及可行性分析(包括有关方法、技术路线、实验手段、关键技术等说明)研究方案及难点
五、预期成果和可能的创新点
六、论文工作计划

一,研究背景

2. 研究问题:

3.研究目标

为了能够使用个体供应商电力数据的同时保证数据的隐私,我们提出了一种受差分隐私约束联邦学习数据生成模型相结合的框架,实现分布的隐私数据共享。

4.研究的内容

为实现研究目标,我们需要研究如下几个问题

a.数据生成技术研究发展已久,但考虑到电力数据的时序性、高维度等特点,哪种生成技术最为适合我们的研究目标?

b. 考虑实际的电力系统中,用户的用电数据是分散在各个供应商手中,联邦学习虽然已经应用到许多电力系统的监督学习模型中,但无监督学习的生成模型联邦学习相结合研究目前还比较少。尤其是对于GAN这种生成模型中没有直接优化目标函数的模型,联邦学习如何组织各个供应商手中的数据稳定、快速、训练高质量的生成模型仍是一个难点。

c. 为提供生成数据可证明的隐私性保障,方案打算通过2006年提出的差分隐私技术实现。但对于所用的深度学习模型,需要具体考虑差分隐私的噪声如何加入到我们的数据中,是模型训练前,训练后还是训练中?噪声应该加入多少才能保证可用性和隐私性?数据的敏感度是如何度量的?

d. 生成数据是为了能够取代真实数据进行发布的,但如何度量生成数据的相似性可用性,隐私性是一个开放性的问题,涉及到高维度的时间序列数据,生成数据评估方案计算量和可行性也是一个需要考虑的内容。

5. 拟采用方案

针对研究的内容,我们采用的方案如下:

a:比较了主流的数据生成技术,我们选用目前最好的数据生成模型GAN

b:考虑到实际的数据分布情况,我们将联邦学习与GAN结合并将模型的结构进行了适当的改进,采用了中心节点一个生成器的结构,加速模型训练。为了稳定模型训练过程,我们使用了WGAN-GP对数据的梯度进行了约束。为了能够充分提取出电力数据的时序特征,我们在GAN中构建了多层的卷积网络。

c. 经过梳理与分析,我们的方案采用模型训练过程中加入噪声的方式实现差分隐私,即2016年提出的DP-SGD方案,具体而言,我们在GAN中的生成器模型中最后一层激活函数中加入高斯差分隐私。对于敏感度的测量,我们采用2018年提出的瑞丽(Renyi)散度进行计算。

d. 为了能够更好的评估生成的数据的相似性,可用性和隐私性,我们对现有的众多评估指标进行了梳理。对于生成数据的隐私性评估方案这一难题,我们提出了自己的方案,简单来说,是找到真实数据集与生成数据集中最相似的点,同时去除这些记录来构造相邻数据集,实现对隐私损失的计算。

2022年7月21日 组会报告摘要-01

本次组会将介绍个人近期设计实施的一个GAN网络参数更新优化算法:GAN-optimization。 该算法参考工业控制领域中的PID算法,将其结合深层网络的参数梯度更新优化算法,尝试以此解决GAN网络中因为生成器与判别器在对抗训练过程中某一方太强导致模型崩溃的问题。该方案在我们的分布式GAN架构中进行了实验, 在MNIST数据上的结果表明我们的该优化方案能够稳定的训练GAN。

内容主要包括

1.分析GAN网络训练失败的原因,参考其他研究者的解决思路,提出自己的解决方案,

2.回顾梯度,参数更新的基本内容,总结常用的参数更新的策略:SGD,SGD-Momentum, Nesterov Momentum等内容,

3.介绍工业控制领域常用的控制策略PID,

4.比较PID针对误差的控制策略与SGD等参数更新的方案,分析两者之间的区别与联系,将PID优化策略纳入到GAN网络的参数优化过程中。

通过本次组会介绍,我们希望大家能有如下一些收获

1.自动控制领域的闭环控制,PID控制策略

2.回顾梯度,梯度更新,SGD,SGD-Momentum, Nesterov Momentum等深度学习模型的更新策略

3.GAN网络的参数更新策略

4.GAN网络面临的问题以及解决方案

2022-06-02 组会报告摘要-01

本次组会将介绍个人近期实施的一次成员推理攻击案例,通过这个真实的案例推导出差分隐私的公式;并进一步将介绍差分隐私应用到分布式GAN训练中遇到的一系列问题以及目前的解决方案。

内容主要包括:1.针对kaggle比赛的一次成功成员推理的案例,2.由思考如何应对这种攻击而推导出我们的差分隐私公式,3.将差分隐私机制加入到分布式GANs训练的方案,4. 针对原始数据与加入差分隐私后的合成数据D’之间,隐私损失评估方案落地过程中遇到的一系列实际困难和解决方案。

通过本次组会介绍,我们希望大家能有如下一些收获

1.知道什么是成员推理攻击,何种情况下可以实施这种攻击

2.通过应对成员推理攻击,理解什么是差分隐私机制,能够自己推导出差分隐私公式

3.一个现实的数据集的表示方式(经验累积概率分布函数ECDF),它为何无法使用通用的理论分布形式表示(即为何无法用累积概率分布函数CDF,和概率密度函数PDF)

4.如何比较两个数据集之间的差异,J-S散度为什么可用以及它的局限性

5.解决原始数据集D和生成数据集D’的隐私损失评估方案可行性的直观表达

6.如何将数据集的表示、数据集之间的差异性比较从点数据迁移到高维数据

2022-04-14 组会报告摘要-01

本次组会将介绍个人总结的关论文大修的注意事项以及response letter 的书写格式。

内容主要包括,1.论文大修的注意事项,2.修改意见的解读以及汇总方式,3.常见修改方式及图表描述方法,4. response letter的书写的格式与注意事项

对于论文大修的过程

审稿意见解读

首先,查看论文修改的截至日期。其次,逐条解读专家给出的评审意见,并初步制定出每条修改意见的修改范围。接着,汇总出各个专家的评审意见以及整个论文需要修改的部分。最后确制定出论文大修的修改计划,估计大致所需要的时间,确保能够在规定时间前完成论文的修改。

常见的修改意见

1.Introduction 的内容:缺少与某些概念、数据、方法、实际应用的联系;缺少所采用方法的背景、局限性、优势的介绍。(通过了解专家对Introduction提出的意见,可以帮助日后再写其它文章的Introduction有一个比较好的方向。)

2.related works常存在的问题:仅仅将大量论文在文中陈述,没有细致的分类,缺少各个论文中的优势与不足的分析。建议今后的文章把related works中的论文用一张表格按照类似method和Description进行展示,并按照不同使用方法的特点进行分类。

related works 分类

3.实验部分:常见的实验部分的问题包括实验数据不足,实验数据的分析不够,方法缺少对比等内容,这部分属于比较难改且耗费时间的,需要根据意见和实际情况来决定是按照专家的意见进行修改,还是向专家解释所设定的特定条件。

response letter 的书写

1.回复函最好制成表格的形式,便于审稿人查看自己对论文提出的问题,以及你对该问题的回答和修改内容。(注意:节省审稿人的时间就是节省你自己的时间,最好让审稿人能够只看你的回复函而不需要再去看文章,重新看文章可能又有新的意见提出)

回复函的常用格式

2.对审稿人的提出的意见,放低姿态,认真修改并感谢对方提出的问题。常见的感谢语句:

We thank you for the critical comments and helpful suggestions. We have taken all these comments and suggestions into account, and have made major corrections in this revised manuscript. For the problem that…… We have added ……

Thank you for your comments and suggestion concerning our manuscript. The comments and suggestions are all valuable and very helpful for revising and improving our paper, as well as the important the important guiding significance to our research. We have studied comments carefully and have made correction which we hope to meet with approval:

3.制定出文章修改的综述,方便审稿人和编辑查看论文修改的内容,最好也做成表格

文章修改综述

2022-03-10 组会报告摘要-01

本次将会介绍有关《基于联邦对抗生成网络的用户用电隐私数据共享研究》的进展。

内容主要包括,1.如何在分布式GANs网络联邦学习过程中添加合适噪声(Noise),2.由分布式GANs网络生成的数据集Fake DataSet 如何计算它的隐私损失(Privacy Loss)。

课题的背景

在上一次的课题进展介绍中,我们已经实现了使用联邦学习训练分布式GANs网络的目的,经过训练后的GANs网络能够生成Fake Dataset ,这些Fake Dataset 在分类任务上取得了不错的效果。

为了保证数据的隐私,我们在联邦训练的过程中,向本地判别网络中的梯度(Local Gradient)添加了一定量的噪声,这种情况下生成的Fake Dataset在分类中仍然取得了不错的成绩,但这只能说明GANs生成数据的可用性满足要求,而我们添加的噪声是否合适以及它的隐私性是否达到了预期要求,当时并没有明确的评价方案。为了解决这个问题,我们将差分隐私的概念应用到我们的数据生成框架中。

补充知识

相邻数据集:如果两个数据集x和x‘中只存在单个个体的数据不同,则将其视为相邻数据集

差分隐私:对于一个随机机制F,如果对于所有的相邻数据集x和x‘,F的输出F(x)和F(x’)几乎是相同的,即从F观察到的输出不会揭示x或x’中哪一个是输入,那么就说F机制满足差分隐私。

面临的问题

I.训练过程中添加多少噪声?

这个问题容易解决,我们在GANs的判别网络中按照高斯噪声机制(Gauss noise mechanism)添加相对应的噪声即可。

II.如何评估生成数据集的隐私损失这个是整个评估问题的难点。

由差分隐私的定义可知,对于原始数据集D以及生成数据集D’,若要实现GANs生成数据集的差分隐私评估。我们需要按照如下5步进行:

1.在原始数据集D上训练GANs。2.从原始数据集D上随机删除一些样本i,此时数据集为D-i 3.在集合D-i上重新训练GANs 4.估计所有输出的概率分布,估计以及最大化的隐私损失值5.重复步骤1~4足够多次,以近似高斯差分隐私机制中的隐私预算ξ和失败概率δ,(ξ,δ)。

但在GANs数据的实际评估过程中,上述5步会面临两个具体的难点:

1.由于数据众多,重复步骤1~3将会耗费非常多的计算资源

2.在步骤4中,由于定义中的隐私边界要求严苛,使得获得最大隐私损失值十分困难

解决方案

为了解决评估过程中存在的上述两个问题,

1.我们尝试使用数据相似指标sim(x,y)来评估两个数据点的相似程度,其中x来自于原始数据集D,y来自于生成数据集D‘。我们在D中删除数据x得到的相邻数据集D-x ,而y代表x在生成数据D’中的映射,我们从D’中删除y得到其相似数据集D‘-y,那么我们便可以尝试直接使用D‘和D’-y作为相邻数据集来评估,而不必使用上述步骤1~3

2.我们放松在步骤4中的隐私损失边界,因此可以使用高纬KL-divergency estimator 获取每一对D‘和D’-y相邻数据数据集的隐私损失(privacy loss)。

解决方案带来的好处

1.简化了为获取GANs相邻数据集频繁的训练过程,

2.使得评估生成数据的隐私损失成为了现实

待完成的任务

1.调试相关的隐私损失评估方案代码

2.使用常用的攻击方式对模型进行测试,包括Model inersion和Membership inference.

2021-12-02 组会报告摘要-01

本次将会介绍有关《基于联邦对抗生成网络的用户用电隐私数据共享研究》的进展。

进展内容主要在两个部分的实验:

1.联邦学习下WDCGANs的生成实验,以及生成数据在聚类、分类任务取得的表现。

2.加入了差分隐私,多方安全计算理念的联邦WDCGANs数据生成实验,以及生成数据在分类,聚类任务中取得的表现。

两个实验都在包括2个、4个,10个数据节点上分别进行了Mnist(手写数字识别,图片数据),CER(用电数据,时序数据)数据集的数据生成并在分类、聚类任务中取得了良好的效果

下面补充课题的背景知识

课题的背景:目前有很多深度学习的模型应用在电力系统中,如用户的用电行为分析,电网的负荷预测,新能源的消纳融合。这些模型的研究和实验,多数是假设数据可以从一个数据湖中自由的访问和共享

研究的问题:然而,在实际的应用中,电力数据由不同的零售商所共享,由于电力数据的敏感特性及相关法规,电力数据不能自由的访问和共享。这成为了制约各种深度学习模型在电力领域应用和研究的瓶颈

研究目的:我们提出使用联邦学习和对抗生成网络结合的方法实现用户用电隐私数据共享。

研究课题的整体思路

本次汇报,主要是介绍第2,3实现目标。

实现的目标:1.由于GANs网络的方法能够通过生成的方式实现隐私数据共享,因此,我们尝试设计一款适合电力时序数据的WDCGANs,生成电力数据用于共享。此时,我们针对的是某一个节点的数据进行生成实验,目的是设计一种能稳定生成电力数据的网络,并在socio-demographic任务中测试生成数据的质量。

2.解决单个数据源数据有限的问题,我们使用的方法是在GANs中加入联邦学习的理念,在多个节点共同训练WDCGANs。此时生成的数据是所有节点共同构成数据集,相当于拥有了所有节点的相似数据。我们在整个阶段设计了4个节点,10个节点的联邦WDCGANs的网络,并在Mnist,CER数据集上进行生成实验。生成的数据进行分类,聚类,回归实验,验证数据是否能够在这些任务中取代真实数据。

3. 解决联邦学习训练的模型可能由于梯度信息泄露造成的安全问题。我们在联邦WDCGANs的各个节点的梯度信息中加入差分隐私,或采用多方安全计算的方式汇集各个节点的梯度信息,以此,解决梯度信息可能泄露的问题。我们的实验设计了4个,10个节点的Fed-WDCGANs模型,并在 在Mnist,CER数据集上进行生成实验。生成的数据进行分类,聚类,实验。

模型带来的好处:

1.实现数据共享,

2.促进下游任务(分类,回归,聚类)的研究,

3.可以轻松汇集来自不同来源的数据,为分层聚合和构建更强大的数据提供可能性。

存在的问题:1.多方安全计算汇聚梯度信息时,汇聚的方式是否需要第三方还未考虑清楚。

2.尝试了对梯度信息使用RSA加密汇聚,但实验并没有成功。问题出在使用pytorch计算梯度时,batch计算时中间产生了一些文本信息,致使梯度合并时夹杂了不需要的内容。

3.尝试对CER数据进行聚类后,给每个用电数据一个新的标签进行分类实验,但取得的效果很差。

待完成的任务

1.生成数据在回归任务中的表现。后续需要研究电力数据用于负荷预测,并用真实数据与生成数据进行比较。

2.实验是在各个节点的数据为非独立同分布的情况下进行的,而独立同分布的情况还没有进行,需要补充完成。

3.第二,三篇论文的攥写。