作者归档:杨顺博

2024-11-07-组会摘要01

今天主要针对我的《合成数据评估研究》进行介绍。

背景

在许多行业和领域中,数据被视为推动科学研究、技术创新和机器学习发展的关键资源。然而,现实中许多真实数据涉及敏感的隐私信息,尤其是在医疗、金融、政府和教育等行业。随着个人隐私保护意识的提升,全球范围内的法律法规也不断加强,对数据共享和公开的限制日益严格。例如,欧洲的GDPR(通用数据保护条例)和美国的HIPAA(健康保险携带与责任法案)等法律明确规定了数据的使用、存储和共享的严格要求。这些法律的实施有效保障了个体隐私权利,但同时也造成了数据的封闭性,限制了新技术的应用,尤其是对科学研究和机器学习算法的开发和验证造成了阻碍。

在此背景下,生成模型(如生成对抗网络GANs、变分自编码器VAEs等)作为一种新兴的技术,提供了一个潜在的解决方案。生成模型能够通过学习真实数据的统计分布,生成与真实数据相似的合成数据。与真实数据相比,合成数据不包含具体的个人信息,因此不会违反隐私保护规定,但它仍然能够保留真实数据的大部分分布信息。这意味着,研究人员可以使用这些合成数据进行科学实验、模型训练和算法验证,从而避免了隐私泄露的风险,并且仍能进行高质量的研究和分析。

•在这个背景下,合成数据(synthetic data)的评估显得尤为重要。尽管生成模型为解决隐私问题提供了一个潜在的解决方案,但合成数据的质量和有效性直接影响到科学研究和机器学习应用的可靠性。如果合成数据无法充分反映真实数据的特征和分布,或存在系统性偏差,它可能导致模型训练和结果分析的偏差。因此,如何准确评估合成数据的质量成为了确保其广泛应用的关键。

当前合成数据的评估维度主要包括:

•Fidelity: 生成的样本应当与真实数据集 𝑃𝑟 中的真实样本相似。一个高忠实度的合成数据集应包含“realistic”的样本,例如视觉上真实的图像。

•Usefulness: 使用真实数据训练的模型在进行下游的ML任务时的效果,应该与使用合成数据或合成数据混合真实数据的训练集在进行下游的ML任务时的效果相近。

•Diversity: 生成的样本应足够多样化,以覆盖真实数据的变异性。也就是说,模型应能够生成多种高质量的样本。

•Generalization: 生成的样本不应仅仅是训练数据中(真实)样本的简单复制,即对真实数据 𝐷𝑟𝑒𝑎𝑙过拟合的模型并不是真正的“生成性”模型。

研究问题

•不同类型的数据(tabular data, time series data等)需要使用不同的evaluation的方法来进行评估 [8]。

•比起先前仅使用likelihood来对合成数据进行评估的方法,现在更加趋近于使用维度的方法来对合成数据进行评估[9]。

•合成数据直接copy原始数据的问题(overfitting problem)[1][10]。

研究目的

1.针对现有的评测维度,提出一个新的evaluation的维度,结合现有的维度,组成全新的评测框架

2.在现有的evaluation的维度中提出全新的方法来对合成数据的质量进行评估。

2024-09-19-组会摘要01

今天我报告的内容为《合成数据下的不确定性量化(Uncertainty Quantification)研究》。

科研背景

近年来,通过生成模型生成合成数据在机器学习(ML)社区及其他领域越来越受到关注,合成数据既可以与真实数据共同使用来增强数据(data augmentation),又可以使用合成数据代替原始数据来进行下游的机器学习任务。然而,合成数据通常并不完美,可能导致下游任务中出现潜在错误。下图的结果表明,简单地将合成数据视为真实数据的方法会导致下游模型和分析在实际数据上泛化能力不佳。

科研问题

1.将合成数据代替原始数据来进行下游的ML任务,会导致任务性能不佳的问题,包括模型泛化、评估和不确定性量化等方面,这些问题源于合成数据生成过程中存在的错误。

2.虽然目前有很多研究在研究ML/DL下的不确定性量化,但是目前较少的研究在关注合成数据对于下游机器学习任务所带来的不确定性。

科研目的

为了解决这些挑战,我们提出了一种框架。旨在近似生成模型参数的不确定性,并改进下游模型的训练、评估和不确定性量化,特别是在合成数据容易出现不准确的低密度区域。

2024-07-04-组会摘要01

今天主要针对我的《AC-WTGAN: An Improved Generative Adversarial Network Framework for Residential Load Profile Generation》的实验结果进行展示。

科研背景

随着能源领域的快速发展,先进计量基础设施(Advanced Metering Infrastructure, AMI)已成为智能电网的关键组成部分。AMI集成了智能电表和强大的通信网络,促进了电力公司(utility companies)与消费者之间实时、双向的数据交换。这项技术不仅改变了传统的电力计量和管理方法,还为数据驱动的能源应用奠定了坚实的基础。作为AMI的核心元素,智能电表实时测量消费者的能源使用情况,并将这些数据传输给电力公司。为了分析住宅用电量数据及相应的社会人口统计信息,机器学习在需求预测、优化电力分配以及检测窃电等任务上取得了巨大成功。

科研问题

然而,完成上述任务的关键挑战之一是居民用电数据的敏感性以及隐私法规(如欧盟的《通用数据保护条例》(GDPR)和美国的《美国数据隐私与保护法案》(ADPPA))限制了个人信息的共享。这一限制使得下游电力供应商难以利用大规模数据集开发多种用途的机器学习算法。

此外,现有的家庭用电数据集往往存在数据不平衡的问题。因为在现实世界中,一些基于社会人口学数据的家庭类型通常样本稀疏,导致现有的各种居民能源消耗数据集在数量和质量上都不平衡。高度不平衡数据样本的存在会在分类器中引入标记偏差,即分类器的决策边界易受来自多数类(majority class)的数据的影响。因此,来自少数类别(minority class)的数据实例可能会被选择性忽略,从而影响下游机器学习分类器的准确性。

为了解决这些问题,生成对抗网络(GANs)作为一种先进的时间序列生成模型备受关注。特别是GANs 可以在训练过程中从真实数据中学习复杂的分布,并生成具有类似特征的合成数据。因此,对于居民负荷的隐私问题,GANs 可以保留关键的统计模式,包括居民用电的动态和随机特征,同时对敏感信息进行匿名处理,以确保用户隐私。

针对不平衡数据的挑战,GANs 可用于生成具有相应社会人口数据的居民负荷数据从而平衡数据集,使电力公司(utility companies)能够使用大规模数据集预测需求和管理配电。

科研问题

作为原始 GAN 的改进模型,TimeGAN 专为生成时间序列数据而设计,TimeGAN 的所有网络都由循环神经网络(RNN)组成,如长短时记忆(LSTM)和门控循环单元(GRU)。虽然基于 TimeGAN 的时间序列数据生成方法取得了一些进展,但仍有一些局限性有待解决。具体来说,TimeGAN 忽略了复杂网络训练的稳定性。特别是,在生成带有社会人口学特征的居民用电数据时,TimeGAN 的不稳定性训练过程是主要由三方面造成,分别来自于 Jensen-Shannon 散度作为损失韩式的不足、带有社会人口信息的居民负荷曲线数据的内在复杂性以及长时间序列数据的长期依赖性。

此外,目前许多评估生成样本的方法主要依赖于目测(Visual Inspection, VI),而忽略了系统的评估方法,以及在训练下游机器学习模型时评估其替代真实数据的有效性,而训练数据的质量极大地影响了监督网络模型的性能。

科研目的

本文提出了TimeGAN的改进版架构,AC-WTGAN(Auxiliary Classifier Wasserstein TimeGAN),以更稳定地生成居民用电数据。

同时,我们将合成数据的评价方法系统地(systematically)分为相似性评价和可用性评价,以全面评价生成数据的质量。

研究框架

2024-05-23-组会摘要01

今天主要从写作行文的角度来对我的研究《AC-WTGAN: An Improved Generative Adversarial Network Framework for Residential Load Profile Generation》进行介绍。

科研背景

随着能源领域的快速发展,先进计量基础设施(Advanced Metering Infrastructure, AMI)已成为智能电网的关键组成部分。AMI集成了智能电表和强大的通信网络,促进了电力公司(utility companies)与消费者之间实时、双向的数据交换。这项技术不仅改变了传统的电力计量和管理方法,还为数据驱动的能源应用奠定了坚实的基础。作为AMI的核心元素,智能电表实时测量消费者的能源使用情况,并将这些数据传输给电力公司。为了分析住宅用电量数据及相应的社会人口统计信息,机器学习在需求预测、优化电力分配以及检测窃电等任务上取得了巨大成功。

科研问题

然而,完成上述任务的关键挑战之一是居民用电数据的敏感性以及隐私法规(如欧盟的《通用数据保护条例》(GDPR)和美国的《美国数据隐私与保护法案》(ADPPA))限制了个人信息的共享。这一限制使得下游电力供应商难以利用大规模数据集开发多种用途的机器学习算法。

此外,现有的家庭用电数据集往往存在数据不平衡的问题。因为在现实世界中,一些基于社会人口学数据的家庭类型通常样本稀疏,导致现有的各种居民能源消耗数据集在数量和质量上都不平衡。高度不平衡数据样本的存在会在训练有素的分类器中引入标记偏差,即分类器的决策边界倾向于主要受来自多数类的大量数据的影响。因此,来自少数类别的数据实例可能会被选择性忽略,从而影响下游机器学习分类器的准确性。

作为原始 GAN 的改进模型,TimeGAN 专为生成时间序列数据而设计,TimeGAN 的所有网络都由循环神经网络(RNN)组成,如长短时记忆(LSTM)和门控循环单元(GRU)。虽然基于 TimeGAN 的时间序列数据生成方法取得了一些进展,但仍有一些局限性有待解决。具体来说,TimeGAN 忽略了复杂网络训练所产生的稳定性。特别是,在生成带有社会人口学特征的居民用电数据时,TimeGAN 的不稳定性训练过程是主要由三方面造成,分别来自于 Jensen-Shannon 散度的不足、带有相应社会人口信息的居民负荷曲线数据的内在复杂性以及长时间序列数据的长期依赖性。

此外,目前许多评估生成样本的方法主要依赖于目测(Visual Inspection, VI),而忽略了系统的评估方法,以及在训练下游机器学习模型时评估其替代真实数据的有效性,而训练数据的质量极大地影响了监督网络模型的性能。

科研目的

本文提出了TimeGAN的改进版架构,AC-WTGAN(Auxiliary Classifier Wasserstein TimeGAN),以更稳定地生成居民用电数据。

同时,我们将评价方法系统地(systematically)分为相似性评价和可用性评价,以全面评价生成数据的质量和数量。

2024.03.28-组会摘要01

今天主要对我的研究基于AC-TimeGAN模型的电力时序数据生成研究进行汇报

科研背景

随着先进计量基础设施(Advanced Metering Infrastructure, AMI)的出现使得人们能够以细粒度的时间分辨率分析住宅负荷特性,这种数字化计量基础设施通常被视为能源转型的一个推动者。在用电测,它不仅仅简化了电能的计量,更重要的是为住宅用户提供了便利,通过数据的精准采集和实时监控,居民能够更清晰地了解自己的能源使用情况,从而做出更加节能的决策。

科研问题

因此,在电力行业中,智能电表的广泛部署使得使用人工智能技术来细致分析用户的用电数据变得可行。然而,这些技术为了高效训练通常需要大量有代表性的数据集。因此带来了下面的挑战:

•收集这些数据面临着显著的安全和隐私挑战

•高质量的公开数据集也相对稀缺

为了解决上述的挑战,使用合成数据(Synthetic Data)代替原始数据来进行下游的机器学习训练成为了一种可行的方案。在时间序列领域,时间序列生成对抗网络(Time-series Generative Adversarial Networks,TimeGAN)这一GAN的变种进一步扩展了这一领域,为电力时间序列数据的生成提供了创新的解决方案。

家庭智能电表的时间序列数据通常包含丰富的信息,如能源消耗模式、峰值使用时段等。这些数据通常与社会人口统计数据(如家庭大小、位置、收入水平)有关联,使得数据的特征非常复杂和多变。尽管TimeGAN是一种有效的时序数据生成模型,但其在处理具有丰富特征和复杂关联的真实世界数据时仍然可能无法生成稳定且高质量的数据。

科研目的

提出了时间序列生成模型Auxiliary Classifier Wasserstein TimeGAN with Gradient Penalty(AC-TimeGAN),在保护用户隐私的同时,实现数据价值属性的流通。相比于传统的TimeGAN模型,本文提出的模型同时通过引入Wasserstein距离和辅助分类器,提高了模型的稳定性和生成数据的质量,从而能够更好地处理和生成复杂的时间序列数据。

这种改进的模型可以更有效地处理复杂的真实世界时间序列数据。在家庭智能电表数据中,AC-TimeGAN能够模拟和生成符合实际社会人口统计特征的高质量合成数据,从而在能源需求预测、用户行为分析等方面提供洞察。

TimeGAN
AC-TimeGAN

2023-12-21 组会报告摘要-01

本次组会将会继续针对我上次汇报的内容《基于AC-TimeGAN-GP模型的电力时序数据生成研究》进行汇报。

科研背景

随着新一轮能源技术革命的兴起,我国提出以碳达峰、碳中和为目标的能源战略,建立清洁、低碳、安全、高效的能源体系。对于这些目标,电力行业正在经历着多维度的转型,在用电侧,消费者的消费方式也朝着数字化、个性化、便捷化、开放化的方向转变。

2020年,我国首次将数据纳入五大生产要素之一,数据作为战略性和基础性资源的价值已经得到社会的广泛认可。无论是数据收集、分析还是使用,都已经成为现在社会各行各业的核心工作,其中电力行业也不例外。截至到2022年底,我国已经部署了7亿个智能电表。因此,使用人工智能技术对细粒度的用户用电数据进行分析,可以为消费者提供更多个性化的能源使用服务,帮助电力供应商训练更加准确的负荷预测模型,制定更加高效的电力调度决策,提高新能源的消纳量。

科研问题

因此,在电力行业中,智能电表的广泛部署使得使用人工智能技术来细致分析用户的用电数据变得可行。这种分析尤其在处理短期电力负载变化时显得至关重要。这不仅帮助消费者获得更加个性化的能源使用服务,而且还能帮助电力供应商更准确地预测电力负荷,从而制定出更有效的电力调度策略,并提高新能源的利用效率。然而,这些技术为了高效训练通常需要大量有代表性的数据集。然而,收集这些数据面临着显著的安全和隐私挑战,同时,高质量的公开数据集也相对稀缺。

因此,为了解决上述的矛盾,使用合成数据(Synthetic Data)代替原始数据来训练训练机器学习算法成为了一种可行的方案。而生成式对抗网络(Generative Adversarial Networks, GANs)身为目前最好的合成数据解决方案,展现出了其独特的优势。继GAN之后,时间序列生成对抗网络(Time-series Generative Adversarial Networks,TimeGAN)这一GAN的变种进一步扩展了这一领域,为时间序列数据的合成提供了创新的解决方案。

家庭智能电表的时间序列数据通常包含丰富的信息,如能源消耗模式、峰值使用时段等。这些数据通常与社会人口统计数据(如家庭大小、位置、收入水平)有关联,使得数据的特征非常复杂和多变。尽管TimeGAN是一种有效的时间序列数据生成模型,但其在处理具有丰富特征和复杂关联的真实世界数据时仍然存在局限性。例如,它无法充分捕捉到社会人口统计特征与能源消耗之间的关系。

科研目的

提出了时间序列生成模型Auxiliary Classifier Wasserstein TimeGAN with Gradient Penalty(AC-TimeGAN-GP),在保护用户隐私的同时,实现数据价值属性的流通。相比于传统的TimeGAN模型,本文提出的模型同时通过引入Wasserstein距离和ACGAN的辅助分类器,提高模型的稳定性和数据的质量,从而能够更好地处理和生成复杂的时间序列数据。

这种改进的模型可以更有效地处理复杂的真实世界时间序列数据。在家庭智能电表数据中,AC-WGAN-GP能够模拟和生成符合实际社会人口统计特征的能源使用模式的高质量合成数据,从而在能源需求预测、用户行为分析等方面提供洞察。

研究内容

2023-11-02 组会报告摘要-01

本次组会将会对上次组会所介绍的《基于TIME-ACGAN模型的电力时序数据生成研究》的技术线路进行介绍。

科研背景

随着新一轮能源技术革命的兴起,我国提出以碳达峰、碳中和为目标的能源战略,建立清洁、低碳、安全、高效的能源体系。对于这些目标,电力行业正在经历着多维度的转型,在用电侧,消费者的消费方式也朝着数字化、个性化、便捷化、开放化的方向转变。

2020年,我国首次将数据纳入五大生产要素之一,数据作为战略性和基础性资源的价值已经得到社会的广泛认可。无论是数据收集、分析还是使用,都已经成为现在社会各行各业的核心工作,其中电力行业也不例外。截至到2022年底,我国已经部署了7亿个智能电表。因此,使用人工智能技术对细粒度的用户用电数据进行分析,可以为消费者提供更多个性化的能源使用服务,帮助电力供应商训练更加准确的负荷预测模型,制定更加高效的电力调度决策,提高新能源的消纳量。

科研问题

然而,当前用户数据在流通与使用中不断创造价值的同时,用户个人信息面临着严重的隐私泄露挑战。在智能电网领域,电力用户需要面对智能电表等监测设备给个人带来的隐私风险。

这一矛盾中的一个潜在解决方案是使用GAN网络来生成用户用电时序数据,这样可以在不暴露用户真实数据的前提下,释放数据的价值属性。但vanilla GAN网络在生成电力时序数据时,存在训练不稳定、无法准确捕捉时序特征、无辅助标签进行训练等问题。

科研目的

提出一种基于生成对抗网络(Generative Adversarial Network,GAN)的时间序列生成模型,在保护用户隐私的同时,实现数据价值属性的流通。相比于传统的GAN模型,本文提出的模型能够更好的控制生成的数据类别,更好的提取电力时序数据的时序特征(temporal dynamics)。

研究内容

提出的Time-ACGAN的结构如图所示,其组成部分结构等将在组会中进行详细介绍。

评估方法

评估方法如下图所示,具体内容将在组会中进行介绍。

2023-09-07 组会报告摘要01

本次组会将会对我目前的新研究,基于Time-ACGAN的电力时序生成进行详细的介绍。

研究背景

随着新一轮能源技术革命的兴起,我国提出以碳达峰、碳中和为目标的能源战略,建立清洁、低碳、安全、高效的能源体系。对于这些目标,电力行业正在经历着多维度的转型,在用电侧,消费者的消费方式也朝着数字化、个性化、便捷化、开放化的方向转变。

2020年,我国首次将数据纳入五大生产要素之一,数据作为战略性和基础性资源的价值已经得到社会的广泛认可。无论是数据收集、分析还是使用,都已经成为现在社会各行各业的核心工作,其中电力行业也不例外。截至到2022年底,我国已经部署了7亿个智能电表。因此,使用人工智能技术对细粒度的用户用电数据进行分析,可以为消费者提供更多个性化的能源使用服务,帮助电力供应商训练更加准确的负荷预测模型,制定更加高效的电力调度决策,提高新能源的消纳量。

科研问题

然而,用户数据在流通与使用中不断创造价值的同时,用户个人信息面临着严重的隐私泄露挑战。在智能电网领域,电力用户需要面对智能电表等监测设备给个人带来的隐私风险。有研究表明,不少数据挖掘技术可以从智能电表记录的用户用电数据中,提取出用户个人及其家庭的大量隐私信息。

因此,从企业的角度出发,当前的矛盾一方面是由于数据易复制,许多拥有用户数据的企业担心数据流通的隐私泄露风险,因此不愿将数据对外开放使用。在电力能源领域,用户用电数据的访问和使用目前面临两个主要问题:(1)许多数据是碎片化和孤立地存储在不同供应商的不同部门中(2)由于隐私法律法规约束,外部企业的研究人员或供应商在访问用户用电数据时面临很多法律法规限制。而另一方面,数据共享是提升数据利用效率、挖掘数据价值的一种有效手段。在电力系统以新能源为主体的形式下,共享用户用电数据的意义更加凸显。

研究目的

提出一种基于生成对抗网络(Generative Adversarial Network,GAN)的模型,在保护用户隐私的同时,实现数据价值属性的流通。相比于传统的GAN模型,本文提出的模型能够更好的控制生成的数据类别,更好的提取电力时序数据的时序特征(temporal dynamics)。

研究内容

提出的框架如下图所示。具体内容将在组会进行详细的介绍。

2023-06-15组会摘要01

本次我将会从GDPR合规性的角度出发进行报告。

科研背景

《通用数据保护条例》(GDPR)于2018年5月在所有欧盟(EU)国家生效。《GDPR》是对1995年发布的数据隐私法规的重大更新,其中的规定是为了确保个人数据“只能在严格的条件下,出于合法目的合法收集”,同时,GDPR将数据的完全控制权交还给数据所有者。

如下图所示,GDPR在其”合法性,公平性和透明性“,”目的限制“,”数据最小化“,”准确性“,”存储限制“,”完整性和保密性“的六大准则之下,明确规定了三种角色,分别为数字主体(data subject),数据控制者(data controller)以及数据处理者(data processor)。

GDOR六大原则以及三种角色

GDPR要求数据控制者(DC)在对个人数据进行访问、存储、处理和传输时,应当提前取得用户的明确同意。受到合规性的驱动,身为数据控制者(DC)的实体或个人需要对其数据处理的流程进行修改,从而保护数据主体(DS)的权益。

科研问题

对于企业在对其内部流程进行改革从而合规的规程有带来了新的问题:

1.手动验证对于数据控制者(DC)来说是一个耗时且易出错的过程。

2.只有在怀疑有违反规定的情况下,或当数据主体(DS)向监管当局提出投诉时,数据控制者才须证明遵守规定,因此对于服务供应商来说难以证明其一直在遵守相关规定。

科研目的

1.设计一种方法,能够透明的记录数据控制者(DC)对个人数据的操作,并根据政策合规性的要求,使数据主体(DS)和DC能够识别和验证对数据允许的操作。

2.需要一种方法,确保数据主体(DS)和数据控制者(DC)能够核实谁拥有他们的个人数据以及与谁共享了这些数据。

3.开发一种不可篡改的记录机制,以便能够记录和验证基于GDPR相关要求对用户数据进行的操作。

研究内容

因此本次汇报描述了一种基于GDPR规则的编码,使用这些规则实行的每个操作都将记录到区块链中,用于审计的目的。具体来说,这项工作展示了一些GDPR规则如何以操作码的形式出现在智能合约中,以透明和自动的方式对用户数据进行操作。

通过将GDPR规则转化为智能合约,从而使监察机构以及数据主体(DS)能够以自动和透明的方式对数据控制者(DC)进行验证与监督。

研究框架

2023年4月13日 组会报告摘要-01

我本次汇报的题目是:《联邦学习中的安全和隐私保护问题研究》,我将从科研背景、科研目的、科研问题、研究内容、研究计划五个方面进行汇报。

科研背景

我国高度重视数字经济

在政策方面,2019 年党的十九届四中全会首次将数据与土地、劳动力、资本、技术并列作为重要的生产要素。

在管理机制方面,2023 年国务院组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设。

在行业方面,地方数据交易所进入了高速发展阶段。2022 年上海数据交易所发布了《数据要素流通标准化白皮书》、广东省发布《广东省数据要素市场化配置改革白皮书》,以基于标准化布局保障数据流通、释放数据潜在价值,为数据要素市场化及数字经济发展提供方向指导。

在数字信息凸显,数据安全风险与日俱增,数据泄露、数据贩卖等数据安全事件频发,为个人技术日新月异的发展趋势下,数据已成为数字经济发展的核心生产要素,是国家重要资产和基础战略资源。随着数据价值的愈加隐私、企业商业秘密、国家重要情报等带来了严重的安全隐患。

趋势:1.内外部安全威胁持续升级 2.数据伦理道德问题凸显

因此,国内外相继发布了数据相关的保护条例。

中国三管齐下的信息安全法律框架

科研目的

当前在数据安全的主要矛盾是当前数据已经被定义为了一种生产要素,因此需要数据流动起来而不是形成数据孤岛,才能让数据释放其价值。然而从数据安全的角度来说,一旦数据发生了流动,就会对数据产生安全和隐私相关的问题。因此,对于这样的一种矛盾,联邦学习是一种很好的解决方案,因为每一个client的数据在本地训练,因此可以让数据在不流动的前提下,让数据释放其价值。然而联邦学习本身仍然存在一些安全和隐私的风险。

科研问题

尽管联邦学习通过在本地客户端上进行本地模型训练在一定程度上保护了数据的隐私和安全,但仍然存在一些攻击手段可能泄露个人信息。因此我们希望探究设计联邦学习系统时可能面临的挑战以及可能的解决办法。

研究内容

如下图所示,联邦学习中存在的数据安全威胁主要可以概括为三方面

1.在客户端的隐私保护

2.在服务器的隐私保护

3.联邦安全框架的安全防护

联邦学习的结构与存在的数据安全威胁

对于联邦学习中存在的数据安全威胁、以及对应的一些防护方法,以及采用了一些防护方法又引发的新的需要解决的问题等,将在组会上进行详细的介绍。