作者归档:侯相

基于个性化联邦学习的充电桩用户数据的隐私保护研究

研究背景

科研问题

  1. 电动汽车充电桩在实际使用中涉及到密集的多方数据采集、分析和应用,会产生大量的分散数据,这些数据包含了参与方的很多重要信息,我们需要保证数据的隐私和安全性。
  2. 联邦学习可以在不共享原始数据的情况下进行模型训练,现有的联邦学习训练过程仍然存在着数据异质性、参与方数据隐私泄露的问题。

科研目的

在保护隐私的前提下,用联邦学习来挖掘充电桩用户数据的价值,为运营商管理提供决策支持,提高对用户的服务:

  • 提出了一种针对数据非独立同分布自适应聚合联邦学习方法。
  • 使用差分隐私技术来保证联邦学习训练过程中隐私不被泄露。

研究内容

基于联邦学习的隐私保护方法研究

科研背景

科研问题

电动汽车充电桩在实际使用中涉及到密集的多方数据采集、分析和应用,会产生大量的分散数据,这些数据包含了参与方的很多重要信息,我们需要保证数据的隐私和安全性。联邦学习可以在不共享原始数据的情况下进行模型训练,现有的联邦学习的框架仍然面临着数据异质性隐私泄露和通信瓶颈的挑战。

科研目的

  • 提出一种基于秘密共享和差分隐私的联邦学习的框架。
  • 使用自适应学习率和梯度的指数加权平均设计出新的联邦学习客户端个性化学习。

研究内容

实验结果

2023-11-30组会报告摘要02

研究背景

虚拟电厂(Virtual Power Plant,VPP)是一种集成多种分布式能源资源(Distributed Energy Resource,DER)的系统,通过智能化的技术和管理,实现分布式电源DG(distributed generator)、储能系统、可控负荷、电动汽车等DER的聚合和协调优化,以作为一个特殊电厂参与电力市场和电网运行的电源协调管理系统。虚拟电厂概念的核心可以总结为“通信”和“聚合”。将这些资源整合成一个统一的虚拟实体,以提供电力服务、优化能源利用并支持电力系统的稳定运行,通过协调和优化各种分布式能源设备,实现对电力市场的参与和能源管理的最大化于,对保障电力系统的安全稳定运行具有重要意义。其中每个分布式能源主体产生了大量数据,在当前日益严格的隐私保护法案监管下,不适合将数据上传到云端进行集中式处理,各主体设备的数据通常只能在本地进行,收集、处理、分析和使用这些数据来做出决策和确定行动需要带宽、足够的处理能力和速度,这种处理方式效果十分有限。

科研问题

在虚拟电厂的实际运行中,涉及到密集的多方数据采集、分析和应用,会产生大量的分散数据,这些数据包含了参与方的很多重要信息,我们需要保证数据的隐私和安全性。。
虚拟电厂需要满足实时性需求,能够及时地处理数据,以确保数据的及时分析和应用,可以实时地监测、分析和应用数据,使虚拟电厂能够更灵活地做出决策、调整运营,并及时应对变化的市场和能源环境。

科研目的

研究联邦学习在虚拟电厂中多个场景的应用,并提出一种基于边缘计算和差分隐私的分层联邦学习架构方案

2023-10-12组会报告摘要02

科研背景

在联邦学习系统中,由于其分布式特性,训练过程是在本地设备上完成的,服务器只负责模型的聚合,不知道每个客户端本地的数据集和训练情况;因此,联邦学习非常容易受到恶意客户端的模型更新投毒或数据投毒。

科研问题

  • 虽然对抗性训练 (AT) 为集中式学习提供了良好的解决方案,但对抗样本的生成非常昂贵,而且数据是IID的。在联邦学习的场景下许多用户各自拥有的数据可能是非独立同分布的。
  • 对抗训练通常只提高了对训练过程中纳入的特定类型对抗样本的健壮性,可能会使训练后的模型容易受到其他形式的攻击攻破。

科研目的

在联邦学习场景下,仅仅检测某种攻击可能是不够的,我们提出一种基于对抗训练和差分隐私结合的联邦学习方法,可以有效防御恶意客户端模型更新投毒或数据投毒。

研究内容

通过随机平滑认证的对抗鲁棒性

基于多方安全计算和差分隐私的联邦学习方案

科研背景

近年来,随着隐私保护及数据安全法律法规的逐渐完善,数据孤岛问题变的日益严峻。数据孤岛,因为现在各行各业的数据都被不同的机构企业所拥有。比如政府银行医院他们所拥有的数据的维度类型差异很大,但实际上这些数据不能够给到彼此,无论站在合规的角度还是资产保护的角度,特别是越有价值的数据。越有价值的数据往往越不能够流动出去。数据不能溜出去,数据的价值可以溜出去, 只有数据的价值溜出去了才能变现,掌握有价值的数据才能变成价值,这中间存在一种矛盾。

隐私计算是“数据可用但不可见”技术的集合,包括FL,安全多方计算(MPC),可信执行环境(TEE),差分隐私(DP)等。其中,FL是一种将分发机器学习与隐私技术相结合的衍生技术他们往往比较高效,但是做不到可证安全,大家觉得它可以保护隐私,但是保护的程度是多少,不能去保证。Zhu L , Liu Z 等人工作指出,联邦学习中恶意参与方或服务器可以通过客户端本地模型更新中推测出客户端本地数据的属性以及时候存在某条数据等隐私信息(属性推理攻击,成员推理攻击,模型反演攻击等等)。

研究现状

大多数的FL+DP的方案都是采用的LDP(Locally Differential Private Federated)加噪,但是这样程度的噪声的累积对全局模型影响很大,当ϵ比较小的时候,准确度会降低。

科研目的

本文将差分隐私和多方安全计算相结合,提供了一种新的解决思路,用户不再对本地训练得到的本地模型添加扰动,首先将本地模型秘密共享至多个服务器,把LDP转变为多个CDP。保护隐私不被泄露的同时最大限度减少精度损失。

研究内容

系统框架

差分隐私增强的安全联邦学习

科研背景

联邦学习(Federated Learning)是一种分布式机器学习方法,旨在通过在本地设备上进行模型训练,同时保护用户数据的隐私。相比于传统的集中式机器学习方法,联邦学习将模型训练推送到用户设备上,让设备在本地使用本地数据进行模型训练,然后将模型参数的更新发送回中央服务器进行聚合,从而实现全局模型的改进。

联邦学习的核心目标是解决分散数据的隐私保护和数据安全性的问题。它适用于那些存在大量敏感数据的场景,例如移动设备、边缘计算环境或跨组织合作中的数据共享、

科研问题

  • 在联邦学习中,参与方上传模型参数的更新,这可以暴露一些关于本地训练数据的信息。攻击者可以通过分析这些参数更新来推断参与方的训练数据,从而侵犯数据隐私。
  • 安全多方计算确保了参与方之间的计算安全性,但在传输数据和计算过程中,可能会暴露参与方的模型参数更新,这可能会导致攻击者利用这些信息进行数据推断攻击。
  • 差分隐私通过在数据中引入噪声来保护隐私,但这会或降低数据的准确性和可用性,而且导致传输和计算的开销增加。

科研目的

提出一种差分隐私增强的安全联邦学习框架,将安全多方计算与差分隐私相结合,弥补彼此的缺点,提供更全面的隐私保护和数据效用。

系统模型

①选择参与者,服务器将当前模型参数θt发送给这些参与方。
②本地模型更新
③将∆θ_t^i拆分成两个份额[∆θ_t^i]_A 和[∆θ_t^i]_B,分别发送到服务器S_A和S_B。
④添加噪声,由S_A或S_B聚合。

2023-3-16组会报告摘要

此次汇报内容是《智能电网场景下的分布式在线学习电力数据异常检测》相关内容,我将从科研背景、科研问题、科研目的、研究内容等几个方面汇报。

科研背景

智能电网是一种基于先进的通信、计算和控制技术的现代化电力系统。它通过高度智能化的设备和系统,实现了对电网中各种设备的状态信息和电力负荷信息的实时监测,从而提高了电网的安全性、可靠性、稳定性和经济性。在智能电网中,各种设备和传感器产生的大量实时数据,如何管理和利用这些数据是实现智能化控制和管理的关键。
然而,这些实时数据的规模非常庞大,传输和处理也面临着巨大的挑战。同时,由于智能电网分布式的特点,数据的收集和分析通常需要涉及到多个节点和系统,这进一步加剧了数据管理和分析的难度。因此,如何高效地利用这些数据进行异常检测,成为了智能电网研究领域的热门问题之一。

科研问题

  • 传统的电力数据异常检测方法需要收集所有的数据并将其集中到一个中央服务器进行处理和分析,这样可能会暴露数据隐私和数据安全问题,且无法满足电力领域实时处理的需求。随着智能电网的推广,数据量和维度不断增加,传统方法已经难以胜任这一任务。
  • 分布式学习是集中式机器学习中减少大量数据传输的一种很有前途的技术,在分布式学习中,节点之间需要共享数据和模型参数,因此需要采取一定的安全措施来防止数据泄露和模型被攻击。

科研目的

  • 在数据隐私保护和安全考虑的前提上,参与方尽可能的学习到更多的数据
  • 用新数据不断更新模型去适应数据的变化,帮助实时监测和调整智能电网系统的状态,从而更好地保障电力系统的安全和稳定性。

研究内容

训练阶段
在线学习机制

2022年9月29日 组会报告摘要-02

本次组会汇报近期看的一个模型。2017 年,Google 在论文 Attention is All you need 中提出了 Transformer 模型,其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。我会从Transformer整体结构的入手开始汇报。

Transformer 模型(Encoder-Decoder 架构模式

1.Transformer的inputs 输入

2.Transformer的Encoder

3 Transformer的Decoder

4 Transformer的输出

Transformer的结构图,拆解开来,主要分为图上4个部分,其中最重要的就是2和3Encoder-Decoder部分

以上内容都会在组会中详细介绍