基于个性化联邦学习的充电桩用户数据的隐私保护研究

研究背景

科研问题

电动汽车充电桩在实际使用中涉及到密集的多方数据采集、分析和应用，会产生大量的分散数据，这些数据包含了参与方的很多重要信息，我们需要保证数据的隐私和安全性。
联邦学习可以在不共享原始数据的情况下进行模型训练，现有的联邦学习训练过程仍然存在着数据异质性、参与方数据隐私泄露的问题。

科研目的

在保护隐私的前提下，用联邦学习来挖掘充电桩用户数据的价值，为运营商管理提供决策支持，提高对用户的服务：

提出了一种针对数据非独立同分布自适应聚合联邦学习方法。
使用差分隐私技术来保证联邦学习训练过程中隐私不被泄露。

研究内容

2024-5-30组会摘要03

此次组会汇报内容为目前的研究方向和创新点思考。主题名称为《SCStory：基于自监督和持续学习的在线新闻故事发现》。

科研背景：社交网络的兴起对新闻事件的传播与演化发酵产生了极大的影响，而报道实时事件的新闻文章通过社交网络平台大量发布。实时发现具有独特主题文章的新闻故事，不仅为个人关注新兴新闻故事带来了巨大的好处，也为企业带来了巨大的利益。

科研问题：利用一种新闻文章流的故事指示性自适应建模，它在并发故事的背景下识别并关注每篇文章中与故事相关的信息，考虑其故事独特性来实现新闻故事的聚类。

研究内容总结如下图所示：

创新点思考如下图所示：

2024-5-30组会摘要02

本次组会主要介绍中期答辩的内容，整体结构依据毕业论文的逻辑。主题名称为《面向电动汽车电池异常的时间序列数据分析方法研究》。

科研背景：能源与环境的双重压力下，电动汽车成为解决脱碳问题的关键，电动汽车数量的增长，促进了V2G（车网互动）的发展，电动汽车充电服务作为v2G的基础，设计合理、功能完善的充电服务体系是充电服务的保障。电动汽车可以通过分布式或集中式 V2G 网络与智能电网通信，以便从电网充电或向电网放电。

科研问题：保护电动汽车电池安全、实现电池安全检测过程中可用性与隐私性的平衡，是我们研究的重点问题

研究内容与创新点如下图所示：

论文组织结构如下图所示：

2024-05-23-组会摘要01

今天主要从写作行文的角度来对我的研究《AC-WTGAN: An Improved Generative Adversarial Network Framework for Residential Load Profile Generation》进行介绍。

科研背景

随着能源领域的快速发展，先进计量基础设施（Advanced Metering Infrastructure, AMI）已成为智能电网的关键组成部分。AMI集成了智能电表和强大的通信网络，促进了电力公司(utility companies)与消费者之间实时、双向的数据交换。这项技术不仅改变了传统的电力计量和管理方法，还为数据驱动的能源应用奠定了坚实的基础。作为AMI的核心元素，智能电表实时测量消费者的能源使用情况，并将这些数据传输给电力公司。为了分析住宅用电量数据及相应的社会人口统计信息，机器学习在需求预测、优化电力分配以及检测窃电等任务上取得了巨大成功。

科研问题

然而，完成上述任务的关键挑战之一是居民用电数据的敏感性以及隐私法规（如欧盟的《通用数据保护条例》（GDPR）和美国的《美国数据隐私与保护法案》（ADPPA））限制了个人信息的共享。这一限制使得下游电力供应商难以利用大规模数据集开发多种用途的机器学习算法。

此外，现有的家庭用电数据集往往存在数据不平衡的问题。因为在现实世界中，一些基于社会人口学数据的家庭类型通常样本稀疏，导致现有的各种居民能源消耗数据集在数量和质量上都不平衡。高度不平衡数据样本的存在会在训练有素的分类器中引入标记偏差，即分类器的决策边界倾向于主要受来自多数类的大量数据的影响。因此，来自少数类别的数据实例可能会被选择性忽略，从而影响下游机器学习分类器的准确性。

作为原始 GAN 的改进模型，TimeGAN 专为生成时间序列数据而设计，TimeGAN 的所有网络都由循环神经网络（RNN）组成，如长短时记忆（LSTM）和门控循环单元（GRU）。虽然基于 TimeGAN 的时间序列数据生成方法取得了一些进展，但仍有一些局限性有待解决。具体来说，TimeGAN 忽略了复杂网络训练所产生的稳定性。特别是，在生成带有社会人口学特征的居民用电数据时，TimeGAN 的不稳定性训练过程是主要由三方面造成，分别来自于 Jensen-Shannon 散度的不足、带有相应社会人口信息的居民负荷曲线数据的内在复杂性以及长时间序列数据的长期依赖性。

此外，目前许多评估生成样本的方法主要依赖于目测(Visual Inspection, VI)，而忽略了系统的评估方法，以及在训练下游机器学习模型时评估其替代真实数据的有效性，而训练数据的质量极大地影响了监督网络模型的性能。

科研目的

本文提出了TimeGAN的改进版架构，AC-WTGAN（Auxiliary Classifier Wasserstein TimeGAN），以更稳定地生成居民用电数据。

同时，我们将评价方法系统地（systematically）分为相似性评价和可用性评价，以全面评价生成数据的质量和数量。

2024年5月23日组会摘要 02

本次组会主要介绍最近工作进展，将从研究背景，研究问题，研究目的，研究内容进行介绍

2024-04-25组会摘要01

科研背景及意义

由于联邦学习（FL）的分布性，很难确保每个参与者都是可信的，因此FL框架很容易受到各种攻击。在这些针对FL的攻击中，由于参与者对模型的贡献缺乏透明度，系统很容易受到后门攻击的威胁。具体来说，恶意攻击者会将后门模式嵌入到全局模型中，使其在特定输入（称为触发器）下产生不正确的输出，而在常规输入下正常运行。一般来说，恶意后门攻击者拥有控制 FL 中某些设备的权限，并实现两个主要目标： (i) 确保聚合模型对后门任务和主任务都具有高准确性；(ii) 避免服务器的异常检测，从而保持嵌入后门的隐蔽性。目前，模型替换攻击是在 FL 中发起后门攻击最常用的方法，攻击者只需控制一个良性设备，然后用精心制作的模型替换聚合模型。后门攻击的隐蔽性较强，给联邦学习系统造成了严重威胁，因此对联邦学习后门攻击进行防御，成为了重要的研究课题。

科研问题

1、基于异常检测的方法用于识别和删除潜在中毒的模型更新。然而，这些解决方案仅在非常特定的对手模型下有效，因为它们对对手的攻击策略和/或良性或敌对数据集的潜在分布进行了详细的假设。

2、差分隐私(DP)技术适用于通用的对手模型，无需对对手行为和数据分布进行特定假设，并且可以有效消除恶意模型更新。但DP方法会导致良性模型更新权重的显著修改，从而使主任务准确性降低。

科研目的

1、结合了两种防御类型的优点，而不受现有方法的限制（对数据分布的假设）和缺点（良性性能损失）的影响。为此，我们引入了一种防御方法，其中异常模型更新的检测和权重的裁剪相结合，以最大限度地减少聚合模型的后门移除所需的噪声量，以便保持其良性性能。

2、对该防御策略进行安全性分析，从理论上保证了此防御策略的有效性。

科研内容

2024-4-11组会摘要02

我本次汇报的题目是《面向非侵入式负载监测的对抗攻击与防御技术研究》，将从以下几个方面进行讲述：

背景及意义

电能作为能源的重要组成部分，近年来消耗增长迅速，其消费结构直接关系国家能源安全。高级计量体系(Advanced metering infrastructure, AMI)是电网获取海量运行数据的主要技术手段之一，是电网数字化转型的重要支撑。负荷监测技术作为AMI的重要组成部分，在促进用户参与需求侧响应的价值正逐渐显现。非侵入式负荷监测(Non-intrusive load monit oring, NILM)技术是实现负荷运行状态监测的主要方法。NILM技术作为高级量测体系中的重要环节，已逐渐成为成为网-荷良性友好互动，负荷侧精细化电能管理的研究重点。非侵入式负荷监测得到的信息对于各用电参与方都有很大的实用价值。

为了提高非侵入性负荷分解的准确性和泛化能力,近年来研究者将注意力转向了新出现的深度学习领域。随着研究的不断深入，研究者发现深度神经网络在恶意制造的对抗样本面前表现出了极大的脆弱性。

研究现状

1大量的研究集中在设计白盒攻击和相应的防御上。白盒攻击假定攻击者知道很多信息，比如被攻击网络的梯度。在实际场景中，攻击者可能无法访问模型的参数。
2现有的对抗性示例生成模型大多是在特定的数据集上训练的，缺乏可移植性，需要在真实的物理场景中验证攻击效果。
3一些对抗性示例生成技术的计算复杂度过高。虽然实现了较高的攻击成功率，但增加了计算量，导致训练模型过大。如C&W和PGD-20，是耗时的。如果对手的攻击时间过长，就很容易被发现。

研究问题

科研目的

设计一种黑盒下面向非侵入式负载监测的轻量级对抗性攻击方法

研究内容

1非侵入式负载监测

2对抗攻击产生的原因

3基于AdvGan的对抗攻击

2024-04-11组会摘要03

科研背景

近年来，深度学习在图像处理任务中得到广泛应用，比如在自动驾驶、医学图像分析等领域，取得了显著进展。然而，随着数据的广泛应用，隐私泄露和保护成为了一个日益突出的问题。
差分隐私（DP）通过向数据集添加外部噪声来保护已发布的模型，但未能保护图像数据的视觉隐私，因为产生的高频域噪声可以被人眼过滤。其次，数据集和特征图上的额外噪声可能会显著降低DNN模型的准确性。

科研问题

图像数据已被广泛用于各种场景中的深度神经网络（DNN）任务，例如自动驾驶和医学图像分析，这引起了严重的隐私问题。

现有的隐私保护技术无法有效保护曝光图像数据的视觉特征问题。

研究目的

提出一种新的隐私保护框架VisualMixer，该框架通过像素混洗来保护视觉DNN任务的训练数据，同时保持DNN模型的准确性。

研究内容

2024.03.28-组会摘要01

今天主要对我的研究基于AC-TimeGAN模型的电力时序数据生成研究进行汇报

科研背景

随着先进计量基础设施(Advanced Metering Infrastructure, AMI)的出现使得人们能够以细粒度的时间分辨率分析住宅负荷特性，这种数字化计量基础设施通常被视为能源转型的一个推动者。在用电测，它不仅仅简化了电能的计量，更重要的是为住宅用户提供了便利，通过数据的精准采集和实时监控，居民能够更清晰地了解自己的能源使用情况，从而做出更加节能的决策。

科研问题

因此，在电力行业中，智能电表的广泛部署使得使用人工智能技术来细致分析用户的用电数据变得可行。然而，这些技术为了高效训练通常需要大量有代表性的数据集。因此带来了下面的挑战：

•收集这些数据面临着显著的安全和隐私挑战

•高质量的公开数据集也相对稀缺

为了解决上述的挑战，使用合成数据（Synthetic Data）代替原始数据来进行下游的机器学习训练成为了一种可行的方案。在时间序列领域，时间序列生成对抗网络（Time-series Generative Adversarial Networks，TimeGAN）这一GAN的变种进一步扩展了这一领域，为电力时间序列数据的生成提供了创新的解决方案。

家庭智能电表的时间序列数据通常包含丰富的信息，如能源消耗模式、峰值使用时段等。这些数据通常与社会人口统计数据（如家庭大小、位置、收入水平）有关联，使得数据的特征非常复杂和多变。尽管TimeGAN是一种有效的时序数据生成模型，但其在处理具有丰富特征和复杂关联的真实世界数据时仍然可能无法生成稳定且高质量的数据。

科研目的

提出了时间序列生成模型Auxiliary Classifier Wasserstein TimeGAN with Gradient Penalty（AC-TimeGAN），在保护用户隐私的同时，实现数据价值属性的流通。相比于传统的TimeGAN模型，本文提出的模型同时通过引入Wasserstein距离和辅助分类器，提高了模型的稳定性和生成数据的质量，从而能够更好地处理和生成复杂的时间序列数据。

这种改进的模型可以更有效地处理复杂的真实世界时间序列数据。在家庭智能电表数据中，AC-TimeGAN能够模拟和生成符合实际社会人口统计特征的高质量合成数据，从而在能源需求预测、用户行为分析等方面提供洞察。

2024.03.14-组会摘要01

本次组会主要介绍博士预答辩的内容，整体结构依据博士毕业论文的逻辑。主题名称为《面向车联网应用的隐私保护和信任管理关键技术研究》。