分类目录归档:其他

2023-12-07组会报告摘要01

研究背景

随着智能电网的发展和普及,越来越多的终端设备接入电网网络,解决终端设备对实时性的计算需求成为一个难点,边缘计算的引入是一个很好的解决方案,以往只依托云计算的电网系统在带宽、时延等方面的限制将得到缓解。边缘计算的一般架构主要分为三层:边缘设备层、边缘服务层和云服务层。然而边缘计算由于算力和存储资源受限,因此容易遭受安全方面的影响。以往对电网数据安全的研究主要是针对虚假数据注入攻击,而对边缘计算环境中机器学习模型的攻击相关研究较少。投毒攻击是一种关于机器学习安全对抗研究的重要方向,攻击者在训练机器学习模型之前,向训练数据集中添加精心构造的毒样本数据,此时通过学习算法得到的目标模型将受到影响。联邦学习可以分为三个阶段:数据收集阶段、训练阶段和推理阶段段。联邦学习中存在的潜在威胁划分为对抗性攻击和非对抗性攻击。对抗性攻击主要目的是干扰联邦学习训练或推理过程,影响联邦学习训练时的收敛速度或推理结果。非对抗性攻击主要目的是试图从联邦学习各个阶段获取隐私信息或其它好处,但不会破坏模型训练和推理过程。

科研问题

作为边缘计算中的数据源,资源受限的物联网设备可能会遭受到对抗性样本的投毒攻击。针对边缘计算中基于GAN投毒攻击的防御技术相关研究较少,需要对其进行研究。

科研目的

基于对抗性样本的中毒攻击和边缘计算中抵御中毒攻击的差分隐私联邦学习模型进行结合研究基于边缘计算环境的对抗投毒攻击与防御技术。并考虑结合智能电网的边缘环境,使用电力相关数据进行对抗投毒攻击与防御。

2023-11-30组会报告摘要02

研究背景

虚拟电厂(Virtual Power Plant,VPP)是一种集成多种分布式能源资源(Distributed Energy Resource,DER)的系统,通过智能化的技术和管理,实现分布式电源DG(distributed generator)、储能系统、可控负荷、电动汽车等DER的聚合和协调优化,以作为一个特殊电厂参与电力市场和电网运行的电源协调管理系统。虚拟电厂概念的核心可以总结为“通信”和“聚合”。将这些资源整合成一个统一的虚拟实体,以提供电力服务、优化能源利用并支持电力系统的稳定运行,通过协调和优化各种分布式能源设备,实现对电力市场的参与和能源管理的最大化于,对保障电力系统的安全稳定运行具有重要意义。其中每个分布式能源主体产生了大量数据,在当前日益严格的隐私保护法案监管下,不适合将数据上传到云端进行集中式处理,各主体设备的数据通常只能在本地进行,收集、处理、分析和使用这些数据来做出决策和确定行动需要带宽、足够的处理能力和速度,这种处理方式效果十分有限。

科研问题

在虚拟电厂的实际运行中,涉及到密集的多方数据采集、分析和应用,会产生大量的分散数据,这些数据包含了参与方的很多重要信息,我们需要保证数据的隐私和安全性。。
虚拟电厂需要满足实时性需求,能够及时地处理数据,以确保数据的及时分析和应用,可以实时地监测、分析和应用数据,使虚拟电厂能够更灵活地做出决策、调整运营,并及时应对变化的市场和能源环境。

科研目的

研究联邦学习在虚拟电厂中多个场景的应用,并提出一种基于边缘计算和差分隐私的分层联邦学习架构方案

2023-11-30组会报告摘要-01

研究背景及意义

由于联邦学习的分布式架构,更容易受到对抗性攻击,包括非目标攻击和目标攻击。数据中毒攻击和模型中毒攻击是两种类型的非目标攻击,其目的是通过恶意修改本地数据集或本地模型参数来降低聚合模型的性能。一般来说,如果没有防御部署在联邦学习模型上,一个单一的对手可以成功地实施无针对性的攻击,这让防守变得更加困难。后门攻击是联邦学习中典型的有针对性的攻击,它比无针对性的攻击具有更强的隐蔽性和入侵性。具体地说,攻击者将后门模式嵌入到聚合模型中,并进一步使模型在主任务和后门任务上都表现良好。为了使联邦学习对后门攻击具有更强的鲁棒性,很多学者都对联邦学习后门防御进行了研究,例如:Zhu等人提出了一种基于对抗性蒸馏的新型后门防御方案 ADFL,ADFL 通过在服务器端部署生成式对抗网络(GAN)生成包含后门特征的虚假样本,并对虚假样本重新标记以获得蒸馏数据集;Lu等人设计了收敛轮攻击下基于模型预聚合和相似性度量的后门模型检测和清除防御方案;早期轮攻击下基于后门神经元激活的后门模型清除防御方案。鉴于现有的防御方案需要单独部署新的网络模型效率较低,本次汇报提出了一种更高效的联邦学习后门防御方案。

研究内容

总结

2023-11-16 组会报告摘要-01

科研背景

深度神经网络在图像识别、语音识别、自然语言处理等多个领域取得了显著的成果,因此成为现代机器学习领域的一个关键组成部分。然而,这些网络存在一个明显的安全漏洞:它们容易受到后门攻击。

后门攻击:攻击者在训练或微调过程中向一些训练样本的特征添加触发器并将其改为目标标签。然后,当攻击者将相同的触发器添加到测试样本的特征中时,学习到的分类器就会用触发器预测测试样本的目标标签。

这种攻击表明了深度学习模型在安全性方面的脆弱性。当考虑在安全关键领域使用深度神经网络时,这个漏洞变得更加令人担忧。在这种情况下,即使是一个小小的误判也可能产生可怕的后果,这凸显了建立强有力的防御机制的迫切需要。

科研问题

新的经验性防御措施被开发出来以防御后门攻击,但它们很快就会被强大的适应性后门攻击打破——缺乏鲁棒性验证。

使用固定的高斯方差 σ 进行随机平滑会加剧认证精度瀑布,认证与精度权衡,甚至公平问题,并降低认证半径和认证准确率,从而使模型不鲁棒

研究目的

专注于证明对一般威胁模型的鲁棒性,特别是后门攻击,开发一种依据数据的随机平滑的可验证的鲁棒性框架来防御后门攻击。

采用依据数据的平滑分类器,使高斯分布的方差可以在每次输入时进行优化,缓解认证精度瀑布,认证与精度权衡问题,从而最大化构建平滑分类器的认证半径,提高认证准确率

研究内容

无论是干净的数据集还是被投毒的数据集,经过鲁棒性验证,在测试数据上得到的输出结果一样

2023-11-16 组会报告摘要-03

科研背景

随着移动设备、社交媒体平台和互联网的普及,人们拍摄和分享照片的行为变得日益频繁。然而,许多人并不清楚自己可能会因为他人拍摄的照片而受到隐私泄露的风险。
当一个人出现在他人拍摄的照片背景中,尤其是当这些照片被分享到互联网上时,个人可能会无意中暴露在公众面前。这种情况下,攻击者不仅可以通过分析照片中的地标和背景信息来揭示个人曾经去过的具体地点,还可以通过对多张照片进行比对和分析,从而拼凑出个人的旅行路线和活动轨迹。

科研问题

1.如何对图像中出现的多个个体进行隐私保护,从而保护这些个体的隐私不受侵犯,尤其是在公共场所、活动现场或者社交聚会等大规模多方参与的场景中。
2.如何处理大规模的图像数据,在其中有效识别并保护个人隐私信息。

研究目的

提出了一种新的图像隐私保护系统,称为LAMP,旨在点亮人们在在线图像共享过程中的位置意识,实现照片上传过程中的实时隐私保护。

研究内容

1.LAMPi策略

LAMPi策略将允许用户在不同的场景和不同的粒度级别上指定位置灵敏度。LAMPi策略P由以下几个部分组成:位置范围、位置类型、日期和时间间隔、灵敏度。

2.DLP树

快速定位指定该位置(基于地址)或该类型位置(基于语义关键字)为敏感的用户,以便稍后我们只需要将这些用户的脸与照片中的脸进行比较。

3.人脸识别

为了加快个体面孔的比较,我们采用了两种策略。一是在用户设置LAMPi策略时,预先计算用户的面部特征,从而节省照片上传阶段的人脸识别时间。另一种是采用多线程编程,同时进行单独对的人脸识别。

2023-11-9-组会报告摘要-03

面向新型电力系统中智能终端设备的网络攻击建模研究

科研背景及意义

当前信息侧与物理侧高度耦合的新型电力系统已成为我国能源转型过程中的重要组成部分,同时也是电力系统未来的必然发展趋势。新型电力系统具有大量智能终端接入、高新能源供能占比、信息物理高度融合等特点,在促进能源系统低碳化、智能化的同时,也给新型电力系统的安全稳定运行带来了诸多问题。例如,大量智能终端的接入提高了系统智能化水平,同时也给攻击者提供了更多的攻击入口;当高比例新能源系统遭受网络攻击时,分布式电源的随机性、间歇性和波动性将增加连锁故障的发生几率和范围;信息系统与物理系统耦合程度的加深,将增加跨域攻击途径并提高风险传播速度。以上问题不仅严重威胁着系统安全,也给攻击检测带来了较大挑战。

科研问题

随着智能终端设备的普及和应用,网络攻击也日益增多,智能终端设备的网络安全性,对电力系统的安全性和可靠性构成了严峻挑战。
网络攻击可能导致电力系统的瘫痪,给社会和经济带来重大损失。

科研目的

提升智能终端设备的网络安全性:智能终端设备作为智能电网的关键节点,其安全性对整个系统的运行稳定性和可靠性具有重要影响。研究智能终端设备的网络攻击建模方法,有助于识别和分析智能终端设备面临的潜在网络攻击风险,并针对性地提出相应的网络安全防护措施,提升智能终端设备的网络安全性。
预防网络攻击导致的电力系统瘫痪:通过研究智能终端设备的网络攻击建模方法,能够深入了解网络攻击对电力系统的影响机理,为制定有效的网络攻击防御策略提供科学依据,降低电力系统瘫痪的风险。

 2023-11-9 组会报告摘要-02

主要对“基于区块链联邦生成模型的电网用电数据合成研究”文章进行内容梳理,后期以梳理的架构完善论文内容。

科研意义

电网的数字化智能化转型,对提升电力产业核心竞争力、推动电力高质量发展具有重要意义。在这个过程中,数字技术不断发展,与电网管理的融合也逐步深入,用户用电数据的价值被深度挖掘。对用户用电数据进行分析,可以理解用户消费模式以提供更具个性化的使用服务,还可以对电力负荷进行精准预测并实时监控用电负荷行为的异常,从而提高电力系统的灵活性、可靠性和安全性。数据作为必不可少的生产要素起着关键作用。

然而,其在流通和使用中不断创造价值的同时,用户个人信息面临着严重的隐私泄露挑战。在电力能源领域,用户用电数据碎片化和孤立地存储在不同供应商中,许多供应商会因为担心数据流通的隐私泄露风险,而不愿将数据对外开放使用。另外在法律层面上,各国都在不断地推出和加强对数据安全和隐私保护相关法规的完善,因此供应商或企业外部的研究人员在访问用户用电数据时面临很多法律法规限制。这限制了用户用电数据的共享和自由流通,使得电力供应商之间形成了一个个数据孤岛,导致用电数据的训练和分析缺乏大规模的数据。

为兼顾数据隐私和机器学习模型可训练,Google 在 2016 年提出了联邦学习的概念,它是在进行分布式机器学习的过程中,各参与方可借助其他参与方数据进行联合建模和使用模型。参与各方无需传递和共享原始数据资源,仅需上传本地训练得到的模型参数,即在数据不出本地的情况下,进行数据联合训练、联合应用,建立合法合规的机器学习模型。

但联邦学习对机器学习模型训练灵活性差,每次仅能发布单一模型进行训练。训练其他模型时,即使是相同数据,也需召集所有参与方再次共同训练新模型,这极大浪费了各参与方的时间和计算资源。联邦学习依赖于单一的中心服务器,容易受到中央服务器故障或攻击的影响。一旦中心服务器被攻击者瘫痪,则整个数据共享过程便会中断,还可能造成严重的隐私泄露。开放网络中用户互相之间缺乏信任,很难建立数据共享的基础。

科研目的

01 将联邦学习和GAN模型进行集成,以联邦学习的方式使用多方数据训练生成模型GAN,所生成的合成数据可灵活地进行多种机器学习任务,以提供更加智能化的服务。

02 提出一种支持数据合成的区块链联邦生成模型,由区块链为联邦GAN模型训练提供一个信任交互的平台,对参与者训练参数的接收和下发进行统一调度,并进行参数聚合。提高了用户间的信任度和整个训练网络的健壮性。

03 展开了预测用户负荷和分析用户行为的机器学习任务,利用爱尔兰CER的真实数据对支持数据合成的区块链联邦生成模型进行了综合评估,并验证了模型的有效性。

研究内容

2023-11-9 组会报告摘要-01

上一次组会中介绍了大模型安全方向的现有工作。本次组会将介绍垂域大模型的搭建与记忆的研究工作和个人思考。

科研背景

”垂域大模型”(domain-specific large-scale models) ,经过训练或微调的通用模型。通过特定领域的知识进行增强,通过领域的目标进行优化,并通过特定领域的约束进行调节。

垂域大模型学术研究
1.领域指令微调
2.基于检索增强大预言模型存在记忆,本研究将探究记忆与隐私的联系

科研问题

基于预训练的大语言模型无法轻松扩展或修改记忆,如何为模型提供决策依据并更新模型的知识。
基于检索增强的文本生成模型的记忆影响,存在什么隐私问题。

研究目的

研究更优的为大预言生成模型提供参与记忆以外的知识,搭建“垂域”大模型
研究基于检索的文本生成增强系统中记忆的影响,根据最终应用平衡安全问题与模型性能

研究内容

知识密集型 NLP 任务的检索增强生成
贡献:提出一种用于检索增强生成(RAG)的通用微调方法,该模型结合了预先训练的参数和非参数记忆来生成语言。

SELF-INSTRUCT:使语言模型与自生成的指令保持一致
贡献: 通过引导模型自己的生成来提高预训练语言模型的指令跟踪能力,将预训练语言模型与指令对齐。

训练数据提取攻击
贡献:证明攻击者可以执行训练数据提取攻击,通过查询语言模型来恢复单个训练示例。

语言模型的抄袭
贡献:研究了预训练和微调的 LM 的抄袭行为。以两个研究问题为指导:预先训练的 LM 是否抄袭? 经过微调的 LM 是否抄袭?

实验复现

搭建本地LLAMA-2-7B语言模型

2023-1-11 组会报告摘要

本次组会介绍面向联邦学习的类别隐私推理攻击

科研背景

联邦学习实质上是深度学习和分布式计算的结合。在联邦学习中,参与方(客户端)拥有各自的私有数据,而服务器负责协调模型的训练,但不能直接访问客户端的数据。

中间梯度可以用来推断有关训练数据的重要信息,为了避免联邦学习中模型更新的泄漏,提出了安全聚合协议,通过伪随机值掩盖这些数值,以确保没有人可以看到清晰的提交更新。聚合服务器也只能在每一轮训练中获得聚合结果。

攻击者可能通过与一些恶意客户端(间谍)合谋,来窥探其他客户端的私有数据。推理攻击是指攻击者通过某些攻击手段来获取模型的某些信息(如数据集、更新的参数等),来推理获取目标信息。类别推断攻击,旨在推断目标客户端所拥有的数据类别。

科研问题

联邦学习系统极易遭受由恶意参与方在预测阶段发起的成员推理攻击行为,并且现有的防御方法在隐私保护和模型损失之间难以达到平衡。

科研目的

深入研究联邦学习中的推理攻击方法,提高攻击成功的可能性。

针对具体的推理攻击,设计对应防御方法,进行隐私保护和防御。

研究内容

1、提取目标客户端的模型更新

由于安全聚合,无论是服务器还是客户端都无法访问明确的模型更新。通过差分选择策略,通过选择两个相邻的客户端集,二者仅在一个客户端上有所不同,这个差异的客户端(即被替换的客户端)起到了”间谍”的作用。

近似更新与真实更新之间的差异为“噪声”。其会降低攻击性能。为了减轻噪声的负面影响,提出了两种去噪方法。第一种方法是设置一个噪声记录器,模拟训练过程中的噪声。第二种方法是实施重复攻击,以获得多个预测并选择最可能的结果。

2、训练推理模型来预测目标客户端持有的类别

可以通过构建pair<类别更新:类别标签>的数据集,并使用多标签学习来训练一个推理模型,该模型将单个模型更新映射到其对应的类别。

多标签学习是一种机器学习范式,它允许一个数据实例被分配到多个标签,而不仅仅是单一标签。在多标签学习中,每个数据点可以同时属于多个类别。

多标签学习中的一个多标签数据实例(x;Y)由一个数据点x和一个二进制多标签向量Y = (y1, y2, … , yK) 组成,其中K是类别的总数。每个yi表示数据点x是否与相应的第i个类别相关联。

3、隐藏攻击

使类别推理攻击更不显眼,不被诚实的客户端注意到。该攻击可能通过检查两轮中攻击者选择的客户端集之间的相似性被检测出来。如果两轮选择的客户端集过于相似,诚实客户端可能会察觉到被攻击。

因为不同的客户端可能有不同的数据分布、特征和更新,在多轮训练中会表现出多样性。需要采取措施使其选择的客户端集合更随机,模拟正常的联邦学习行为,从而避免引起系统的怀疑。

5、攻击过程

第一步是训练一个多标签推理模型,服务器端攻击者可以构造两个相邻的客户端集合,客户端攻击者复制当前全局模型,基于准备的辅助数据来模拟目标客户端的本地训练过程。一旦获得足够数量的模拟更新,攻击者可以构建一个新的数据集,用于训练推断模型。

研究计划

研究联邦学习多种场景下的推理攻击方法,复现实验进行验证。
对于特定场景中的推理攻击方法,设计基于差分隐私、对抗训练等技术的防御策略,并进行实验验证。

2023-11-02 组会报告摘要-01

本次组会将会对上次组会所介绍的《基于TIME-ACGAN模型的电力时序数据生成研究》的技术线路进行介绍。

科研背景

随着新一轮能源技术革命的兴起,我国提出以碳达峰、碳中和为目标的能源战略,建立清洁、低碳、安全、高效的能源体系。对于这些目标,电力行业正在经历着多维度的转型,在用电侧,消费者的消费方式也朝着数字化、个性化、便捷化、开放化的方向转变。

2020年,我国首次将数据纳入五大生产要素之一,数据作为战略性和基础性资源的价值已经得到社会的广泛认可。无论是数据收集、分析还是使用,都已经成为现在社会各行各业的核心工作,其中电力行业也不例外。截至到2022年底,我国已经部署了7亿个智能电表。因此,使用人工智能技术对细粒度的用户用电数据进行分析,可以为消费者提供更多个性化的能源使用服务,帮助电力供应商训练更加准确的负荷预测模型,制定更加高效的电力调度决策,提高新能源的消纳量。

科研问题

然而,当前用户数据在流通与使用中不断创造价值的同时,用户个人信息面临着严重的隐私泄露挑战。在智能电网领域,电力用户需要面对智能电表等监测设备给个人带来的隐私风险。

这一矛盾中的一个潜在解决方案是使用GAN网络来生成用户用电时序数据,这样可以在不暴露用户真实数据的前提下,释放数据的价值属性。但vanilla GAN网络在生成电力时序数据时,存在训练不稳定、无法准确捕捉时序特征、无辅助标签进行训练等问题。

科研目的

提出一种基于生成对抗网络(Generative Adversarial Network,GAN)的时间序列生成模型,在保护用户隐私的同时,实现数据价值属性的流通。相比于传统的GAN模型,本文提出的模型能够更好的控制生成的数据类别,更好的提取电力时序数据的时序特征(temporal dynamics)。

研究内容

提出的Time-ACGAN的结构如图所示,其组成部分结构等将在组会中进行详细介绍。

评估方法

评估方法如下图所示,具体内容将在组会中进行介绍。