分类目录归档:其他

2024-1-25组会摘要01

科研背景

非侵入式负载监测: 是智能用电和节能技术的重要部分。通过单一传感器有效准确地监测住宅单个电器设备的能源消耗。它的应用价值有降低电费, 节能减排;实现更高的产能和经济效益。

为了提高非侵入性负荷分解的准确性和泛化能力,近年来研究者将注意力转向了新出现的深度学习领域。随着研究的不断深入,研究者发现深度神经网络在恶意制造的对抗样本面前表现出了极大的脆弱性。

科研问题

现有的研究主要集中在传统的对抗性攻击方法在时间序列数据分析任务上的迁移和应用,特别是针对图像处理提出的攻击方法。
现有的针对时间序列数据学习任务对抗性攻击研究并没有针对最先进的深度学习模型,因此不能反映其鲁棒性。
与人眼在图像处理区域的不可感知性不同,对于人眼来说,时间序列数据比图像数据对对抗性扰动更敏感。因此,对于时间序列数据分析,对抗性扰动的程度应该有更严格的要求。

科研目的

面向非侵入式负载监测:
针对具有代表性的时间序列分类深度学习方法,提出一种对抗性攻击方法
研究面向非侵入式负载监测的对抗性攻击缓解策略

研究内容

1、非侵入式负载监测负荷特征

2、对抗攻击产生原因

3、时序数据分类的对抗攻击问题定义

4、方法

2023-1-11 组会报告摘要

本次组会介绍面向联邦学习的类别隐私推理攻击

科研背景

联邦学习实质上是深度学习和分布式计算的结合。在联邦学习中,参与方(客户端)拥有各自的私有数据,而服务器负责协调模型的训练,但不能直接访问客户端的数据。

中间梯度可以用来推断有关训练数据的重要信息,为了避免联邦学习中模型更新的泄漏,提出了安全聚合协议,通过伪随机值掩盖这些数值,以确保没有人可以看到清晰的提交更新。聚合服务器也只能在每一轮训练中获得聚合结果。

攻击者可能通过与一些恶意客户端(间谍)合谋,来窥探其他客户端的私有数据。推理攻击是指攻击者通过某些攻击手段来获取模型的某些信息(如数据集、更新的参数等),来推理获取目标信息。类别推断攻击,旨在推断目标客户端所拥有的数据类别。

科研问题

联邦学习系统极易遭受由恶意参与方在预测阶段发起的成员推理攻击行为,并且现有的防御方法在隐私保护和模型损失之间难以达到平衡。

科研目的

深入研究联邦学习中的推理攻击方法,提高攻击成功的可能性。

针对具体的推理攻击,设计对应防御方法,进行隐私保护和防御。

研究内容

1、提取目标客户端的模型更新

由于安全聚合,无论是服务器还是客户端都无法访问明确的模型更新。通过差分选择策略,通过选择两个相邻的客户端集,二者仅在一个客户端上有所不同,这个差异的客户端(即被替换的客户端)起到了”间谍”的作用。

近似更新与真实更新之间的差异为“噪声”。其会降低攻击性能。为了减轻噪声的负面影响,提出了两种去噪方法。第一种方法是设置一个噪声记录器,模拟训练过程中的噪声。第二种方法是实施重复攻击,以获得多个预测并选择最可能的结果。

2、训练推理模型来预测目标客户端持有的类别

可以通过构建pair<类别更新:类别标签>的数据集,并使用多标签学习来训练一个推理模型,该模型将单个模型更新映射到其对应的类别。

多标签学习是一种机器学习范式,它允许一个数据实例被分配到多个标签,而不仅仅是单一标签。在多标签学习中,每个数据点可以同时属于多个类别。

多标签学习中的一个多标签数据实例(x;Y)由一个数据点x和一个二进制多标签向量Y = (y1, y2, … , yK) 组成,其中K是类别的总数。每个yi表示数据点x是否与相应的第i个类别相关联。

3、隐藏攻击

使类别推理攻击更不显眼,不被诚实的客户端注意到。该攻击可能通过检查两轮中攻击者选择的客户端集之间的相似性被检测出来。如果两轮选择的客户端集过于相似,诚实客户端可能会察觉到被攻击。

因为不同的客户端可能有不同的数据分布、特征和更新,在多轮训练中会表现出多样性。需要采取措施使其选择的客户端集合更随机,模拟正常的联邦学习行为,从而避免引起系统的怀疑。

5、攻击过程

第一步是训练一个多标签推理模型,服务器端攻击者可以构造两个相邻的客户端集合,客户端攻击者复制当前全局模型,基于准备的辅助数据来模拟目标客户端的本地训练过程。一旦获得足够数量的模拟更新,攻击者可以构建一个新的数据集,用于训练推断模型。

研究计划

研究联邦学习多种场景下的推理攻击方法,复现实验进行验证。
对于特定场景中的推理攻击方法,设计基于差分隐私、对抗训练等技术的防御策略,并进行实验验证。

2024-1-11 组会报告摘要2

本次组会汇报的内容为《使用机器学习分类器进行梯度提升特征选择并用于电网上的入侵检测》。

科研背景

电网的设计目的是以高效和及时的方式发电和配电,而不是关注系统关键基础设施的安全方面。然而,互联和远程访问的增加使电网面临内部和外部攻击的风险。实时网络攻击可以破坏整个电网。SCADA(Supervisory Control And Data Acquisition)系统,即数据采集与监视控制系统,容易受到网络攻击威胁。

研究内容

本节介绍了入侵检测系统的拟议框架,该系统通过分析电网上的SCADA流量来区分正常和恶意事件。建议的框架分为三个阶段,即,预处理数据,特征选择和异常检测使用分类方法。

WFI评估模型算法概述

Ø1.将所有特征随机划分为不相交的子集,每个子集包含30个特征2(任何剩余特征将直接移动到下一轮)。

Ø2.用每个特征子集训练提升树模型。

Ø3.每一轮中删除一定百分比的特征(称为“特征消除率”),这控制了搜索的持续时间。

Ø4.从每个子集中删除的特征数量由其NDCG@5分数确定:分数越高,从该子集中删除的特征越少。从每个子集的特征重要性列表的底部移除特征。5.将所有剩余的特征合并在一起。重复步骤14,直到剩余的特征数不超过30

与其他方案的比较

思考是否可以与前一篇组会报告论文中利用具有少量特征的医疗领域环境,进行的隐私保护的过程相互结合,利用对大量特征的电力网络数据环境中使用特征提取的方法,进行对电力网络攻击行为检测模型的隐私保护过程。

2023-1-4 组会报告摘要-01

本次组会汇报的内容为《与样本相关的后门攻击》,我将从科研背景、科研问题、研究内容以及研究计划几个方面进行汇报。

科研背景

DNN 已成为现代人工智能系统中必不可少的部分,然而,最先进的网络需要大量的训练数据、昂贵的计算硬件以及数天数周的训练。因此,训练DNN通常需要会利用第三方资源,防止从头训练

后门攻击:通过将少量恶意构造的输入注入训练集中构造后门触发器,然后在推理过程中受攻击的模型在良性样本上表现正常,而每当出现对手指定的触发模式时,其预测就会被误导,所以极具隐蔽性

科研问题

当前的后门攻击通常使用与样本无关的固定触发器,这使得现有防御方法能够容易地检测并减轻这些攻击

(1)现有训练样本生来不平等

(2)与样本有关的后门攻击要不是可见攻击,要不就是毒标签隐蔽性差,很容易被检测

科研目的

专注于设计一种与样本有关且不可见的干净标签攻击,提高触发器的隐蔽性

研究内容

2023年12月28日 组会摘要(2)

本次组会主要介绍最近工作进展,将从研究背景,研究问题,研究目的,研究内容进行介绍

科研问题

现有的大多数谣言检测方法侧重于从文本内容、用户概况和传播模式中挖掘特征。这些方法没有充分利用文本内容的全局语义关系,而这些语义关系表征了谣言的语义共性,是检测谣言的关键因素。

2023-12-21 组会报告摘要-02

研究背景

图像描述任务的输入为图像I,输出为由N个单词组成的图像文本描述S={s1,s2,···,sN},旨在利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句,实现从图像到文本的跨模态转换。

经典图像描述模型–NIC

用I表示输入图像,用S = (S0, . . . , SN ) 表示描述该图像的真句,其框架展开过程如下:

经典图像描述模型-CNN+LSTM+注意力机制
在NIC的基础上引入了注意力机制,将图像生成的描述的每一个单词都对应到图像的某一个区域

科研问题

对于图像字幕模型发起攻击可能会生成一些与攻击者预先定义的图像无关的特定字幕,攻击者可能会通过控制特定的标题来制造社会恐慌或引导舆论。
有一些针对图像字幕的对抗性攻击的研究,但它们的目的是制作对抗性示例,主要使用基于优化的方法,以操纵图像字幕模型的生成结果作为目标句子或单词。
且针对图像分类任务的后门攻击已经被广泛研究并被证明是成功的,但针对视觉语言模型的后门攻击研究却很少

研究内容

在模型中插入一个后门,后门模型在中毒图像上生成攻击者定义的句子或单词,同时不降低模型在正常图像上的性能。
在构建中毒样本的过程中,提出了一种基于对象的毒物生成方法。
图像字幕后门攻击的目的是在图像字幕模型中创建后门,该后门适用于跨模态领域。

2023-12-21 组会报告摘要-01

本次组会将会继续针对我上次汇报的内容《基于AC-TimeGAN-GP模型的电力时序数据生成研究》进行汇报。

科研背景

随着新一轮能源技术革命的兴起,我国提出以碳达峰、碳中和为目标的能源战略,建立清洁、低碳、安全、高效的能源体系。对于这些目标,电力行业正在经历着多维度的转型,在用电侧,消费者的消费方式也朝着数字化、个性化、便捷化、开放化的方向转变。

2020年,我国首次将数据纳入五大生产要素之一,数据作为战略性和基础性资源的价值已经得到社会的广泛认可。无论是数据收集、分析还是使用,都已经成为现在社会各行各业的核心工作,其中电力行业也不例外。截至到2022年底,我国已经部署了7亿个智能电表。因此,使用人工智能技术对细粒度的用户用电数据进行分析,可以为消费者提供更多个性化的能源使用服务,帮助电力供应商训练更加准确的负荷预测模型,制定更加高效的电力调度决策,提高新能源的消纳量。

科研问题

因此,在电力行业中,智能电表的广泛部署使得使用人工智能技术来细致分析用户的用电数据变得可行。这种分析尤其在处理短期电力负载变化时显得至关重要。这不仅帮助消费者获得更加个性化的能源使用服务,而且还能帮助电力供应商更准确地预测电力负荷,从而制定出更有效的电力调度策略,并提高新能源的利用效率。然而,这些技术为了高效训练通常需要大量有代表性的数据集。然而,收集这些数据面临着显著的安全和隐私挑战,同时,高质量的公开数据集也相对稀缺。

因此,为了解决上述的矛盾,使用合成数据(Synthetic Data)代替原始数据来训练训练机器学习算法成为了一种可行的方案。而生成式对抗网络(Generative Adversarial Networks, GANs)身为目前最好的合成数据解决方案,展现出了其独特的优势。继GAN之后,时间序列生成对抗网络(Time-series Generative Adversarial Networks,TimeGAN)这一GAN的变种进一步扩展了这一领域,为时间序列数据的合成提供了创新的解决方案。

家庭智能电表的时间序列数据通常包含丰富的信息,如能源消耗模式、峰值使用时段等。这些数据通常与社会人口统计数据(如家庭大小、位置、收入水平)有关联,使得数据的特征非常复杂和多变。尽管TimeGAN是一种有效的时间序列数据生成模型,但其在处理具有丰富特征和复杂关联的真实世界数据时仍然存在局限性。例如,它无法充分捕捉到社会人口统计特征与能源消耗之间的关系。

科研目的

提出了时间序列生成模型Auxiliary Classifier Wasserstein TimeGAN with Gradient Penalty(AC-TimeGAN-GP),在保护用户隐私的同时,实现数据价值属性的流通。相比于传统的TimeGAN模型,本文提出的模型同时通过引入Wasserstein距离和ACGAN的辅助分类器,提高模型的稳定性和数据的质量,从而能够更好地处理和生成复杂的时间序列数据。

这种改进的模型可以更有效地处理复杂的真实世界时间序列数据。在家庭智能电表数据中,AC-WGAN-GP能够模拟和生成符合实际社会人口统计特征的能源使用模式的高质量合成数据,从而在能源需求预测、用户行为分析等方面提供洞察。

研究内容

2023-12-14组会摘要02

科研背景

在我们进行机器学习任务时,构建高质量的机器学习模型需要从不同的来源收集大量的训练数据。然而,在许多行业中,数据分散并锁定在多个组织中(例如,银行、医院和研究所),由于对数据隐私和保密性的日益关注以及相关法律法规的制定,数据共享被严格禁止。联邦学习提供了一个有力的解决方案来打破组织之间的“数据孤岛”,其中参与的客户端通过将其本地梯度更新上传到中央服务器进行聚合来协作学习全局模型,而无需共享隐私敏感数据

为了确保没有客户端在聚合期间透露其更新,已经提出了许多方法。其中,加法同态加密(HE),特别是Paillier密码系统,在联邦学习中十分有效,因为它提供了强大的隐私保证,而不会以学习精度损失为代价。利用同态加密,可以在不预先解密密文的情况下对密文执行梯度聚合。HE已在许多联邦学习框架中应用,在训练开始之前,通过安全通道在所有客户端之间同步HE密钥对。在训练期间,每个客户端使用公钥加密其梯度更新,并将密文上传到中央服务器。服务器聚合来自所有客户端的加密梯度,并将结果分发给每个客户端。客户端使用私钥解密聚合的梯度,更新其本地模型,并继续进行下一次迭代。由于客户端仅上传加密的更新,因此服务器或外部方在数据传输和聚合期间无法了解任何信息

科研问题

虽然同态加密为联邦学习提供了强大的隐私保证,但它执行复杂的加密操作(例如,模乘和求幂),其计算极其昂贵。实验表明,超过80%的训练迭代时间用于加密/解密。更糟糕的是,加密会产生更大的密文,比明文学习增加了150倍以上的数据传输量。HE在加密和通信中的显著开销已经成为促进联邦学习的主要障碍。因此提高同态加密联邦学习模型的通信效率十分必要

研究目的

实现联邦学习通信阶段的效率提升,使其在经过同态加密的情况下依然能保证接近原始通信效率。

研究内容

在通信效率处理方面目前使用的方案是使用带有误差矫正的量化压缩方案,梯度处理流程如下图:

具体研究内容将在组会中讲述。

2023-12-7组会摘要02

智能电网中一种基于强化学习的时序网络攻击检测方法

科研背景

着能源需求的变化,电力系统朝着新型电力系统快速转变。越来越多的边缘设备通过多种形式接入到电网内部,增加了网架的负担,对电力物联网的可信度和可靠性提出了巨大挑战,更容易受到网络攻击。在保护数据、网络应用等免受潜在的入侵或攻击方面,成为加强新型电力系统网络安全的基本要求。

科研问题

1.攻击隐蔽性:目前攻击表现更加隐蔽,攻击者往往采用更智能方式,如GAN对抗和强化学习策略,攻击效率效果提高,属于博弈与探索方式的智能攻击形态,攻击者成本更低,比传统攻击方式隐私性更强,危害更大。

2.检测的灵敏性:面对不确定的电网环境(间歇性可再生能源和未知的攻击模式、时间和位置),探测器的检测过程一般是这样:在给定的时间,使用当前的横截面数据,决策者要么宣布数据异常,要么等待下一个时间间隔进行进一步测量。当错误检测,可能导致攻击检测延迟。因此,宣布决策时间的选择至关重要,它平衡了检测速度和准确性之间的权衡关系。

科研目的

提出一种面向时序网络数据的攻击检测方法,使用深度强化学习(DRL)方法,加入自编码器对时序流量数据的特征提取,通过马尔科夫决策决策思想检测攻击网络攻击行为,优化决策时效质量。具体来说,我们将网络检测分为2个主要层级,一个为网络特征提取层,一个为智能体检测决策层。

研究框架

模型框架
检测过程

2023-12-07组会报告摘要01

研究背景

随着智能电网的发展和普及,越来越多的终端设备接入电网网络,解决终端设备对实时性的计算需求成为一个难点,边缘计算的引入是一个很好的解决方案,以往只依托云计算的电网系统在带宽、时延等方面的限制将得到缓解。边缘计算的一般架构主要分为三层:边缘设备层、边缘服务层和云服务层。然而边缘计算由于算力和存储资源受限,因此容易遭受安全方面的影响。以往对电网数据安全的研究主要是针对虚假数据注入攻击,而对边缘计算环境中机器学习模型的攻击相关研究较少。投毒攻击是一种关于机器学习安全对抗研究的重要方向,攻击者在训练机器学习模型之前,向训练数据集中添加精心构造的毒样本数据,此时通过学习算法得到的目标模型将受到影响。联邦学习可以分为三个阶段:数据收集阶段、训练阶段和推理阶段段。联邦学习中存在的潜在威胁划分为对抗性攻击和非对抗性攻击。对抗性攻击主要目的是干扰联邦学习训练或推理过程,影响联邦学习训练时的收敛速度或推理结果。非对抗性攻击主要目的是试图从联邦学习各个阶段获取隐私信息或其它好处,但不会破坏模型训练和推理过程。

科研问题

作为边缘计算中的数据源,资源受限的物联网设备可能会遭受到对抗性样本的投毒攻击。针对边缘计算中基于GAN投毒攻击的防御技术相关研究较少,需要对其进行研究。

科研目的

基于对抗性样本的中毒攻击和边缘计算中抵御中毒攻击的差分隐私联邦学习模型进行结合研究基于边缘计算环境的对抗投毒攻击与防御技术。并考虑结合智能电网的边缘环境,使用电力相关数据进行对抗投毒攻击与防御。