作者归档:秦淑梅

2024-06-13组会摘要01

研究背景及意义

联邦学习(FL)的分布式特征使确保参与者的可信性变得困难,进而让FL系统容易遭受多种形式的攻击。在这类攻击中,由于参与者对于其对模型贡献的不透明,后门攻击尤为威胁严重。在这种攻击中,恶意行为者将特定的后门模式植入全局模型,该模式在接收特定的输入(被称为触发器)时导致模型输出错误,而在处理常规输入时表现正常。恶意攻击者通常能控制系统中的特定设备,并追求两个主要目标:(i) 使聚合模型在后门任务和常规任务上都表现出高准确性;(ii) 通过规避服务器的异常检测机制,保持后门的隐蔽性。模型替换攻击作为实施后门攻击的一种常见手段,涉及控制至少一个表面正常的设备,然后用精心设计的模型替换原聚合模型。后门攻击由于其较强的隐蔽性,对联邦学习系统构成了严重威胁,因此研究和开发有效的防御策略对于保护FL系统至关重要。

研究现状

研究内容

实验结果

2024-04-25组会摘要01

科研背景及意义

由于联邦学习(FL)的分布性,很难确保每个参与者都是可信的,因此FL框架很容易受到各种攻击。在这些针对FL的攻击中,由于参与者对模型的贡献缺乏透明度,系统很容易受到后门攻击的威胁。具体来说,恶意攻击者会将后门模式嵌入到全局模型中,使其在特定输入(称为触发器)下产生不正确的输出,而在常规输入下正常运行。一般来说,恶意后门攻击者拥有控制 FL 中某些设备的权限,并实现两个主要目标: (i) 确保聚合模型对后门任务和主任务都具有高准确性;(ii) 避免服务器的异常检测,从而保持嵌入后门的隐蔽性。目前,模型替换攻击是在 FL 中发起后门攻击最常用的方法,攻击者只需控制一个良性设备,然后用精心制作的模型替换聚合模型。后门攻击的隐蔽性较强,给联邦学习系统造成了严重威胁,因此对联邦学习后门攻击进行防御,成为了重要的研究课题。

科研问题

1、基于异常检测的方法用于识别和删除潜在中毒的模型更新。然而,这些解决方案仅在非常特定的对手模型下有效,因为它们对对手的攻击策略和/或良性或敌对数据集的潜在分布进行了详细的假设。

2、差分隐私(DP)技术适用于通用的对手模型,无需对对手行为和数据分布进行特定假设,并且可以有效消除恶意模型更新。但DP方法会导致良性模型更新权重的显著修改,从而使主任务准确性降低。

科研目的

1、结合了两种防御类型的优点,而不受现有方法的限制(对数据分布的假设)和缺点(良性性能损失)的影响。为此,我们引入了一种防御方法,其中异常模型更新的检测和权重的裁剪相结合,以最大限度地减少聚合模型的后门移除所需的噪声量,以便保持其良性性能。

2、对该防御策略进行安全性分析,从理论上保证了此防御策略的有效性。

科研内容

2024-02-29组会摘要01

科研背景

由于FL的分布式结构,它更容易受到对抗性攻击,包括非目标攻击和目标攻击。数据中毒攻击和模型中毒攻击是两种类型的非目标攻击,其目的是通过恶意修改本地数据集或本地模型参数来降低聚合模型的性能。一般来说,如果没有防御部署在FL,一个单一的对手可以成功地实施无针对性的攻击。更不用说拜占庭人的进攻了,这让防守变得更加困难。后门攻击是FL中典型的有针对性的攻击,它比无针对性的攻击具有更强的隐蔽性和入侵性。具体地说,攻击者将后门模式嵌入到聚合模型中,并进一步使模型在主任务和后门任务上都表现良好。因此对联邦学习后门攻击进行防御,成为了重要的研究课题。

科研问题

联邦学习通常容易受到后门和其他模型中毒攻击。首先,当训练数百万参与者时,不可能确保他们中没有一个是恶意的。其次,联邦学习不能使用数据中毒防御。

现有的防御方法的不足之处在于:需要单独部署新的网络模型效率较低。

科研目的

不使用数据中毒防御的情况下,寻找一个强大的和可推广的联邦学习后门攻击缓解系统,此系统可以通过裁剪、随机遗忘、自适应、带约束损失训练等多种技术缓解联邦学习后门攻击。

提出的联邦学习后门攻击防御系统,不需要需要单独部署新的网络模型,防御效率较高。

科研内容

2023-11-30组会报告摘要-01

研究背景及意义

由于联邦学习的分布式架构,更容易受到对抗性攻击,包括非目标攻击和目标攻击。数据中毒攻击和模型中毒攻击是两种类型的非目标攻击,其目的是通过恶意修改本地数据集或本地模型参数来降低聚合模型的性能。一般来说,如果没有防御部署在联邦学习模型上,一个单一的对手可以成功地实施无针对性的攻击,这让防守变得更加困难。后门攻击是联邦学习中典型的有针对性的攻击,它比无针对性的攻击具有更强的隐蔽性和入侵性。具体地说,攻击者将后门模式嵌入到聚合模型中,并进一步使模型在主任务和后门任务上都表现良好。为了使联邦学习对后门攻击具有更强的鲁棒性,很多学者都对联邦学习后门防御进行了研究,例如:Zhu等人提出了一种基于对抗性蒸馏的新型后门防御方案 ADFL,ADFL 通过在服务器端部署生成式对抗网络(GAN)生成包含后门特征的虚假样本,并对虚假样本重新标记以获得蒸馏数据集;Lu等人设计了收敛轮攻击下基于模型预聚合和相似性度量的后门模型检测和清除防御方案;早期轮攻击下基于后门神经元激活的后门模型清除防御方案。鉴于现有的防御方案需要单独部署新的网络模型效率较低,本次汇报提出了一种更高效的联邦学习后门防御方案。

研究内容

总结

2023-10-12组会报告摘要01

科研背景

后门攻击是AI安全领域目前非常火热的研究方向,其涉及的攻击面很广,在外包阶段,攻击者可以控制模型训练过程植入后门,在协作学习阶段,攻击者可以控制部分参与方提交恶意数据实现攻击,甚至在模型训练完成后,对于训练好的模型也能植入后门模块,或者在将其部署于平台后也可以进行攻击。随着攻击的研究逐渐深入,相关的防御方案也被提了出来,对于攻击者而言,接下来再要设计攻击方案,必须要考虑是否能够规避已知的防御方案,而对于防御者而言,需要考虑已有防御方案的缺陷,以及如何改正,才能进一步提高检测效率,不论是从哪方面来看,都有必要对目前典型的防御方案做一个全面的了解。本报告就会从样本和模型两个角度,介绍目前典型的方案。

科研问题

1、深度神经网络(DNN)缺乏透明度,使它们容易受到后门攻击,其中隐藏的关联或触发器会覆盖正常的分类,从而产生意想不到的结果。

2、后门可以无限期地保持隐藏,直到被输入激活,并且对许多安全或安全相关的应用(例如,生物识别认证系统或自动驾驶汽车)造成影响。

科研目的

1、寻找一个强大的和可推广的DNN后门攻击的检测和缓解系统,此系统可以识别后门并通过输入过滤器、神经元修剪和遗忘识别等多种技术缓解后面攻击。

2、提出新的可推广的技术,用于检测嵌入在深度神经网络中的隐藏触发器,从而对神经网络后门攻击进行防御。

科研内容

神经网络后门攻击

科研背景

近年来,以深度学习为代表的人工智能技术飞速发展,在图像分类、自然语言处理等多个任务中超过了人类表现。然而,在这一过程中人工智能系统自身暴露出众多安全问题,不断涌现出针对人工智能系统的新型安全攻击,包括对抗攻击、投毒攻击、后门攻击、模型逆向击、成员推理攻击等.这些攻击损害了人工智能数据、算法和系统的机密性、完整性和可用性,因此人工智能安全受到了人们的广泛关注。

人工智能安全攻击主要有三个方面数据攻击、算法攻击、模型攻击。所对应的防御机制在模型和算法方面,建立后门攻击和逆向攻击的底层技术防御机制,提升可解释性、透明性和鲁棒性的能力;在数据和隐私安全方面:提升训练数据质量及评估水平,加强防范数据投毒和对抗样本攻击的技术能力,建立机器学习等技术的隐私计算体系。深度学习中常见的几种攻击类型,由于深度学习的黑盒性质、模型复杂性、可解释性不足等原因,它容易受到多种攻击,大致可以将这些攻击归纳为:对抗样本、通用对抗补丁、数据投毒、后门攻击等。不同的攻击在深度学习的不同阶段进行攻击:对抗样本和通用对抗补丁(UAP)仅影响模型部署后的推理阶段;数据中毒是在数据收集或准备阶段进行;后门攻击可以在ML管道的每个阶段进行(模型测试阶段除外)。

科研意向

结合目前我所阅读的文献,我认为接下来的研究课题可以尝试从如下几个方面考虑:1.触发器设计: 目前触发器的研究主要针对其大小、形状、位置以及不可见性, 而针对其潜在特征表示的深入研究较少,因此如何更好的设计触发器将是未来研究可以考虑的方向。2.更多应用: 后门攻击作为一种方法, 不仅仅是产生安全威胁, 也可以在其他方向上发挥作用。目前已经出现了一些有益应用如自动驾驶、人脸识别等, 但仍然还存在很多针对不同领域的潜在应用。3.可解释性: 目前后门攻击仅依据实验效果, 而没有完整有效的理论支撑, 什么样的模型更容易嵌入后门, 什么样的触发器更容易被模型学习, 可以对相关的可解释性进行讨论与分析。

研究内容