分类目录归档:其他

 2024-12-05 组会摘要02

基于动态关系建模的社交机器人检测

科研目的:提出一个基于动态关系建模的社交机器人检测模型运用面向社区内部的节点表示方法,能够通过社区内采样策略,显著保留社交网络节点中的社区结构。并且将社交网络描述为动态图,通过构建一个结构模块从每个历史快照中提取社交网络的拓扑信息,对社交机器人和正常用户的不断演变的行为模式进行建模。有效捕捉随时间变化的动态特性及其节点之间的关系,提高社交机器人检测的准确性。

2024-12-05 组会摘要01

模型的解释分事前解释和事后解释,之前的方法基于事前的解释性。我们希望能理解的性能最高的模型通常可能不是具备内在可解释架构的。在这种情况下,我们必须依赖事后可解释性方法。介绍了两种事后可解释性方法,并列举了一些关于机制可解释性和基于概念的可解释性的经典论文。

2024-11-28 组会报告摘要-01

本次组会介绍可验证数据集所有权的研究进展

研究背景

科研问题

当前的模型(包括生成模型,AIGC)训练依赖于高质量的数据集,但数据集的获取极其不易,急需一种新的鲁棒性水印技术来保护数据集,防止被窃取。

现有的数据集水印缺乏定量研究可以检测水印的理论保证,易受到未来新类型的攻击去删除水印(存在攻防博弈关系)

科研目的

提出一种黑盒状态下基于共性预测的新型鲁棒的数据集可验证水印,旨在提供理论保证。只要数据集的扰动在一个区域(水印鲁棒性及其扰动大小共同指定的二维认证区域)之内,水印不易被删除,从而验证数据集的所有权

研究方法

通过分别计算验证模型和可疑模型的概率分布,然后使用共性预测来对比这两者的差异之处,以此验证数据集所有权

2024-11-07-组会摘要02

本次组会我将汇报对于近期在联邦学习后门防御的文献调研情况,对一些常用于对比的sota防御方法和最新的顶会论文等进行汇报。在本次组会汇报中我将从以下几个方面联邦学习后门防御方法进行介绍:科研背景、文献汇报、个人总结与思考,未来的研究计划、参考文献。

科研背景


联邦学习是一种分布式机器学习训练过程,它的提出是解决集中式机器学习需要面对的数据孤岛和数据隐私问题。联邦学习中常用的架构是C-S架构,其中包含两类角色:多个客户端与一个中心聚合服务器。他们联合起来训练一个统一的全局模型。

(1)模型初始化与分发:中央服务器在第一轮确定学习任务,初始模型参数生成初始的全局模型,并将其分发给客户端。

(2)本地训练:各客户端利用本地的私有数据对模型进行训练,得到本地的局部模型。

(3)模型上传:本地向服务器上传本地训练后的模型参数

(4)模型更新:服务器根据指定的聚合方法将各个客户端上传的模型权重与全局模型进行更新后,将新的全局模型下发给客户端。

联邦学习训练过程

投毒攻击的主要目的在于通过恶意梯度或恶意数据降低全局模型的准确度。后门攻击也是通过数据投毒或模型投毒实现,在联邦学习中许多研究者将后门攻击归纳为特殊的投毒攻击。 后门攻击影响目标子任务的性能,全局模型在正常情况下表现良好,在某一类数据上准确度降低。联邦学习的后门攻击具有很强的隐蔽性,需要设计特定的防御方法来减轻后门攻击的影响。

联邦学习后门防御方法分类

文献列表

其余部分我会在组会详细介绍

2024-11-07-组会摘要01

今天主要针对我的《合成数据评估研究》进行介绍。

背景

在许多行业和领域中,数据被视为推动科学研究、技术创新和机器学习发展的关键资源。然而,现实中许多真实数据涉及敏感的隐私信息,尤其是在医疗、金融、政府和教育等行业。随着个人隐私保护意识的提升,全球范围内的法律法规也不断加强,对数据共享和公开的限制日益严格。例如,欧洲的GDPR(通用数据保护条例)和美国的HIPAA(健康保险携带与责任法案)等法律明确规定了数据的使用、存储和共享的严格要求。这些法律的实施有效保障了个体隐私权利,但同时也造成了数据的封闭性,限制了新技术的应用,尤其是对科学研究和机器学习算法的开发和验证造成了阻碍。

在此背景下,生成模型(如生成对抗网络GANs、变分自编码器VAEs等)作为一种新兴的技术,提供了一个潜在的解决方案。生成模型能够通过学习真实数据的统计分布,生成与真实数据相似的合成数据。与真实数据相比,合成数据不包含具体的个人信息,因此不会违反隐私保护规定,但它仍然能够保留真实数据的大部分分布信息。这意味着,研究人员可以使用这些合成数据进行科学实验、模型训练和算法验证,从而避免了隐私泄露的风险,并且仍能进行高质量的研究和分析。

•在这个背景下,合成数据(synthetic data)的评估显得尤为重要。尽管生成模型为解决隐私问题提供了一个潜在的解决方案,但合成数据的质量和有效性直接影响到科学研究和机器学习应用的可靠性。如果合成数据无法充分反映真实数据的特征和分布,或存在系统性偏差,它可能导致模型训练和结果分析的偏差。因此,如何准确评估合成数据的质量成为了确保其广泛应用的关键。

当前合成数据的评估维度主要包括:

•Fidelity: 生成的样本应当与真实数据集 𝑃𝑟 中的真实样本相似。一个高忠实度的合成数据集应包含“realistic”的样本,例如视觉上真实的图像。

•Usefulness: 使用真实数据训练的模型在进行下游的ML任务时的效果,应该与使用合成数据或合成数据混合真实数据的训练集在进行下游的ML任务时的效果相近。

•Diversity: 生成的样本应足够多样化,以覆盖真实数据的变异性。也就是说,模型应能够生成多种高质量的样本。

•Generalization: 生成的样本不应仅仅是训练数据中(真实)样本的简单复制,即对真实数据 𝐷𝑟𝑒𝑎𝑙过拟合的模型并不是真正的“生成性”模型。

研究问题

•不同类型的数据(tabular data, time series data等)需要使用不同的evaluation的方法来进行评估 [8]。

•比起先前仅使用likelihood来对合成数据进行评估的方法,现在更加趋近于使用维度的方法来对合成数据进行评估[9]。

•合成数据直接copy原始数据的问题(overfitting problem)[1][10]。

研究目的

1.针对现有的评测维度,提出一个新的evaluation的维度,结合现有的维度,组成全新的评测框架

2.在现有的evaluation的维度中提出全新的方法来对合成数据的质量进行评估。

2024-10-31 组会报告摘要-02

本次组会汇报常见深度学习算法在网络空间安全中的应用的综述

攻击者分类

在黑盒攻击中,攻击者对深度学习模型一无所知,对模型知识掌握度为0。

在灰盒攻击中,攻击者知道模型中存在的一些组件的细节,并且对模型有适度的了解。

在白盒攻击中,攻击者完全了解此模型。这种情况只会在最坏的情况下发生。

攻击行为分类

拒绝服务攻击(DoS):它是通过向预期的接收者发送大量流量来进行的,这样将不再被允许从相应的PC访问服务。

探测(Probing):网络被攻击者扫描,他们很容易收集信息和数据。

User to Root:攻击攻击者已经具有普通用户权限,通过利用系统中的漏洞或权限配置不当,提升到管理员权限,进而完全控制系统。

完整性攻击( Integrity Attack ):完整性攻击主要集中在更改或破坏系统上的数据。

对抗攻击(Adversarial Attacks):

在对抗性攻击中,攻击者经常插入类似于所使用的训练输入的扰动,这些攻击通常是白盒攻击。

投毒攻击(Poisoning attacks):

为了降低深度学习算法的预测准确性,对手将病毒插入训练样本中。

深度学习算法-CNN

卷积神经网络(Convolutional Neural Network ):CNN的前馈神经网络分别由卷积层、多个隐藏层、池化层和全连接层组成。卷积层的作用是特征提取,池化层的作用是对卷积层中提取的特征进行挑选,进而降维,减少计算量。

Zhang等人提出了一种基于CNN的NIDS。该模型结合了合成少数过采样技术(SMOTE)和基于高斯混合模型(GMM)的欠采样聚类。然后,设计了一个基于流的入侵检测模型SGM-CNN,该模型将不平衡类处理与卷积神经网络相结合。数据集采用的是UNSW-NB15和CICIDS2017。

深度学习算法-AE

自编码器(Autoencoder ):AE是一种无监督学习的神经网络架构,AE通过学习使得输出尽量接近输入,即最小化输入和输出之间的重构误差。

堆叠自编码器(SAE):SAE通过无监督分层学习算法将n个自编码器堆叠到n个隐藏层中,然后通过监督方法进行微调。

Liu等人提出了一种SAE与dropout相结合的多故障齿轮箱的故障诊断深度学习方法。SAEs结合dropout模型进行训练从振动信号的频谱中提取的权重矩阵。Dropout模型在这里是为了防止过拟合。

深度学习算法-DBN

深度信念网络(Deep Belief Network ):DBN是一种由多层受限玻尔兹曼机(Restricted Boltzmann Machines,RBMs)堆叠而成的深度学习模型。DBN最初由Hinton等人在2006年提出,主要用于无监督特征学习。

Zhang等人提出了一种结合流计算和深度学习的网络攻击检测方法。该方法由两部分组成:基于流计算和频繁模式的实时检测算法和基于深度信念网络和支持向量机(DBN-SVM)的分类算法。数据集采用的是CICIDS2017。

通过DBN中具有多个隐藏层的神经网络的逐层特征变换,对大量高维和非线性的未标记原始数据进行特征降维,从而得到原始数据的最佳低维表示,从而显著降低了数据的维数,即在去除冗余特征的同时保留了数据的关键重要特征,如右图所示。

深度学习算法-RNN

循环神经网络(Recurrent Neural Network)是一种适合于处理序列数据的算法。RNN的工作原理通常包括四步骤:输入、隐藏状态、输出、循环连接。经典RNN在实际应用中难以捕捉长期依赖关系,因为随着步数的增长,最开始的重要参数可能被消失,因此RNN也有一些改进架构,如长短记忆网络(LSTM)。

Le等人提出了一种基于CNN和RNN的恶意软件分类方法。在CNN卷积层之上应用LSTM,然后将循环层的输出馈送到输出层,将输入分类为九个恶意软件类别之一。采用这种方法的基本原理是,由于二进制文件中不同代码之间存在依赖关系,因此CNN层之上的循环层将有助于在将整个文件的内容馈送到输出层之前将其总结为一个特征向量。采用的数据集是Microsoft Malware Classification Challenge (BIG, 2015) 。

深度学习算法-GAN

生成对抗网络( Generative Adversal Network ):GAN是一种由两个神经网络组成的深度学习模型架构,分别称为生成器和判别器。GAN的核心思想是通过两个网络的对抗训练,使得生成器可以生成越来越真实的数据,直到难以与真实数据区分。

Hyrum等人利用GAN的概念构建了一个恶意域名生成算法,该恶意域名生成算法旨在有意绕过检测器。从GAN生成的域绕过GAN的检测器,也绕过了利用手工制作的特征的随机森林分类器。通过用这些对抗性示例来增强训练集,随机森林分类器能够以更高的效率检测训练中没有看到的域名生成算法恶意软件家族。在对抗训练中,只训练阴影层:生成模型的生成器层和判别模型的逻辑回归层。