2022年10月13日 组会报告摘要-01

本次组会将会分享我看的一项新的研究,题目:VulnerGAN: a backdoor attack through vulnerability amplification against machine learning-based network intrusion detection systems(VulnerGAN:针对基于机器学习网络入侵检测系统的漏洞放大后门攻击)。

本次报告将会从六个方面进行介绍,包括研究背景,科研现状,研究目标,算法设计,拟实验结果 研究总结几个方面。

研究背景

随着人工智能技术的发展,近年来互联网设备的防御方法得到了升级,基于机器学习算法(ML-NIDS)的网络入侵检测系统已经出现。
机器学习在增强NIDS识别能力的同时,也增加了NIDS在AI安全方面的风险。ML-NIDS的主要AI威胁是数据中毒和对抗样本。
数据中毒。数据中毒是一种攻击,它通过诱导机器学习算法在模型训练阶段学习错误知识来影响模型训练。对抗样本。对抗样本是一种利用机器学习算法缺陷在模型预
测阶段影响模型预测的攻击。

同时,在人工智能在检测领域也有针对AI风险的加强。然而攻击者如果单独使用投毒或对抗性攻击,可能攻击效果不明显,不会网络系统构成严重的较大安全威胁,大概率被ML-NIDS识别。

科研现状

目前AI攻击主要分两类:数据中毒和对抗样本。其中又分白盒与黑盒。

在目前攻击生成攻击的研究中,往往只偏重某一方面,一是侧重攻击性,而被系统检测的概率太高;而对逃逸性的研究中,其攻击性又显的不足,对网络的攻击威胁不足,还有对生成样本攻击的时间也有很大的提升空间。

研究目标

综上,由于ML – NIDS的后门攻击现有的攻击方法在隐蔽性、攻击性和及时性的不足。
基于上述的需求,提出通过针对黑盒在线ML-NIDS的漏洞放大后,进行后门攻击。该方法可以使传统的网络攻击流量逃离ML – NIDS而进入目标主机或服务器。

1.假设攻击者同时使用本文提出的中毒样本和对抗样本生成器( VulnerGAN-A & B )。
2.将恶意流量转化为相应的中毒样本和对抗样本。
3.将中毒样本放入在线机器学习模型中,放大后门漏洞。最后,所有基于恶意流量生成的对抗样本逃离ML – NIDS,进入主机或服务器而不触发警报。

算法设计

模型假设

针对黑盒在线ML – NIDS的完整后门攻击。
受害者描述:1.在线ML-NIDS系统 2.不存储数据 3.时实调整模型能力 4.概念飘移现象
攻击者描述:1.攻击者不知道内部信息 2.攻击者能收集网络数据或嗅探主主机相关信息 3.可以构造并对目标发送

黑盒模型提取

目的:
1.将一个黑箱问题变成一个白箱问题。
2.它可以避免对目标ML-NIDS的频繁访问,简化目标模型架构,降低敏感度。
3.加快VulnerGAN的收敛速度。

模糊测试

目的:模糊测试旨在获取目标模型的漏洞,并帮助计算中毒和对抗样本。
步骤:
1.流量攻击分类
2.记录预测标签
3.收集与实际不匹配的数据,添加脆弱性集合Svul

中毒和对抗样本的生成算法

本文提出了两种改进的GAN模型:VulnerGAN-A和VulnerGAN-B。
VulnerGAN-A生成中毒样本以扩展模型漏洞并构建特定攻击后门。VulnerGAN-B生成对抗样本以绕过模型检测并实施有效的网络攻击。

算法整体步骤

1.合并流量示例集Strain
2.构造阴影数据集S′train
3.形成漏洞数据库Svul
4.S′train->阴影模型f′
将阴影模型S和漏洞数据库Svul
加载到VulnerGAN中。
5.转换为中毒样本和对抗样本
6.样本投毒。
7.上传对抗样本

实验结果

实验采用简化模型的方式,源ML-NIDS模型简化,采用流行的机器学习算法,如MLP,DNN,RNN,LSTM,GRU等,而阴影模型也是采用这些模型。数据集采用公开的CICIDS(2017 )数据集。

实验1-源模型与最佳阴影模型的选择比较

结果可以看出,在源模型为GRU,阴影模型为DNN的组成中,准确率最高;而对于任意的源模型中,DNN的阴影模型效果最好,其原因是对未知的模型提取再重构中,DNN发挥的其优势,其结构为未有专门针对唯一的问题结构,可以全连接调节参数获得最佳网络结构。

实验结果 2——模糊测试与模型脆弱性数据库构建

实验结果,PortScan几乎具有90 %以上的准确率,但Botnet的识别准确率均低于84 %。其说明对端口扫描较为简单,特征明显,识别率及高,而对僵尸网络所有识别率低,,一方面的是其数据样本的较少,最者其特征复杂,不易发觉。

实验结果 3——后门攻击和对抗攻击的比较

该实验主要是对算法实现后的数据比较,可以看出在不同的源模型中,初始样本流量的攻击逃逸率非常低,而对于单纯的对抗攻击和数据中毒加对抗一起攻击率几乎达到100%。说明该攻击算法的可性扩极高。

实验结果 4——与相关算法的比较

在横向对比其他生成攻击算法的攻击性,隐秘性和及时性,该方法都是具有较强的优势。

研究总结

1.意义:首先从攻击的角度研究安全方向,这是非常值的研究的方向,而且在国家政策和近年国家护网行动的趋势下,从攻击的角度检验系统的安全性是非常有必要的。

2.从实验设计上,从算法结构上符合逻辑,从实验结果上,实验结果非常优秀,需要考虑导致结果明显的根本原因。是因为源模型的过于简化吗?从现实角度看,一款NIDS系统其中检测框架应该非常复杂。从数据上看,采用2017年的公开数据,随着AI的发展网络攻击者的行为也呈现会有更多的新的变化,是否对现在模型也有些影响。

3.未来研究方向上:可以从源模型的复杂角度