研究背景:随着万物互联的时代到来, 我们所面临的新生网络威胁也日趋复杂多变, 各种新型安全攻击事件频发。 “震网”、“火焰”、“毒区”等高级可持续威胁(Advanced Persistent Threat, APT)攻击陆续出现, 当前网络空间的安全威胁问题日益严峻。在日益复杂的新型网络攻击威胁下,大量传统的网络攻击防御措施已经逐渐被淘汰。黑客在进行网络攻击时,通常都使用假冒的IP地址或者使用多级代理服务器,这使得防御系统很难回溯到真正的攻击源或者无法找出问题产生的原因,从而不能实施有针对性的防御措施。
研究问题:现有方法在数据融合时对网络威胁情报信息、攻击者与攻击目标间存在的关系等信息的融合力度不够;网络中的僵尸主机、匿名代理服务器、洋葱路由、注册隐私制度等隐藏了攻击者的真实身份,增加了网络攻击事件溯源难度,进一步加大了网络攻击者挖掘分析的工作量,因此需自动化辅助的分析方法提高分析效率。但已有的研究工作存在分析特征或推理规则依赖专家经验。
研究目标:建立融合网络流量数据与威胁情报的攻击知识图谱,打通溯源分析线索间的断链、破除威胁情报的孤岛效应、降低人工手动分析的难度;引入图嵌入算法,建立用于描述网络攻击事件隐含关系的关联特征向量;利用机器学习算法自主学习生成攻击事件特征向量的分类判定模型。
研究框架:
源数据获取:主要完成网络安全威胁情报和网络流量数据两类数据的获取。
知识图谱构建:首先对网络威胁情报和网络流量数据进行数据清洗和标准化处理;然后对网络流量数据进行聚合关联处理;最后利用字符串的编辑距离和字符串相似性对处理后的数据进行实体对齐,实现多源异构数据融合,形成网络攻击事件图。
攻击挖掘:引入基于随机游走的图嵌入算法,在网络攻击事件图上随机游走,生成网络攻击事件溯源实体序列;基于该实体序列生成网络攻击事件的关联特征向量,利用历史网络攻击事件的特征向量训练GCN模型,并使用GCN实现对已知攻击者/组织的自动挖掘。