作者归档:栗继房

2023年4月27日 组会报告摘要-03

本次汇报的内容为《面向网络安全知识图谱构建的信息抽取方法研究》。主要介绍背景、问题、研究内容、实验、展望。

科研背景:

网络安全防御体系建设理念从传统的以静态检测被动防御转向为以网络威胁态势动态感知主动防御。由于网络攻击趋向于复杂化和持久化,防御的成功与否已经成为安全分析师和攻击发起方之间的速度竞赛。

网络威胁情报(CyberThreatIntelligence,CTI)概念的提出为解决该问题提供了新的理论基础[8]。CTI是基于证据的知识,描述已经存在或者即将出现针对资产的网络威胁,包括威胁的背景机制指标危害和用于消除威胁的可执行的建议

一方面,频发的攻击事件导致威胁情报的数量与日剧增另一方面,威胁情报具有离散性大多源异构碎片化的特点。导致人力难以完成对其的检索、分析和关联。

知识图谱技术以图结构对真实世界中存在的知识进行建模,以有向图的形式直观的呈现多种来源的知识。该技术特点深度契合威胁情报无法及时分析、难以关联融合问题。

研究问题:

通过调研分析,目前对于网络安全知识图谱中的信息抽取方法仍存在如下问题:

现有的信息抽取环节使用的模型难以准确识别网络安全实体以及它们之间的关系。错误的实体表达和关系链接将大大降低网络安全知识图谱的可用性

网络安全实体识别阶段:随着技术的发展,威胁情报中各种专有名词不断涌现,且存在大量的缩写词,而当前实体识别使用的大多是预训练模型微调的方法,难以界定实体的边界

网络安全实体关系抽取阶段:两个目标实体之间的关系常由由其所在句子结构、语义等特征隐式表达,当前关系抽取方法所提取的特征信息易受噪音词影响而影响关系抽取的准确性

研究目标

通过问题分析,从信息抽取的两个子任务网络安全实体识别关系抽取两方面出发展开面向网络安全知识图谱的信息抽取方法研究。首先,设计网络安全实体识别方法,以解决威胁情报实体类型及其边界难以界定的问题;其次设计关系抽取模型,以解决噪音词对关系识别的准确性的影响;最后通过构建网络安全知识图谱构建系统框架,并对其进行统计测试和对比实验,以评估以及本文方法生成的知识图谱的质量。

  • 基于提示学习技术提出一种网络安全实体识别方法
  • 基于BERT模型和语义特征融合提出一种实体关系抽取方法
  • 设计网络安全知识图谱构建框架

研究内容:

工作总结:

未来展望:

2022年11月10日 组会报告摘要-03

本次组会汇报内容是关于基于提示学习的命名实体识别研究进展情况,从科研背景、科研问题、科研目的、整体框架和研究计划等几个方面展开。

科研背景:

  • l由于攻击或者恶意软件的变种层出不穷,为了应对这些攻击或者恶意软件而产生的网络威胁情报也与日俱增。随之而来的是各种专有名词不断涌现,而且普遍存在大量的缩写词,当前实体识别使用的大多是fine-tuning 预训练模型的方法,难以界定实体的边界。
  • 作为信息提取任务的基本组成部分,命名实体识别在自然语言处理 (NLP) 任务中发挥着非常重要的作用。命名实体识别(NER)任务由两部分组成:识别实体类型和检测实体边界。实体边界检测是指确定一个实体的范围。识别实体类型是将相应类别的标签赋予文本中待识别的实体。
  • 提示学习在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加“提示信息”、将下游任务改为文本生成任务,预训练语言模型以参数的形式存放很多知识和模式,有的是现成的、可以直接使用,有的则需要一定的方法来“激发”出来。

科研问题:

  • l构建信息抽取工具来解决网络安全威胁情报的即时分析问题[Sudip Mittal,2016;Hashimoto C,2020]。
  • 如何识别专有名词、缩写词以及界定实体的边界。

整体框架:

研究计划:

1.11月20号底前完善实验

2.11.18之前完成毕业论文绪论、相关基础理论的初稿

2022-07-28 组会报告摘要01

本次组会将进行《网络安全威胁情报文本信息抽取研究》研究进展情况,报告内容分为:科研背景,科研问题,提示学习实验的设置、提示学习实验结果和最近遇到的问题。其主要内容如下:

科研背景:

  • 由于攻击或者恶意软件的变种层出不穷,为了应对这些攻击或者恶意软件而产生的网络威胁情报也与日俱增。随之而来的是各种专有名词不断涌现,而且普遍存在大量的缩写词,人工识别费时费力,并且实体之间的关系难以界定。
  • 作为信息提取任务的基本组成部分,命名实体识别在自然语言处理 (NLP) 任务中发挥着非常重要的作。NER 任务由两部分组成:识别实体类型和检测实体边界。实体边界检测是指确定一个实体的范围。检测实体边界是将相应类别的标签赋予文本中待识别的实体。
  • l提示学习通过使用人工设计提示模板 (prompt template) 和 答案模板 (answer template)使用预训练模型,在最近的几项NLP相关任务中取得了很好的效果。

科研问题:

  • 对网络安全威胁情报的即时分析是安全专家面临的一个挑战,因为每天生成的网络信息量无法估量。这就需要自动化的信息抽取工具来准确地抽取威胁情报所隐含的信息,继而构建网络安全三元组构建知识图谱来方便查询和检索数据。

模型结构:

通过模板与原始数据的拼接来通过BART模型来进行获得每条拼接后模板的分数,通过答案映射来识别实体。

可能的创新点:

  • 当前对Template-Based Named Entity Recognition Using BART(Leyang Cui et al. 2021)中的模板构造方法进行了优化。
  • 准备不同预训练模型对两个数据集进行实验来测试网络安全文本命名实体识别的性能表现。(Bert,T5,RoBert等)

2022-06-09 组会报告摘要03

本次组会将进行《网络安全威胁情报文本信息抽取研究》研究进展情况,报告内容分为:科研背景,科研问题,提示学习方案选择、提示学习训练的步骤,提示学习实验结果和最近遇到的问题。其主要内容如下:

科研背景:

  • 由于攻击或者恶意软件的变种层出不穷,为了应对这些攻击或者恶意软件而产生的网络威胁情报也与日俱增。随之而来的是各种专有名词不断涌现,而且普遍存在大量的缩写词,人工识别费时费力,并且实体之间的关系难以界定。
  • 作为信息提取任务的基本组成部分,命名实体识别在自然语言处理 (NLP) 任务中发挥着非常重要的作。NER 任务由两部分组成:识别实体类型和检测实体边界。实体边界检测是指确定一个实体的范围。检测实体边界是将相应类别的标签赋予文本中待识别的实体。
  • l提示学习通过使用人工设计提示模板 (prompt template) 和 答案模板 (answer template)使用预训练模型,在最近的几项NLP相关任务中取得了很好的效果。

科研问题:

  • 对网络安全威胁情报的即时分析是安全专家面临的一个挑战,因为每天生成的网络信息量无法估量。这就需要自动化的信息抽取工具来准确地抽取威胁情报所隐含的信息,继而构建网络安全三元组构建知识图谱来方便查询和检索数据。

提示学习:

宏观图景框架:

由于提示学习的特性,准备利用提示学习构建命名实体识别模型,构造命名实体识别模板,通过提示学习完成威胁情报句子中的实体类型。之后对于存在两个实体以上的句子利用提示学习方法来完成网络安全三元组的抽取。

2022-03-31 组会报告摘要-03

本次组会将进行《网络安全威胁情报文本信息抽取研究》研究进展情况,报告内容分为:科研背景,科研问题,提示学习和基于预训练方式的区别、提示学习的步骤,提示学习在信息抽取方面的相关工作以及最近的实验安排和计划,其主要内容如下:

科研背景:

  • 网络威胁情报文本利用收集、完善和分析收集到的网络攻击信息来应对网络空间领域中存在的威胁[Brown R,2019]。
  • 由于攻击或者恶意软件的变种层出不穷,为了应对这些攻击或者恶意软件而产生的网络威胁情报也与日俱增。随之而来的是各种专有名词不断涌现,而且普遍存在大量的缩写词,人工识别费时费力,并且实体之间的关系难以界定。
  • 网络安全知识图谱主要组成部分:网络安全三元组(<e1Relation e2>)。在构建知识图谱的过程中,从这些非结构化文本中提取网络安全实体是一项关键和基本的任务。
  • 提示学习是人工设计提示模板和 答案模板,在信息抽取工作上取得了不错的效果。

科研问题:

  • 对网络安全威胁情报的即时分析是安全专家面临的一个挑战,因为每天生成的网络信息量无法估量。这就需要自动化的信息抽取工具来准确地抽取威胁情报所隐含的信息,继而构建网络安全三元组构建知识图谱来方便查询和检索数据。

科研目的:

  • 利用提示学习,尝试构建命名实体识别模型,用于识别出威胁情报句子中的实体类型。

提示学习的步骤:

提示学习和基于预训练模型方法的区别:

  • Pretrain+Fine-tuning的解决方案,需要对于每个任务都重新 fine-tune 一个新的模型,且不能共用。
  • Prompt Tuning 对于不同的任务重新定义,仅需要插入不同的prompt 参数,每个任务都单独训练Prompt 参数,让下游任务满足预训练方法。

宏观图景框架:

由于提示学习的特性,准备利用提示学习构建命名实体识别模型,构造命名实体识别模板,通过提示学习完成威胁情报句子中的实体类型。之后对于存在两个实体以上的句子利用提示学习方法来完成网络安全三元组的抽取。

2022-01-20 组会报告摘要-03

本次组会将进行《网络安全威胁情报文本信息抽取研究》研究进展情况,并且报告接下来要进行实验的内容,其主要内容如下:

科研背景:

  • 网络威胁情报利用收集、完善和分析收集到的网络攻击信息来应对网络空间领域中存在的威胁[Brown R,2019]。
  • 知识图谱以结构化图的形式描述客观世界中概念、实体及其关系属性,便于机器更好的建模、理解和推理。
  • 网络安全知识图谱通过三元组的形式存储了大量网络威胁信息,对于帮助安全分析师检测网络威胁至关重要。它可以帮助在“安全运营中心”(SoC)工作的安全分析师及时对网络攻击进行响应,并提供防御决策时信息支持。

科研问题:对网络安全威胁情报的即时分析是安全专家面临的一个挑战,因为每天生成的网络信息量无法估量,这就需要自动化的信息抽取工具来方便查询和检索数据。所以如何准确、高效地抽取威胁情报所隐含的信息是要解决的科研问题。

科研目的:l针对收集到的威胁情报,可以识别出威胁情报句子中的实体类型,并提取出不同实体之间存在的关系。

研究的宏观图景框架:

针对整体研究框架,在后续的报告中报告该框架中的实验以及实验中的参数、模型、数据集等情况,并分析实验结果。

下一步计划:

针对下一步的研究计划,准备引入激励学习(promet learning)中的OpenPrompt框架 和命名实体识别中的MRC(machine reading comprehension)框架来提高命名实体识别的准确率,并介绍激励学习和MRC的任务定义和主要思想。

2021-12-02 组会报告摘要-02

本次将会介绍有关《网络安全威胁情报关系抽取研究:基于Bert-CNN的关系抽取模型》的进展。其中主要内容包括:

1、网络安全威胁情报信息抽取的背景和目标,信息抽取两种抽取方式(流水线抽取、联合抽取)的对比。

2、所使用关系抽取模型的组成部分(SDP嵌入、Bert编码器、CNN卷积网络)、实验结果。

关系模型图

研究背景:

网络威胁情报利用收集、完善和分析收集到的网络攻击信息来应对网络空间领域中存在的威胁。 网络安全知识图谱通过三元组的形式存储了大量网络威胁信息,对于帮助安全分析师检测网络威胁至关重要。它可以帮助在“安全运营中心”(SoC)工作的安全分析师及时对网络攻击进行响应,并提供防御决策时信息支持。

科研问题:

对网络安全威胁情报的即时分析是安全专家面临的一个挑战,因为每天生成的网络信息量无法估量,这就需要自动化的信息抽取工具来方便查询和检索数据。

研究目的:

快速高效地抽取威胁情报所隐含的信息,生成语义三元组,用于构建知识图谱。

使用方法:

采用流水线式抽取方式,将问题分解为两个子任务,命名实体识别和关系抽取。我的工作在于关系抽取模型的更新。使用的模型由三部分组成(SDP嵌入、Bert编码器、CNN卷积网络)。

栗继房2022春季学期周报

2021-11-15 2021-11-21 周报

  • 修改小论文
  • 整理区块链项目ppt和中期报告
  • 整理论文实验内容

2021-11-22 2021-11-28

工作进展如下:

  • 整理论文实验数据,准备组会PPT。设计了四项对比实验。分别为Bert-cnn、Bert-cnn-sdp、Word2Vec-cnn来验证所提出关系抽取方法的有效性。论文数据集选择为MalwareTextDB。实验结果表明Bert-cnn-sdp可以有效的提取语句中的语义信息,较为精确的完成关系抽取任务。
  • 阅读相关文献,整理论文中引言、相关工作和模型架构部分
  • 查阅体系建设相关文献,修改铁路项目报告一中第八章体系建设路径内容

遇到的问题:

  • 论文内容写作论述啰嗦,逻辑不清晰

下一步计划:

  • 准备组会PPT
  • 继续参考已经发表的同类型论文,修改第一篇论文,整理论文逻辑和英文表达

2021-11-29 2021-12-5

  • 整理组会PPT,并找吴老师讨论PPT内容,根据建议修改。
  • 整理论文内容,修改论文表达方式和表达逻辑。
  • 整理铁路项目二第八章内容

下一步计划 :

  • 继续整理论文内容
  • 铁路报告格式修改

2021-12-6 2021-12-12

  • 找到3~4篇相关文献,论文内容整理
  • 铁路项目二报告格式修改
  • 论文实验内容调整

2021-12-13–2012-12-19

  • 修改论文中的图表,还差一部分准备下周进行完善
  • 整理命名实体识别数据集,对数据集中的错误进行修改,在修改中遇到数据格式和一些Tag错误的情况,已经修改完成
  • 整理论文内容逻辑

2021-12-20–2021-12-26

  • 铁路报告根据修改意见进行修改。
  • 增加论文实验命名实体识别实验部分
  • 周六周天根据第十六届全国知识图谱会议,查找与区块链和知识图谱构建相关的论文

2021-12-27–2022-1-2

  • 讨论铁路2报告一内容,对内容进行删改,调整结构安排,修订错别字和格式错误
  • 整理论文中不合适的语法或者表达错误

2022-2-28–2022-3-6

  • 添加论文命名实体识别部分的对比实验和关系抽取部分的对比实验(Bert-IDCNN-CRF、PCNN+ATT)
  • 讨论区块链项目中的需求内容

2022-3-7–2022-3-14

  • 根据实验结果修改论文,更改论文中的图片
  • 区块链威胁情报调研和整理分析

2022-3-15–2022-3-21

  • 复现Template-based named entity recognition using BART论文中的实验,准备组会内容,调研提示学习在信息抽取中的应用
  • 根据Template-based named entity recognition using BART论文中的设计基于模板的命名实体识别方法

2022-3-15–2022-3-21

  • 准备组会内容,尝试修改DNRTI数据集,构造该数据集的提示模板。
  • 根据师兄师姐的论文意见,修改论文整体结构和图片