2022-03-31 组会报告摘要-03

本次组会将进行《网络安全威胁情报文本信息抽取研究》研究进展情况,报告内容分为:科研背景,科研问题,提示学习和基于预训练方式的区别、提示学习的步骤,提示学习在信息抽取方面的相关工作以及最近的实验安排和计划,其主要内容如下:

科研背景:

  • 网络威胁情报文本利用收集、完善和分析收集到的网络攻击信息来应对网络空间领域中存在的威胁[Brown R,2019]。
  • 由于攻击或者恶意软件的变种层出不穷,为了应对这些攻击或者恶意软件而产生的网络威胁情报也与日俱增。随之而来的是各种专有名词不断涌现,而且普遍存在大量的缩写词,人工识别费时费力,并且实体之间的关系难以界定。
  • 网络安全知识图谱主要组成部分:网络安全三元组(<e1Relation e2>)。在构建知识图谱的过程中,从这些非结构化文本中提取网络安全实体是一项关键和基本的任务。
  • 提示学习是人工设计提示模板和 答案模板,在信息抽取工作上取得了不错的效果。

科研问题:

  • 对网络安全威胁情报的即时分析是安全专家面临的一个挑战,因为每天生成的网络信息量无法估量。这就需要自动化的信息抽取工具来准确地抽取威胁情报所隐含的信息,继而构建网络安全三元组构建知识图谱来方便查询和检索数据。

科研目的:

  • 利用提示学习,尝试构建命名实体识别模型,用于识别出威胁情报句子中的实体类型。

提示学习的步骤:

提示学习和基于预训练模型方法的区别:

  • Pretrain+Fine-tuning的解决方案,需要对于每个任务都重新 fine-tune 一个新的模型,且不能共用。
  • Prompt Tuning 对于不同的任务重新定义,仅需要插入不同的prompt 参数,每个任务都单独训练Prompt 参数,让下游任务满足预训练方法。

宏观图景框架:

由于提示学习的特性,准备利用提示学习构建命名实体识别模型,构造命名实体识别模板,通过提示学习完成威胁情报句子中的实体类型。之后对于存在两个实体以上的句子利用提示学习方法来完成网络安全三元组的抽取。