本次组会将进行《网络安全威胁情报文本信息抽取研究》研究进展情况,报告内容分为:科研背景,科研问题,提示学习实验的设置、提示学习实验结果和最近遇到的问题。其主要内容如下:
科研背景:
- 由于攻击或者恶意软件的变种层出不穷,为了应对这些攻击或者恶意软件而产生的网络威胁情报也与日俱增。随之而来的是各种专有名词不断涌现,而且普遍存在大量的缩写词,人工识别费时费力,并且实体之间的关系难以界定。
- 作为信息提取任务的基本组成部分,命名实体识别在自然语言处理 (NLP) 任务中发挥着非常重要的作。NER 任务由两部分组成:识别实体类型和检测实体边界。实体边界检测是指确定一个实体的范围。检测实体边界是将相应类别的标签赋予文本中待识别的实体。
- l提示学习通过使用人工设计提示模板 (prompt template) 和 答案模板 (answer template)使用预训练模型,在最近的几项NLP相关任务中取得了很好的效果。
科研问题:
- 对网络安全威胁情报的即时分析是安全专家面临的一个挑战,因为每天生成的网络信息量无法估量。这就需要自动化的信息抽取工具来准确地抽取威胁情报所隐含的信息,继而构建网络安全三元组构建知识图谱来方便查询和检索数据。
模型结构:
通过模板与原始数据的拼接来通过BART模型来进行获得每条拼接后模板的分数,通过答案映射来识别实体。
可能的创新点:
- 当前对Template-Based Named Entity Recognition Using BART(Leyang Cui et al. 2021)中的模板构造方法进行了优化。
- 准备不同预训练模型对两个数据集进行实验来测试网络安全文本命名实体识别的性能表现。(Bert,T5,RoBert等)