2022-06-09 组会报告摘要03 | 电力大数据研究院

本次组会将进行《网络安全威胁情报文本信息抽取研究》研究进展情况，报告内容分为：科研背景，科研问题，提示学习方案选择、提示学习训练的步骤，提示学习实验结果和最近遇到的问题。其主要内容如下:

科研背景：

由于攻击或者恶意软件的变种层出不穷，为了应对这些攻击或者恶意软件而产生的网络威胁情报也与日俱增。随之而来的是各种专有名词不断涌现，而且普遍存在大量的缩写词，人工识别费时费力，并且实体之间的关系难以界定。

作为信息提取任务的基本组成部分，命名实体识别在自然语言处理 (NLP) 任务中发挥着非常重要的作。NER 任务由两部分组成：识别实体类型和检测实体边界。实体边界检测是指确定一个实体的范围。检测实体边界是将相应类别的标签赋予文本中待识别的实体。
l提示学习通过使用人工设计提示模板 (prompt template) 和答案模板 (answer template)使用预训练模型，在最近的几项NLP相关任务中取得了很好的效果。

科研问题：

对网络安全威胁情报的即时分析是安全专家面临的一个挑战，因为每天生成的网络信息量无法估量。这就需要自动化的信息抽取工具来准确地抽取威胁情报所隐含的信息，继而构建网络安全三元组构建知识图谱来方便查询和检索数据。

提示学习：

宏观图景框架：

由于提示学习的特性，准备利用提示学习构建命名实体识别模型，构造命名实体识别模板，通过提示学习完成威胁情报句子中的实体类型。之后对于存在两个实体以上的句子利用提示学习方法来完成网络安全三元组的抽取。