作者归档:孙艺凡

2022-08-25 组会报告摘要-02

网络安全威胁情报知识图谱的推理技术研究

在周二开题答辩PPT内容之上,增加了一些概念和引用理由、思路以及知识图谱的推理应用研究。

科研背景

  • 目前网络安全威胁情报在实际应用中主要面临着数据类型多样、分布离散、内容不一致等问题,因此引入了知识图谱技术框架来试图解决这一问题。但大部分的知识图谱仍未完整和全面,这促使对知识图谱进行推理来完善知识图谱成为构建知识图谱中最基本的任务之一。
  • 知识推理旨在根据已有的知识推理出新的知识,以达到完善知识图谱的目的。近年来兴起的基于分布式表示的知识推理方法通过嵌入式算法将实体和关系表示为低维向量,即能有效保留知识图谱中的结构信息,同时也简化了计算过程,受到了广泛的关注。
  • 集成学习方法在机器学习中取得了巨大的成功,集成学习是通过训练多个基学习器,之后再通过一定的结合策略形成一个强学习器的方法,利用多个学习器通常会比单一的学习器有着更好的性能。

科研问题

  • 现有的知识推理方法更多的关注知识图谱中三元组本身的内容,忽略了隐藏在知识图谱中有助于推理的附加信息,使得构造的威胁情报知识图谱不够完善。
  • 目前的模型大都使用单个学习器,存在性能不稳定、模型泛化能力不足等缺点,难以应对复杂的威胁情报知识图谱场景。

研究内容

  • 研究一:基于集成学习的知识图谱嵌入研究(构建知识图谱)
  • 研究二:基于网络安全威胁情报知识图谱的推理系统(知识图谱的应用)

2022-07-07 组会报告摘要-01

基于知识的虚假信息检测

科研背景

  • 近年来,随着社交媒体与社交平台的发展与普及,极大地改善了人们的生活质量,改变了人们对于信息的获取方式。然而,谣言、骗局、阴谋论等虚假信息的泛滥给社交网络和现实世界产生了恶劣的社会影响。因此,虚假信息检测作为目前热门的一个研究领域,受到了极大的关注。
  • 对于网络上存在的大量信息进行人工核查显然是不现实的。因此如何利用模型进行自动的虚假信息检测且检测结果具有较高的准确性是目前研究的一个热点。

科研问题

  • 如何有效且准确的借助外部信息。
  • 如何对词进行恰当的表示。

虚假信息检测流程

虚假信息检测流程图

整体思路

组会汇报内容

本次组会汇报的主要内容是关于融合文本的实验进展情况以及如何利用集成学习方法去融合知识图谱的一些想法。

2022-05-12 组会报告摘要-03

基于知识的虚假信息检测

科研背景

  • 近年来,随着社交媒体与社交平台的发展与普及,极大地改善了人们的生活质量,改变了人们对于信息的获取方式。然而,谣言、骗局、阴谋论等虚假信息的泛滥给社交网络和现实世界产生了恶劣的社会影响。因此,虚假信息检测作为目前热门的一个研究领域,受到了极大的关注。
  • 对于网络上存在的大量信息进行人工核查显然是不现实的。因此如何利用模型进行自动的虚假信息检测且检测结果具有较高的准确性是目前研究的一个热点。

科研问题

  • 一些信息并不能直接判断出其真假,或者信息包含的内容较少,需要借助外部文本来进行辅助判断。如何从大量的外部文本中找到有用的内容并融合到虚假信息检测中是目前研究存在的一个问题。
  • 文本的语义是复杂的,一个词语在不同的语境下可能具有不同的含义。如何对词语在不同语境下进行恰当的表示也是应该考虑的问题。 目前许多的自然语言处理任务都会使用预训练语言模型,但单纯依靠大规模的文本的预训练语言模型可能还是很难理解复杂的问题,那么如果加入充分的先验知识,也许模型会学习到更加精细化的语义表示。

整体思路

提出融入非结构化的文本和结构化的知识图谱来提高虚假信息检测的准确率。

2022-3-17 组会报告摘要-02

本次组会将会介绍阅读的一篇论文《Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings》,主要从以下几个方面介绍:

科研背景

知识图谱(Knowledge Graph)由Google于2012年率先提出,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构。

知识图谱多跳问题 (Multi-hop Questions) 指的是那些需要知识图谱多跳推理才能回答的问题。例如,若要回答 ”成龙主演电影的导演是哪些人?“ 这一问题,则需要多个三元组所形成的多跳推理路径 <成龙,主演,新警察故事>, <新警察故事,导演,陈木胜> 才能够回答。

近年来,使用知识图谱嵌入在知识图谱中进行链接预测已经成为一个热门的研究领域,通常的方法是为知识图谱中的三元组(h,r,t)定义一个分数函数,使正确答案的分数高于错误答案的分数。

科研问题

相比单跳问答,多跳知识图谱问答(KGQA)需要在包含大量知识的知识图谱中找到多个有关联的三元组,并建模多跳长路径,然而知识图谱通常不完整,缺少很多链接,这给KGQA带来了挑战。

  • 最近关于多跳KGQA的研究试图使用相关的外部文本来弥补KG稀疏问题,但这些文本并不总是现成的且相关文本的可用性和识别本身就是一个挑战,这限制了此类方法的适用性。
  • 在另一项研究中,已经有提出KG嵌入方法,通过执行缺失链接预测来减少KG稀疏性,但迄今为止还没有针对多跳KGQA进行探索。

方法

本文用三个模块来提高知识图谱多跳问答的性能:

  • 知识图谱嵌入模块:为KG中所有实体创建embeddings。
  • 问题嵌入模块:得到问题的embedding。
  • 答案选择模块:减少候选答案实体并选出最终的答案。

模型

2021-12-23 组会报告摘要-03

本次组会将会介绍阅读的一篇论文《Attentive History Selection for Conversational
Question Answering》
,主要从以下几个方面介绍:

科研背景

随着会话式AI的快速发展,产生了各种个人助理产品,例如Apple Siri,Amazon Alexa,Google Assistant等。越来越多的用户依赖这些系统来进行日常工作,比如设置计时器或下订单。一些用户还与它们互动娱乐,甚至作为情感伴侣。

对话问答场景

一个典型的对话问答过程涉及多个轮次。在每一轮中,用户首先指定一个信息需求,然后机器(代理)检索答案并返回给用户。用户可以问一个后续的问题,或转移到一个新的信息需求,进入对话问答的下一轮。其中存在几种不同的情况:

  • 用户的问题与上一轮的回答相关,例如A1和Q2,A3和Q4,A4和Q5,A5和Q6。
  • 用户的问题与之前的轮次无关,例如A2和Q3。——话题转移
  • 用户的问题与很早之前轮次的相关,例如Q7和Q1。——话题返回

科研问题

虽然目前的个人助理系统能够完成任务,甚至进行聊天,但它们无法处理需要多次交互的复杂信息需求的信息寻找对话。

对话问答的主要挑战之一是利用对话历史来理解和回答当前的问题,但存在以下的问题:

  • 机器不能像人一样自主理解历史对话信息。
  • 如果我们把历史对话信息以同样的地位/权重放入模型中可能效果并不是很好。
  • 现有模型采用简单的启发式选择对话历史,假设前一轮次比其他轮次更有帮助。但这种假设不一定正确。 [1]对QuAC数据集进行了定性分析。他发现35.4%和5.6%的问题分别有话题转移话题返回的对话行为。在这两种情况下,当前的问题都与前一回合没有直接关系。

方法

本文从三个方面来解决对话问答存在的问题:

  • 提出一种历史答案嵌入方法,利用Bert对包含位置的对话历史信息进行自然编码。
  • 设计了一种历史注意机制(HAM)来进行对话历史的“软选择”。
  • 利用多任务学习在进行答案预测的同时进行另一个重要的会话任务(对话行为预测)。

模型