2022-11-24 组会报告摘要-03

基于知识图谱的网络安全威胁情报推理技术研究

本次组会将介绍关于网络安全知识图谱的构建与推理研究。

科研背景

随着信息化不断扩大以及网络技术的持续发展,网络安全事件频发,网络攻击手段也日益呈现复杂多变、长持续性、高隐蔽性等特点。依靠传统的入侵防御系统等被动防御手段无法有效地维护网络空间安全,因此兴起了网络安全威胁情报(CTI)等综合防御策略。网络安全威胁情报是指基于证据的威胁知识,可以为决策提供信息,目的是防御攻击或缩短处理与检测的时间。

网络安全威胁情报在实际应用中主要面临着数据类型多样、分布离散、内容不一致等问题,因此引入了知识图谱技术框架来试图解决这一问题。但构建的知识图谱仍然不够完善且可能存在错误,因此有必要利用知识推理技术来达到完善知识图谱的目的。

科研问题

在网络安全威胁情报知识图谱中存在着许多“一对多”这种复杂关系,目前的知识表示模型不能很好的表示此类关系。

知识图谱构建

从CVE、CWE、CVSS等数据中构建知识图谱三元组

网络安全图谱总览

知识推理

尝试改进Rotate模型,具体细节将在组会上进行说明。

Rotate:受欧拉公式 ⅇ^ⅈφ=cos⁡φ+ⅈ sin⁡φ 启发,将每个关系定义为复向量空间中头实体到尾实体的旋转,即t=hr。

2022年11月24日 组会报告摘要-03

本次组会主要介绍下一项工作的初步想法,计划沿着上一项工作的能耗优化和道路安全方面进行扩展。主要考虑道路上的一排自动连接车辆形成一个车队的动态场景,所有车辆按照推荐速度从初始随机状态到形成智能排的加减速行驶过程中,整体能耗最小,且车辆间保持相同的安全距离。引入深度强化学习决策出最优推荐速度。

科研背景

2022-11-24组会报告摘要-01

本次组会将介绍《数据合成技术综述》,内容包括:

1.什么是合成数据

2.为什么需要合成数据?主要从隐私性方面展开,与其他的匿名化技术进行比较

3. 介绍合成数据的优势

4. 常用的合成技术有哪些?包括基于插值法,统计模型法和GAN模型,由于开题时以着重介绍了GAN的生成方法,本次分享将重点介绍基于统计模型的数据生成方法。

本次分享,重点介绍统计模型的建立和特点,希望通过本次介绍,将机器学习理论中常用的模型、方法、技术梳理出来它们的由来和解决的问题,包括参数估计模型和非参数估计模型中的:矩估计,极大似然估计(MLE)贝叶斯估计(BE)极大后验估计(MAP)
直方图法(Histogram)核密度估计(KDE)高斯混合模型(GMM)

2022年11月17日 组会报告摘要-03

本次组会汇报分布式储能网络化运营能量需求预测研究的思路进展,从科研背景、科研问题、科研目的、研究内容等几个方面展开。

科研背景:

  • 储能是通过特定的装置或物理介质将不同形式的能量通过不同方式储存起来,以便以后在需要时利用的技术。
  • 储能是新能源发电并网和消纳的重要支撑技术,其重要作用包括平抑功率波动、削峰填谷、改善电能质量等。
  • 当前,我国经济结构和能源体系正经历革命性变化。分布式能源在提升能源利用效率、优化能源供给结构、缓解能源供需地域不平衡等方面发挥了重要作用,是现代能源系统不可或缺的重要组成部分,其应用场景包含用户侧、分布式电源侧和配网侧等三个方面。
    • 网络化运营是建立一个安全、高效、系统的运营管理体系,统筹安排既有资源,协调各主体之间关系,实现网络运营的社会效益、经济效益最大。

科研问题:

目前的研究中,分布式储能能量需求预测较少,在挖掘不同储能单元间的电力负荷空间时间等信息关联方面进展有限,缺乏有效方法对于这一场景进行建模做出准确预测。

研究内容:

通过图卷积神经网络,针对不同区域分布式储能单元的电力负荷需求数据,引入不同储能单元储能数据信息,挖掘不同时间、地点分布式单元间负荷需求的内在相关性,来预测储能单元的电力负荷。

2022年11月17日 组会报告摘要-01

本次组会汇报面向区块链的威胁检测与攻击溯源方法研究的思路进展,从科研背景、科研问题、科研目的、研究内容等几个方面展开。

科研背景:

  • 区块链(Blockchain)可以理解为是数据区块(Block)按照时间循序排列的链 (Chain)式数据结构,最早是被Nakamoto提出并应用于比特币(Bitcoin)中。
  • 区块链部署于互联网中,而互联网存在着各种网络威胁。尤其是区块链及其上的分布式应用涉及到大量的金钱,区块链成为黑客的一个重要攻击目标。近年来,区块链安全事件层出不穷,从底层P2P网络、中间层虚拟机到上层的智能合约,都成为黑客们攻击的对象。
  • 根据区块链层次结构,区块链安全威胁主要分为网络层安全威胁、共识层安全威胁、数据层安全威胁以及应用层安全威胁。

科研问题:

  • 现有的区块链信息获取技术或多或少存在以下3个问题:数据获取不完整、数据信息混淆以及数据获取效率低。
    • 国内外对智能合约的安全性研究方法主要分为两种:静态分析和动态检测。静态分析与动态分析两者之间相比之下, 各自具有不同的优缺点,其中静态分析具有误报率过高的情况,一些无法触发或 是复杂度较高的漏洞也不能被很好的检测出来。动态分析虽然可以对智能合约进行深入分析,但 是其臃肿的代码,极大的影响同步效率并且可扩展也很差。
      • 区块链技术被很多开发人员或学者拿来用作溯源工具,虽然这些基于区块链的溯源应用很多,但很少有人研究区块链(比如以太坊)上的攻击的溯源。原因是在以太坊中,当检测到攻击时,以太坊账户是匿名的。

科研目的:

设计一种区块链威胁在线实时检测和攻击溯源框架,对区块链网络中现有攻击或未知攻击进行实时感知和有效溯源,有效定位威胁发生的时间、地点、种类和技术特性,有效保障区块链上用户资产的安全性。

研究内容:

2022年11月17日 组会报告摘要-02

这次组会主要介绍《基于深度强化学习的用户侧用电行为数据压缩研究》思路进展,从科研背景、科研问题、科研目的、研究内容等几个方面展开。


科研背景:

随着人工智能、云计算、大数据等技术的广泛应用,传统电网逐渐朝着智能电网方向发展。

电力用户侧大数据主要来源于智能电表的广泛使用、各类传感器的普及、智能家电的使用和用户消费模式的改变,导致电力用户侧大数据分析的任务量加大。据不完全统计,截止2020年12月,国家电网智能电表覆盖率达到99.03%,累计采集4.47亿户

电力物联网末端不断接入传感器、智能电表等电力设备,电力用户侧用电数据呈现指数级剧增。通常,传感器的存储预算较小,计算能力较低,网络带宽有限。随之而来的问题是缓冲区会频繁被占用,传输点的工作量会很大。此外,在某些地区的智能电网中,可能会有数十万个乃至数百万传感器同时收集用电数据。一旦所有这些传感器收集到的用电数据在一个服务器上积累起来,其数量将是巨大的。

巨大容量增加了存储成本,更重要的是使数据的查询处理变得昂贵。


科研问题

针对用户侧用电行为数据的数据量大、种类繁多与采集速度快等特点。

①电力领域的数据价值挖掘于电网内部和电源端,用户侧庞大且蕴含丰富价值的电力数据而未能得到很好利用。

②目前电网采用云计算技术,将终端设备采集到的用户侧数据先汇总到数据中心再进行处理和应用等工作,这使得电网实时处理数据的能力不足。加之海量数据集中于数据中心,传统的数据分析模式已无法满足需求,迫切需要解决电力用户侧的大数据在数据存储、分析与处理方面的难题。

科研目的:

在有限的通信和存储能力下,一边是云中心有限的数据存储和实时处理能力,一边是 TB级别增长的用户侧数据中亟待挖掘的巨大数据价值。

          ①对云中心数据进行可靠的存储和实时处理 

          ②对用户侧数据进行高效准确的查询、分析

研究内容

解决上述两个问题的一种常见做法是进行数据压缩,数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。

拟考虑将电力用户侧用电数据时序图像看成是一条运动轨迹,数据压缩的本质上是丢弃给定轨迹的一些点,并将剩余的点保持为简化轨迹。

在线方式逐个输入点,而只有大小为W的缓冲器可用,即在整个轨迹简化过程中最多可以保留W个点。我们采用了一种现有的策略,对于前W个点,我们将其直接存储在缓冲区中,对于剩余的每个点,由于缓冲区已满,我们需要将一个点丢弃以获得一些空间,然后将新点存储在缓冲中。与现有的策略不同,这些策略使用一些人工设计的启发式值来决定缓冲区已满时要丢弃哪个点。

我们的目标是为这项决策任务实现一种更智能的方法。具体而言,我们将轨迹简化问题视为一个顺序决策过程,并将其建模为马尔可夫决策过程。

深度强化学习方法建模:

在组会ppt中展示。

实验结果:

在组会ppt中展示。

后续研究计划:

11.17-12.30   增加对比算法,优化实验结果

1.1-1.22         撰写小论文

2022年11月10日 组会报告摘要-03

本次组会汇报内容是关于基于提示学习的命名实体识别研究进展情况,从科研背景、科研问题、科研目的、整体框架和研究计划等几个方面展开。

科研背景:

  • l由于攻击或者恶意软件的变种层出不穷,为了应对这些攻击或者恶意软件而产生的网络威胁情报也与日俱增。随之而来的是各种专有名词不断涌现,而且普遍存在大量的缩写词,当前实体识别使用的大多是fine-tuning 预训练模型的方法,难以界定实体的边界。
  • 作为信息提取任务的基本组成部分,命名实体识别在自然语言处理 (NLP) 任务中发挥着非常重要的作用。命名实体识别(NER)任务由两部分组成:识别实体类型和检测实体边界。实体边界检测是指确定一个实体的范围。识别实体类型是将相应类别的标签赋予文本中待识别的实体。
  • 提示学习在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加“提示信息”、将下游任务改为文本生成任务,预训练语言模型以参数的形式存放很多知识和模式,有的是现成的、可以直接使用,有的则需要一定的方法来“激发”出来。

科研问题:

  • l构建信息抽取工具来解决网络安全威胁情报的即时分析问题[Sudip Mittal,2016;Hashimoto C,2020]。
  • 如何识别专有名词、缩写词以及界定实体的边界。

整体框架:

研究计划:

1.11月20号底前完善实验

2.11.18之前完成毕业论文绪论、相关基础理论的初稿

2022年11月10日 组会报告摘要-02

本次组会汇报内容是关于基于图卷积网络的以太坊异常交易识别研究进展情况,从科研背景、科研问题、科研目的、整体框架和研究计划等几个方面展开。

科研背景

区块链是一种分布式账本技术,可以记录对等方之间的交易。在底层区块链技术的支持下,比特币和以太坊等区块链平台也借此机会蓬勃发展,成为世界知名的新型金融交易平台。以太坊作为支持智能合约的最大公共区块链平台,已成为广泛使用的金融应用平台。由于区块链的匿名性,犯罪分子试图通过向区块链系统注入资金来逃避监管和从事非法活动。据报道,以太坊遭遇了各种各样的诈骗,如黑客、网络钓鱼和庞氏骗局等。

科研问题

1.现有的方法不足以表达以太坊交易网络中涉及金额和时间的连接模式多样性;

2.区块链异常交易账户重要特征识别精度不高、异常交易检测程度较低。

科研目的

1.提出一种基于多通道嵌入向量和交易画像的图表示方法;

2.设计一种基于GNN的以太坊异常交易检测模型。

整体框架

研究计划

1.对实验部分进行完善;

2.修改学位论文大纲结构。(2022.11.15)

3.撰写学位论文第一章绪论、相关理论基础部分初稿。(2022.11.20)