2021-12-09 组会报告摘要-04

本次组会将会介绍有关《基于CPU-GPU架构的α算法的性能优化》的有关内容。主要从一下几个方面介绍：

科研背景

α算法是流程挖掘早期的发现算法之一，可以将事件日志转换为一个能够重演日志的petri网。同时α算法是完全开源的，我们可以在此基础上进行一些修改及优化操作。

科研问题

近几年，记录的数据量大幅度增加，使得事件日志变得庞大，再加上流程挖掘任务本身计算密集，导致流程挖掘性能逐渐不符合人们的预期。现有的提高α算法性能的方法——分布式计算架构也因为受到计算机资源的限制，导致遇到瓶颈。因此利用GPU的高度并行化解决流程挖掘性能问题是一个值得思考的热点。

科研目的

使用CPU-GPU架构实现α算法的并行化，减少petri网生成所需要的时间

使用方法

CPU-GPU架构

2021-12-09 组会报告摘要-02

本次组会将会介绍阅读的一篇论文《Combination of short-term load forecasting models based on a stacking ensemble approach》，主要从以下几个方面介绍：

研究背景：

提高负荷预测的准确性有助于减少能源消耗，制定合理的电源建设规划，降低发电成本。所以电力的负荷预测对电力系统有重要的参考价值。本篇论文是以集成学习的方法来进行负荷预测，集成学习通过训练若干个个体学习器，通过一定的结合策略，最终形成一个强学习器。集成方法可以分类为：Bagging、Boosting、Stacking、Blending。

科研问题：

利用dnn构建最优预测模型是困难和耗时的，因为必须确定几个超参数才能获得最佳的神经网络组合。DNN模型中隐含层数的确定是一个具有挑战性的问题，因为它极大地影响着DNN模型的预测性能。

方法：集成学习的stacking方法

2021-12-09组会报告摘要-03

本次组会汇报讲解关于基于变分自编码网络的异常检测算法和基于混合高斯变分自编码网络的异常检测的对比。

科研背景：

随着数据维度的提高，深度神经网络已经显示出其优于传统机器学习的优点。因此，越来越多研究人员开始利用深度学习进行异常检测。
目前，异常检测算法大多依赖于重建误差或是重建概率等启发式方法进行异常判断。对此，本文所使用的方法摆脱了目前主流的基于重构误差的异常检测方法，而是基于数据特征的训练优化进行异常检测，同时在基于变分自编码网络的异常检测算法的基础上做出改进，提出基于混合高斯变分自编码网络的异常检测的算法。

基于变分自编码网络的异常检测算法网络模型

基于混合高斯变分自编码网络的异常检测算法的模型

基于变分自编码网络的异常检测算法的好检测效果

基于混合高斯变分自编码网络的异常检测算法的好检测效果

2021-12-09 组会报告摘要-01

本次将会介绍有关《基于自适应合成采样和CNN-LSTM的网络异常流量检测模型》的进展情况。其中主要内容包括：

科研背景

随着攻击行为的不断升级和网络数据量的快速增长，再加上近年来内部威胁、零日漏洞、加密攻击等行为的出现，基于传统机器学习方法的网络异常流量检测模型已经难以应对这些新挑战。建立稳定、可靠、高精度且代价较小的网络异常检测模型来提高网络安全性，具有广阔的应用前景。近年来深度学习飞速发展，它可以学习样本数据的内在规律，在特征提取和模型建立方面效率更高。因此，网络安全领域的研究人员试图将深度学习算法应用到网络异常检测系统中。

科研问题

1.训练数据集的不平衡会影响模型的性能，导致少数类样本的高虚警率和高漏检率。

2.数据特征不能被完全提取，容易造成一些基本特征的丢失,从而影响分类模型的准确性。

科研目的

提出一种基于自适应合成采样和CNN-LSTM的网络异常检测模型，该模型：

1.采用数据增强算法，避免了模型对大样本敏感而忽略小样本，提高了网络异常检测模型对小样本的学习和识别能力；

2.利用神经网络分别提取网络流量数据的空间和时序特征。

实验流程

未来计划

密码保护：2021-12-03组会周报

密码保护：2021-12-2 组会纪要

2021-12-02 组会报告摘要-04

发表评论

本次组会将会介绍有关《DRL-Scheduling-一种面向云应用的智能Qos感知作业调度框架》的有关内容以及自己的一些理解，主要从以下几个方面介绍：

科研背景：
随着云计算技术的不断发展，Iaas供应商（如Amazon EC2和Microsoft Azure）能为用户提供强大的计算和存储资源，使得应用程序供应商能以更低的成本构建自己的IT基础设施。因此，越来越多的应用程序迁移至云环境。基于云的应用程序的资源管理特别是实现高效的作业调度，满足用户的服务质量要求成为备受关注的问题之一。

科研问题：
不同于传统操作系统调度和分布式计算调度，云环境下的任务调度环境更加复杂，影响因素更多，任务和虚拟机种类繁多，基于理论研究和启发式算法不能很好的实现云计算作业调度。因此，解决云环境下作业调度问题，实现高效，实时并尽量满足用户QoS要求的作业调度是主要解决的问题。

科研目的：
构建基于深度强化学习的智能调度框架，实现对云环境实时作业调度的优化，减少作业平均响应时间并尽量满足用户QoS要求。

使用方法：
深度强化学习DQN算法

2021-12-02 组会报告摘要-03

本次组会将会介绍有关《基于多模态情感分析的个性化标签推荐》自己看完相关论文的一些想法，主要从以下几个方面介绍：

研究背景：
不同的用户根据自己的喜好为类似的帖子标注不同的hashtag。考虑到这一点，用户的偏好和标签的语义表示实际上与帖子的特性有着复杂的交互。因此，如何利用这种复杂的交互来表示用户偏好和标签语义是非常重要的。图片和文本丰富的多模态信息使得话题标签个性化推荐更具挑战性。推文伴随的图像所携带的情感信息与文本的情感信息是否一致，推文伴随的图像所携带额外的上下文信息与文本信息之间应该如何提取特征从而推荐用户喜好的hashtag。

科研问题：
推荐系统如何更充分地挖掘深层内容特征在下面三个方面：信息量、信息维度、提取能力。信息量：不同模态输入信息不同；信息维度：存在诸多影响因素；提取能力：去除噪声信息，强化重要信息特征。

研究目的：
让推荐系统更充分地挖掘用户深层内容特征信息，图片、文字的语义和情感，生成更加符合用户需求的hashtag。

使用方法：
图片和文字并行处理，用VIT模型处理提取图片特征和情感，用BERT处理提取文本特征和情感；融合多模态信息，使推荐出来的hashtag更加符合用户需求。

2021-12-02 组会报告摘要-02

本次将会介绍有关《网络安全威胁情报关系抽取研究：基于Bert-CNN的关系抽取模型》的进展。其中主要内容包括：

1、网络安全威胁情报信息抽取的背景和目标，信息抽取两种抽取方式（流水线抽取、联合抽取）的对比。

2、所使用关系抽取模型的组成部分（SDP嵌入、Bert编码器、CNN卷积网络）、实验结果。

关系模型图

研究背景：

网络威胁情报利用收集、完善和分析收集到的网络攻击信息来应对网络空间领域中存在的威胁。网络安全知识图谱通过三元组的形式存储了大量网络威胁信息,对于帮助安全分析师检测网络威胁至关重要。它可以帮助在“安全运营中心”（SoC）工作的安全分析师及时对网络攻击进行响应，并提供防御决策时信息支持。

科研问题：

对网络安全威胁情报的即时分析是安全专家面临的一个挑战，因为每天生成的网络信息量无法估量，这就需要自动化的信息抽取工具来方便查询和检索数据。

研究目的：

快速高效地抽取威胁情报所隐含的信息，生成语义三元组，用于构建知识图谱。

使用方法：

采用流水线式抽取方式，将问题分解为两个子任务，命名实体识别和关系抽取。我的工作在于关系抽取模型的更新。使用的模型由三部分组成（SDP嵌入、Bert编码器、CNN卷积网络）。

2021-12-02 组会报告摘要-01

本次将会介绍有关《基于联邦对抗生成网络的用户用电隐私数据共享研究》的进展。

进展内容主要在两个部分的实验：

1.联邦学习下WDCGANs的生成实验，以及生成数据在聚类、分类任务取得的表现。

2.加入了差分隐私，多方安全计算理念的联邦WDCGANs数据生成实验，以及生成数据在分类，聚类任务中取得的表现。

两个实验都在包括2个、4个，10个数据节点上分别进行了Mnist（手写数字识别，图片数据）,CER（用电数据，时序数据）数据集的数据生成，并在分类、聚类任务中取得了良好的效果。

下面补充课题的背景知识

课题的背景：目前有很多深度学习的模型应用在电力系统中，如用户的用电行为分析，电网的负荷预测，新能源的消纳融合。但这些模型的研究和实验，多数是假设数据可以从一个数据湖中自由的访问和共享。

研究的问题：然而，在实际的应用中，电力数据由不同的零售商所共享，由于电力数据的敏感特性及相关法规，电力数据不能自由的访问和共享。这成为了制约各种深度学习模型在电力领域应用和研究的瓶颈。

研究目的：我们提出使用联邦学习和对抗生成网络结合的方法，实现用户用电隐私数据的共享。

本次汇报，主要是介绍第2，3实现目标。

实现的目标：1.由于GANs网络的方法能够通过生成的方式实现隐私数据共享，因此，我们尝试设计一款适合电力时序数据的WDCGANs，生成电力数据用于共享。此时，我们针对的是某一个节点的数据进行生成实验，目的是设计一种能稳定生成电力数据的网络，并在socio-demographic任务中测试生成数据的质量。

2.解决单个数据源数据有限的问题，我们使用的方法是在GANs中加入联邦学习的理念，在多个节点共同训练WDCGANs。此时生成的数据是所有节点共同构成数据集，相当于拥有了所有节点的相似数据。我们在整个阶段设计了4个节点，10个节点的联邦WDCGANs的网络，并在Mnist,CER数据集上进行生成实验。生成的数据进行分类，聚类，回归实验，验证数据是否能够在这些任务中取代真实数据。

3. 解决联邦学习训练的模型可能由于梯度信息泄露造成的安全问题。我们在联邦WDCGANs的各个节点的梯度信息中加入差分隐私，或采用多方安全计算的方式汇集各个节点的梯度信息，以此，解决梯度信息可能泄露的问题。我们的实验设计了4个，10个节点的Fed-WDCGANs模型，并在在Mnist,CER数据集上进行生成实验。生成的数据进行分类，聚类，实验。

模型带来的好处：

1.实现数据共享，

2.促进下游任务（分类，回归，聚类）的研究，

3.可以轻松汇集来自不同来源的数据，为分层聚合和构建更强大的数据提供可能性。

存在的问题：1.多方安全计算汇聚梯度信息时，汇聚的方式是否需要第三方还未考虑清楚。

2.尝试了对梯度信息使用RSA加密汇聚，但实验并没有成功。问题出在使用pytorch计算梯度时，batch计算时中间产生了一些文本信息，致使梯度合并时夹杂了不需要的内容。

3.尝试对CER数据进行聚类后，给每个用电数据一个新的标签进行分类实验，但取得的效果很差。

待完成的任务：

1.生成数据在回归任务中的表现。后续需要研究电力数据用于负荷预测，并用真实数据与生成数据进行比较。

2.实验是在各个节点的数据为非独立同分布的情况下进行的，而独立同分布的情况还没有进行，需要补充完成。

3.第二，三篇论文的攥写。