分类目录归档：报告摘要

2022-3-24 组会报告摘要-03

本次组会介绍是在《A Novel Network Abnormal Traffic Detection Method Based Neural Network for Imbalanced Network Traffic》研究工作的基础上，为了解决模型训练数据的共享和隐私问题，提出《Federated Learning With Blockchain for Intrusion Detection in Industrial IoT》，主要内容如下：

科研背景

在5G技术的支持下，未来的物联网设备将随时随地的保持着低延迟和高可靠性，每个设备都可以存储高质量的网络入侵检测模型，即使在失去连接的情况下也能够做出决策。为了保证设备上模型的准确性，需要与其他设备交换数据以获取更多的数据样本。

近年来，随着人们对隐私重视程度的增强，数据隐私保护方面出台了一系列的法律法规，数据隐私保护相关法律体系呈现日益健全化与规范化。出于保护商业机密、数据监管以及数据整理成本等因素考虑，加之缺乏激励机制，物联网中的数据所有者当前也缺乏数据共享的动力。

科研问题

1.传统联邦机器学习模型依赖单一的中央服务器，容易受到服务器故障的影响；

2.没有适当的奖励机制来激励用户提供数据训练和上传模型参数。

科研目的

1.使用区块链代替中央服务器，区块链网络允许交换设备的本地模型更新;

2.利用分布式联邦的方法共享模型参数而不披露实际数据，确保数据的安全性和隐私性；

3.采用POW和POA相结合的共识机制，验证和提供相应的奖励。

宏观图景框架

2022.3.24组会报告摘要

本次将会介绍有关《基于小波降噪和模糊聚类的漂移数据流自适应预测》的进展情况。主要内容如下：

科研背景：

当前的模型和算法越来越需要在非平稳环境中学习，因为可能会出现概念漂移（或模式转移）的现象，也就是说，数据分布相同的假设在数据流中可能是无效的。一旦数据模式发生变化，建立在以前的、现在已经过时的数据基础上的训练有素的模型就无法为未来的数据提供准确的预测。为了获得可靠的预测，理解数据流中现有的模式以及在建模过程中了解当前示例所属的模式非常重要。

科研问题：

1.网络流量是非平稳数据，存在突变的几率高，现有的模型在个体数据突变时，应对能力不强。

2.现有的模型或方法难以准确预测非平稳环境中可能会发生模式转移的数据。

3.在进行模式归类时，将一个实例明确归为某一种模式是不明确的，会导致预测精度下降。

科研目的：

提出一种基于小波和模糊聚类的预测方法，能够有效的解决模式变换带来的预测精度下降问题，缓解非平稳数据中噪音对模型的影响，综合提高预测精度。

实验流程：

未来计划:

1.3.31之前完善实验，填补论文实验部分。

2.针对窗口长度的选择或者是自适应变化还有待进一步研究，可变长度的窗口必然可以提升精度，但是如何可变，还需要阅读相关论文进一步研究。

3.对于概念漂移来说，噪音的影响巨大，虽然用小波降噪来解决，可以查看是否有变体小波，可以针对该数据集，达到较好的效果。

2022-3-24 组会报告摘要-01

上次组会中，提出了《A Consortium Blockchain-enabled Privacy-Preserving Speed Advisory System for Automated Vehicles》的研究思路，包括科研背景、问题和目的，系统架构。在研究计划中还未完成能耗模型和具体隐私保护方案设计。这次组会将沿着上次的科研背景和问题，详细介绍系统架构、工作流程、隐私保护方案以及实验和论文计划，其中背景、问题和目的沿用上次内容。

科研背景

场景：由于融合车载传感器(如雷达、激光雷达、视觉摄像机等)和全球导航系统的通信技术(如车对车、车对基础设施等)的发展，在过去的几年里，车辆已经配备了连接和自动化技术。联网和自动化车辆(CAVs)更容易获取所需的交通信息，因此与人工驾驶车辆相比，它们可以更精确地控制。这些优点可以减少因人为失误造成的交通事故，提高交通流的稳定性和吞吐量。

目的：作为ISA的一种特殊类型，基于共识的速度咨询系统（CSAS）旨在为在同一路段（如高速公路）或同一区域（如市中心）行驶的内燃机车（ICEV）或电动汽车（EV）车队推荐一致的速度。如果所有车辆都按照建议的速度行驶，对各种类型的道路使用者都有一些明显的好处，例如减少排放（减少加速/减速的频率）、降低能耗、增加吞吐量以及提高安全和健康。

扩展：为了实际的扩展，系统必须充分考虑到前车的存在。在保证车辆安全约束的前提下，使得自动驾驶车队的总排放最小。将车辆间最小跟车距离和道路最大速度限制定义为状态约束，提出一个以排放最小为目标的最优控制问题。

科研问题

不可信问题：在上一篇论文中，我们考虑了传统中心化架构中的路边基站不可信问题，它可能恶意删改、使用数据，造成隐私泄露问题，因此我们基于区块链技术提出了去中心化的的速度推荐系统架构。但路边基础设施应用广泛，如何基于基站进行可信的和隐私保护的速度推荐仍是需要解决的问题。同时考虑了车辆用户不可信问题，有些恶意用户存在不诚实行为，可能破坏速度推荐过程。

如何安全驾驶：为了保证速度推荐过程中的安全性，需要考虑与前车的最小跟车距离与道路限制速度。

科研目的

设计一套共识速度推荐的完整流程，使自动驾驶车队的排放最小化，同时避免碰撞和遵守道路速度限制。并且利用联盟链的特点来提高整个推荐系统的安全性和隐私性。

能耗模型

基于联盟链的共识速度推荐流程

隐私保护方案

2022-3-17组会报告摘要03

本次组会将会介绍关于基于深度强化学习的工作流任务云调度研究,主要内容如下：

科研背景:
近几年来，云计算技术的飞速发展，国内外涌现了大量云计算服务提供商，他们提供了大量计算和存储资源，为众多应用程序开发者提供了便捷，低成本的基础服务平台，使得越来越多的应用程序供应商将应用程序迁移至云平台。随着云计算的覆盖程度不断加深，应用程序对于云计算的要求也不断提高。

云计算环境受网络、负载等因素影响，具有动态性和不确定性，这使得实现云计算资源管理和性能优化成为了重要问题。在过去几年的研究中，针对云任务调度问题，提出的算法大多是批处理任务，而不是实时处理任务，这对于用户服务质量要求高的应用，如购物应用，竞拍应用等，批处理往往难以达到用户要求。

科研问题：
在实际情况中，云应用提供者希望能满足用户的服务质量要求，在很多场景中，如购物等，任务请求不断随时间变化，批任务处理往往无法满足用户要求。因此，如何实现实时任务调度，提高任务调度和处理速度，成为云计算研究领域的重要问题。

科研目的：
为了实现云计算实时任务调度，我们针对workflow(工作流)任务提出使用深度强化学习和元启发式算法相结合的方法DQN-GA。该方法以深度强化学习DQN算法作为智能任务调度器进行任务实时调度，以元启发式算法遗传算法作为部署模块在虚拟机中部署workflow任务，通过训练DQN算法，实现对workflow任务的实时调度。

流程框架：

2022-3-17 组会报告摘要-02

本次组会将会介绍阅读的一篇论文《Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings》，主要从以下几个方面介绍：

科研背景：

知识图谱（Knowledge Graph）由Google于2012年率先提出，是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是“实体—关系—实体”三元组，以及实体及其相关属性—值对，实体间通过关系相互联结，构成网状的知识结构。

知识图谱多跳问题 (Multi-hop Questions) 指的是那些需要知识图谱多跳推理才能回答的问题。例如，若要回答 ”成龙主演电影的导演是哪些人？“ 这一问题，则需要多个三元组所形成的多跳推理路径 <成龙，主演，新警察故事>, <新警察故事，导演，陈木胜> 才能够回答。

近年来，使用知识图谱嵌入在知识图谱中进行链接预测已经成为一个热门的研究领域，通常的方法是为知识图谱中的三元组（h，r，t）定义一个分数函数，使正确答案的分数高于错误答案的分数。

科研问题：

相比单跳问答，多跳知识图谱问答（KGQA）需要在包含大量知识的知识图谱中找到多个有关联的三元组，并建模多跳长路径，然而知识图谱通常不完整，缺少很多链接，这给KGQA带来了挑战。

最近关于多跳KGQA的研究试图使用相关的外部文本来弥补KG稀疏问题，但这些文本并不总是现成的且相关文本的可用性和识别本身就是一个挑战，这限制了此类方法的适用性。
在另一项研究中，已经有提出KG嵌入方法，通过执行缺失链接预测来减少KG稀疏性，但迄今为止还没有针对多跳KGQA进行探索。

方法：

本文用三个模块来提高知识图谱多跳问答的性能：

知识图谱嵌入模块：为KG中所有实体创建embeddings。
问题嵌入模块：得到问题的embedding。
答案选择模块：减少候选答案实体并选出最终的答案。

模型：

2022-03-10 组会报告摘要-02

本次组会将会介绍阅读的一篇论文《Short-Term Residential Load Forecasting Based
on LSTM Recurrent Neural Network》，主要从以下几个方面介绍：

研究背景：

对于短期负荷预测，过往文献中采用了许多方法来解决这个问题。然而很少有人直接与个别客户打交道。针对单独家庭的短期负荷预测的问题还没有人解决。
如果有针对个别客户的准确负荷预测，电力供应商便可依靠这些资料，在电力短缺的情况下，锁定最有可能参与电力供应恢复计划的最佳客户群体，对提供负载平衡储备有重大作用。

科研问题：

由于具有高波动性和不确定性，预测单个住宅用户的电力负荷是相当具有挑战性的。

科研目的：

提出一种针对单个住宅用户的短期电力负荷预测框架

论文方法：

首先使用聚类方法对每日负荷曲线进行分析特性，得出预测框架

开发一个MAPE最小化的经验预测器

LSTM预测相关代码实现：

2022-03-10 组会报告摘要-01

本次将会介绍有关《基于联邦对抗生成网络的用户用电隐私数据共享研究》的进展。

内容主要包括，1.如何在分布式GANs网络联邦学习过程中添加合适噪声（Noise），2.由分布式GANs网络生成的数据集Fake DataSet 如何计算它的隐私损失（Privacy Loss）。

课题的背景

在上一次的课题进展介绍中，我们已经实现了使用联邦学习训练分布式GANs网络的目的，经过训练后的GANs网络能够生成Fake Dataset ，这些Fake Dataset 在分类任务上取得了不错的效果。

为了保证数据的隐私，我们在联邦训练的过程中，向本地判别网络中的梯度（Local Gradient）添加了一定量的噪声，这种情况下生成的Fake Dataset在分类中仍然取得了不错的成绩，但这只能说明GANs生成数据的可用性满足要求，而我们添加的噪声是否合适以及它的隐私性是否达到了预期要求，当时并没有明确的评价方案。为了解决这个问题，我们将差分隐私的概念应用到我们的数据生成框架中。

补充知识

相邻数据集：如果两个数据集x和x‘中只存在单个个体的数据不同，则将其视为相邻数据集。

差分隐私：对于一个随机机制F，如果对于所有的相邻数据集x和x‘，F的输出F（x）和F（x’）几乎是相同的，即从F观察到的输出不会揭示x或x’中哪一个是输入，那么就说F机制满足差分隐私。

面临的问题

I.训练过程中添加多少噪声？

这个问题容易解决，我们在GANs的判别网络中按照高斯噪声机制（Gauss noise mechanism）添加相对应的噪声即可。

II.如何评估生成数据集的隐私损失？这个是整个评估问题的难点。

由差分隐私的定义可知，对于原始数据集D以及生成数据集D’，若要实现GANs生成数据集的差分隐私评估。我们需要按照如下5步进行：

1.在原始数据集D上训练GANs。2.从原始数据集D上随机删除一些样本i，此时数据集为D^-i 3.在集合D^-i上重新训练GANs 4.估计所有输出的概率分布，估计以及最大化的隐私损失值5.重复步骤1~4足够多次，以近似高斯差分隐私机制中的隐私预算ξ和失败概率δ，（ξ，δ）。

但在GANs数据的实际评估过程中，上述5步会面临两个具体的难点：

1.由于数据众多，重复步骤1~3将会耗费非常多的计算资源

2.在步骤4中，由于定义中的隐私边界要求严苛，使得获得最大隐私损失值十分困难

解决方案

为了解决评估过程中存在的上述两个问题，

1.我们尝试使用数据相似指标sim（x,y）来评估两个数据点的相似程度，其中x来自于原始数据集D，y来自于生成数据集D‘。我们在D中删除数据x得到的相邻数据集D^-x，而y代表x在生成数据D’中的映射，我们从D’中删除y得到其相似数据集D‘^-y，那么我们便可以尝试直接使用D‘和D’^-y作为相邻数据集来评估，而不必使用上述步骤1~3

2.我们放松在步骤4中的隐私损失边界，因此可以使用高纬KL-divergency estimator 获取每一对D‘和D’^-y相邻数据数据集的隐私损失（privacy loss）。

解决方案带来的好处

1.简化了为获取GANs相邻数据集频繁的训练过程,

2.使得评估生成数据的隐私损失成为了现实

待完成的任务

1.调试相关的隐私损失评估方案代码

2.使用常用的攻击方式对模型进行测试，包括Model inersion和Membership inference.

2022-03-03 组会报告摘要-02

本次组会将会介绍阅读论文后产生的想法思路《一个可信的基于区块链的车对工业网络排放交易系统》，主要从以下几个方面介绍：

科研背景

数据交易：随着物联网、车联网、微电网以及移动应用的发展，大数据呈现爆炸式的增长趋势。预计到2026年，数据价值将达到922亿美元。(SPOERRY C,2019)
一些开发者和研究人员迫切需要数据来提高产品和研究的质量，并且愿意为此支付一定的经济成本。因此，一些数据交易市场应运而生。(黄小红,2021)

科研问题

数据交易的当前方法依赖于集中式第三方实体在数据消费者和数据提供商之间进行协商，这在很大程度上是低效和不安全的。（L. D. Nguyen,2021）

科研目的

提出了一种基于区块链的V2I排放交易方案。所有交易被永久准确地记录在区块链账本上，为买卖双方提供一个安全的交易平台。
智能合约充当定价机构。当交易发生时，执行智能合约中设计的交易机制。（暂定）
在区块链的车辆网络中缺乏通信和计算分析，提出一个理论来推导所提出系统的通信效率。（暂定）

研究的宏观图景框架

2022-03-03 组会报告摘要-01

本次组会将会介绍阅读的一篇论文《Learning Sentence-to-Hashtags Semantic Mapping for Hashtag Recommendation on Microblogs》，主要从以下几个方面介绍：

研究背景：

微博是一个在社交网络服务中发布小内容的形式，对所有人可见或仅对所有人可见给同一社区的人。这种类型的模式会产生大量的导致需要有效数据分类和搜索的帖子。在Twitter和其他社交媒体平台中，主题标签被用来给用户方便搜索，分类和传播帖子。帖子对用户来说并不总是那么容易，因此帖子通常没有主题标签或主题标签的情况下发布。

科研问题：
主题标签推荐如何优于不同的最先进的方法（生成模型，无监督模型和基于注意力模型）

研究目的：
推荐系统如何在预测主题标签方面有显著改进。作者测试了两种不同的句子嵌入预训练模型，即 GUSE 和 BERT，测试了两种不同的策略：即本地和全球，发现HASHET通过联合使用BERT和全球扩展策略 – 平均 F 得分高达 0.82，命中率高达 0.92，主题标签推荐和主题发现的准确率为95%。

使用方法：

与大多数神经网络方法不同，这些方法将hashtag推荐任务视为一个多类分类问题，在本文HASHET中，我们翻译帖子的潜在表示进入位于单词、主题标签嵌入空间中的目标向量。然后，使用语义扩展（一种基于流程的过程）找到并丰富最近的主题标签关于主题标签嵌入空间中的语义相似性。获得的输出语义上相似的主题标签，反映所学的语义关系在主题标签和基于主题的底层聚类结构之间。此检查进程利用单词，主题标签嵌入空间中的位置性，这引入了相对于其他技术，在预测主题标签方面有显著改进。