2022-03-10 组会报告摘要-02

本次组会将会介绍阅读的一篇论文《Short-Term Residential Load Forecasting Based
on LSTM Recurrent Neural Network,主要从以下几个方面介绍:

研究背景:

对于短期负荷预测,过往文献中采用了许多方法来解决这个问题。然而很少有人直接与个别客户打交道。针对单独家庭的短期负荷预测的问题还没有人解决。
如果有针对个别客户的准确负荷预测,电力供应商便可依靠这些资料,在电力短缺的情况下,锁定最有可能参与电力供应恢复计划的最佳客户群体,对提供负载平衡储备有重大作用。

科研问题:

由于具有高波动性和不确定性,预测单个住宅用户的电力负荷是相当具有挑战性的。

科研目的:

提出一种针对单个住宅用户的短期电力负荷预测框架

论文方法:

首先使用聚类方法对每日负荷曲线进行分析特性,得出预测框架

开发一个MAPE最小化的经验预测器

LSTM预测相关代码实现:

2022-03-10 组会报告摘要-01

本次将会介绍有关《基于联邦对抗生成网络的用户用电隐私数据共享研究》的进展。

内容主要包括,1.如何在分布式GANs网络联邦学习过程中添加合适噪声(Noise),2.由分布式GANs网络生成的数据集Fake DataSet 如何计算它的隐私损失(Privacy Loss)。

课题的背景

在上一次的课题进展介绍中,我们已经实现了使用联邦学习训练分布式GANs网络的目的,经过训练后的GANs网络能够生成Fake Dataset ,这些Fake Dataset 在分类任务上取得了不错的效果。

为了保证数据的隐私,我们在联邦训练的过程中,向本地判别网络中的梯度(Local Gradient)添加了一定量的噪声,这种情况下生成的Fake Dataset在分类中仍然取得了不错的成绩,但这只能说明GANs生成数据的可用性满足要求,而我们添加的噪声是否合适以及它的隐私性是否达到了预期要求,当时并没有明确的评价方案。为了解决这个问题,我们将差分隐私的概念应用到我们的数据生成框架中。

补充知识

相邻数据集:如果两个数据集x和x‘中只存在单个个体的数据不同,则将其视为相邻数据集

差分隐私:对于一个随机机制F,如果对于所有的相邻数据集x和x‘,F的输出F(x)和F(x’)几乎是相同的,即从F观察到的输出不会揭示x或x’中哪一个是输入,那么就说F机制满足差分隐私。

面临的问题

I.训练过程中添加多少噪声?

这个问题容易解决,我们在GANs的判别网络中按照高斯噪声机制(Gauss noise mechanism)添加相对应的噪声即可。

II.如何评估生成数据集的隐私损失这个是整个评估问题的难点。

由差分隐私的定义可知,对于原始数据集D以及生成数据集D’,若要实现GANs生成数据集的差分隐私评估。我们需要按照如下5步进行:

1.在原始数据集D上训练GANs。2.从原始数据集D上随机删除一些样本i,此时数据集为D-i 3.在集合D-i上重新训练GANs 4.估计所有输出的概率分布,估计以及最大化的隐私损失值5.重复步骤1~4足够多次,以近似高斯差分隐私机制中的隐私预算ξ和失败概率δ,(ξ,δ)。

但在GANs数据的实际评估过程中,上述5步会面临两个具体的难点:

1.由于数据众多,重复步骤1~3将会耗费非常多的计算资源

2.在步骤4中,由于定义中的隐私边界要求严苛,使得获得最大隐私损失值十分困难

解决方案

为了解决评估过程中存在的上述两个问题,

1.我们尝试使用数据相似指标sim(x,y)来评估两个数据点的相似程度,其中x来自于原始数据集D,y来自于生成数据集D‘。我们在D中删除数据x得到的相邻数据集D-x ,而y代表x在生成数据D’中的映射,我们从D’中删除y得到其相似数据集D‘-y,那么我们便可以尝试直接使用D‘和D’-y作为相邻数据集来评估,而不必使用上述步骤1~3

2.我们放松在步骤4中的隐私损失边界,因此可以使用高纬KL-divergency estimator 获取每一对D‘和D’-y相邻数据数据集的隐私损失(privacy loss)。

解决方案带来的好处

1.简化了为获取GANs相邻数据集频繁的训练过程,

2.使得评估生成数据的隐私损失成为了现实

待完成的任务

1.调试相关的隐私损失评估方案代码

2.使用常用的攻击方式对模型进行测试,包括Model inersion和Membership inference.

2022-03-03 组会报告摘要-02

本次组会将会介绍阅读论文后产生的想法思路《一个可信的基于区块链的车对工业网络排放交易系统,主要从以下几个方面介绍:

科研背景

  • 数据交易:随着物联网、车联网、微电网以及移动应用的发展,大数据呈现爆炸式的增长趋势。预计到2026年,数据价值将达到922亿美元。(SPOERRY C,2019)
  • 一些开发者和研究人员迫切需要数据来提高产品和研究的质量,并且愿意为此支付一定的经济成本。因此,一些数据交易市场应运而生。(黄小红,2021)

科研问题

数据交易的当前方法依赖于集中式第三方实体在数据消费者和数据提供商之间进行协商,这在很大程度上是低效和不安全的。(L. D. Nguyen,2021)

科研目的

  • 提出了一种基于区块链的V2I排放交易方案。所有交易被永久准确地记录在区块链账本上,为买卖双方提供一个安全的交易平台。
  • 智能合约充当定价机构。当交易发生时,执行智能合约中设计的交易机制。(暂定)
  • 在区块链的车辆网络中缺乏通信和计算分析,提出一个理论来推导所提出系统的通信效率。(暂定)

研究的宏观图景框架

2022-03-03 组会报告摘要-03

本次组会将会介绍有关《基于CPU-GPU架构的流程挖掘算法的性能优化》的有关内容。主要从一下几个方面介绍:

科研背景

流程挖掘是一门相对年轻的研究学科,它一方面位于机器学习和数据挖掘之间,另一方面又位于过程建模与分析中。流程挖掘的理念是通过从事件日志中提取出知识,从而去发现、监控和改进实际过程。

科研问题

近几年,因为数据量异常庞大导致的算法性能下降,使得现目前的流程挖掘算法逐渐不符合人们的预期。因此利用GPU的高度并行化解决流程挖掘性能问题是一个值得思考的热点。

科研内容

  • 完成流程挖掘算法的图形化。
  • 完成inductive miner算法的性能优化。
  • 使用异步操作来减少事件日志从CPU向GPU转移的时间。

进度报告

流程挖掘算法的优化前后时间对比。

2022-03-03 组会报告摘要-01

本次组会将会介绍阅读的一篇论文《Learning Sentence-to-Hashtags Semantic Mapping for Hashtag Recommendation on Microblogs,主要从以下几个方面介绍:


研究背景:

微博是一个在社交网络服务中发布小内容的形式,对所有人可见或仅对所有人可见给同一社区的人。这种类型的模式会产生大量的导致需要有效数据分类和搜索的帖子。 在Twitter和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签或主题标签的情况下发布。


科研问题:
主题标签推荐如何优于不同的最先进的方法(生成模型,无监督模型和基于注意力模型)

研究目的:
推荐系统如何在预测主题标签方面有显著改进。作者测试了两种不同的句子嵌入预训练模型,即 GUSE 和 BERT,测试了两种不同的策略:即本地和全球,发现HASHET通过联合使用BERT和全球扩展策略 – 平均 F 得分高达 0.82,命中率高达 0.92,主题标签推荐和主题发现的准确率为95%。


使用方法:

与大多数神经网络方法不同,这些方法将hashtag推荐任务视为一个多类分类问题,在本文HASHET中,我们翻译帖子的潜在表示进入位于单词、主题标签嵌入空间中的目标向量。然后,使用语义扩展(一种基于流程的过程)找到并丰富最近的主题标签关于主题标签嵌入空间中的语义相似性。获得的输出语义上相似的主题标签,反映所学的语义关系在主题标签和基于主题的底层聚类结构之间。此检查进程利用单词,主题标签嵌入空间中的位置性,这引入了相对于其他技术,在预测主题标签方面有显著改进。

本地和全球扩展策略

实验结果:

Google Universal Sentence Encoder(GUSE)

BERT等方法进行对比

论文代码复现: