作者归档:余其轩

2022年11月17日 组会报告摘要-02

这次组会主要介绍《基于深度强化学习的用户侧用电行为数据压缩研究》思路进展,从科研背景、科研问题、科研目的、研究内容等几个方面展开。


科研背景:

随着人工智能、云计算、大数据等技术的广泛应用,传统电网逐渐朝着智能电网方向发展。

电力用户侧大数据主要来源于智能电表的广泛使用、各类传感器的普及、智能家电的使用和用户消费模式的改变,导致电力用户侧大数据分析的任务量加大。据不完全统计,截止2020年12月,国家电网智能电表覆盖率达到99.03%,累计采集4.47亿户

电力物联网末端不断接入传感器、智能电表等电力设备,电力用户侧用电数据呈现指数级剧增。通常,传感器的存储预算较小,计算能力较低,网络带宽有限。随之而来的问题是缓冲区会频繁被占用,传输点的工作量会很大。此外,在某些地区的智能电网中,可能会有数十万个乃至数百万传感器同时收集用电数据。一旦所有这些传感器收集到的用电数据在一个服务器上积累起来,其数量将是巨大的。

巨大容量增加了存储成本,更重要的是使数据的查询处理变得昂贵。


科研问题

针对用户侧用电行为数据的数据量大、种类繁多与采集速度快等特点。

①电力领域的数据价值挖掘于电网内部和电源端,用户侧庞大且蕴含丰富价值的电力数据而未能得到很好利用。

②目前电网采用云计算技术,将终端设备采集到的用户侧数据先汇总到数据中心再进行处理和应用等工作,这使得电网实时处理数据的能力不足。加之海量数据集中于数据中心,传统的数据分析模式已无法满足需求,迫切需要解决电力用户侧的大数据在数据存储、分析与处理方面的难题。

科研目的:

在有限的通信和存储能力下,一边是云中心有限的数据存储和实时处理能力,一边是 TB级别增长的用户侧数据中亟待挖掘的巨大数据价值。

          ①对云中心数据进行可靠的存储和实时处理 

          ②对用户侧数据进行高效准确的查询、分析

研究内容

解决上述两个问题的一种常见做法是进行数据压缩,数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。

拟考虑将电力用户侧用电数据时序图像看成是一条运动轨迹,数据压缩的本质上是丢弃给定轨迹的一些点,并将剩余的点保持为简化轨迹。

在线方式逐个输入点,而只有大小为W的缓冲器可用,即在整个轨迹简化过程中最多可以保留W个点。我们采用了一种现有的策略,对于前W个点,我们将其直接存储在缓冲区中,对于剩余的每个点,由于缓冲区已满,我们需要将一个点丢弃以获得一些空间,然后将新点存储在缓冲中。与现有的策略不同,这些策略使用一些人工设计的启发式值来决定缓冲区已满时要丢弃哪个点。

我们的目标是为这项决策任务实现一种更智能的方法。具体而言,我们将轨迹简化问题视为一个顺序决策过程,并将其建模为马尔可夫决策过程。

深度强化学习方法建模:

在组会ppt中展示。

实验结果:

在组会ppt中展示。

后续研究计划:

11.17-12.30   增加对比算法,优化实验结果

1.1-1.22         撰写小论文

2022-08-18 组会报告摘要-01

这次组会主要介绍《融合LDA模型和情感特征的hashtag推荐》实验进展,《电力投诉文本3W命名体识别》的实验和后续想法分享。


研究背景:

在微博和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签情况下发布。


科研问题
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。

研究目的:
让推荐系统更充分地挖掘用户或者话题深层内容特征信息,生成更加符合用户需求的hashtag。

实验说明:

此次组会一共做了两个实验,实验数据均为自己爬取构建。

实验一、二:融合LDA模型和文本情感特征的hashtag推荐;

实验三:电力投诉文本3W命名体识别。

实验数据集:

实验一:

从实验一的热点话题中选择了五个热点话题:

星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,每个话题爬取50页各1000条左右数据(实际爬下来的数据略少),总共4768条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。

实验二:

从近期热点话题中选择了四个情感色彩浓烈的热点话题:

情感正向积极的两个话题:

#遇见美好#时光温柔

#说走就走的旅行#带着微博去旅行

情感负向消极的两个话题:

#向航班失事遇难者默哀#愿你我起落平安

#长沙居民自建房倒塌#逝者安息

每个话题爬取100页各2000条左右数据(实际爬下来的数据略少),总共近8000条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。

实验二:

总共近4196条数据,包含三个特征,被投诉单位,投诉内容,投诉处理结果。

实验结果

实验二:

实验三:

3W指who、when、what。

也就是who指被投诉单位,when投诉事件持续时间、what投诉什么。

通过命名体识别,减少人工参与成本,用机器语义帮助提升工作效率。

2022-06-23 组会报告摘要-02

这次组会主要介绍《融合LDA模型和情感特征的hashtag推荐》实验进展,《电力投诉文本数据挖掘及可视化》的后续想法分享。


研究背景:

在微博和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签情况下发布。


科研问题
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。

研究目的:
让推荐系统更充分地挖掘用户或者话题深层内容特征信息,生成更加符合用户需求的hashtag。

实验说明:

此次组会一共做了两个实验,实验数据均为自己爬取构建。

实验一:融合LDA模型和文本情感特征的hashtag推荐;

实验二:电力投诉文本数据挖掘及可视化。

实验数据集:

实验一:

从近期热点话题中选择了四个情感色彩浓烈的热点话题:

情感正向积极的两个话题:

#遇见美好#时光温柔

#说走就走的旅行#带着微博去旅行

情感负向消极的两个话题:

#向航班失事遇难者默哀#愿你我起落平安

#长沙居民自建房倒塌#逝者安息

每个话题爬取100页各2000条左右数据(实际爬下来的数据略少),总共近8000条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。

实验二:

总共近4196条数据,包含三个特征,被投诉单位,投诉内容,投诉处理结果。

实验结果

实验一:

实验二:

后续研究计划

5.21-6.05 将目前多分类的标签预测,做成多标签预测

6.05-6.21 试着给模型增加情感向量 

6.23-7.23  提取更好LDA和情感特征向量,优化模型

7.23-8.23  开始构思论文框架

8.23-9.23   学习命名体识别、知识图谱构建相关知识

9.23-10.23  构建电力投诉文本知识图谱

2022-04-21 组会报告摘要-02

这次组会主要介绍《基于情感的hashtag推荐》的实验进展。


研究背景:

在微博和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签情况下发布。


科研问题
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。

研究目的:
让推荐系统更充分地挖掘用户或者话题深层内容特征信息,生成更加符合用户需求的hashtag。

实验说明:

此次组会一共做了两个实验,实验数据均为自己微博爬取构建。

实验一:LDA预测微博热点事件;

实验二:CNN实现预测文本hashtag。

实验数据集:

实验一:

爬取2022年4月12日当日中午十二点热门微博1969条数据,使用爬取数据content里面的文本,利用LDA模型生成微博热点事件预测结果

实验二:

从实验一的热点话题中选择了五个热点话题,星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,每个话题爬取50页各1000条左右数据(实际爬下来的数据略少),总共4768条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。

训练集3752*2,文本、标签

测试集1016*2,文本、标签

实验结果
实验一:

实验二:

将hashtag推荐任务视为一个多分类问题,选择了五类话题样本,星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,训练模型得到以下结果

后续研究计划

1.想将LDA主题模型提取特征信息拿给word2vc模型进行特征优化

2.将目前多对一的标签预测,做成多对多的标签预测

3.试着给模型增加情感向量。

不断优化结果,构思如下图:

2022-03-03 组会报告摘要-01

本次组会将会介绍阅读的一篇论文《Learning Sentence-to-Hashtags Semantic Mapping for Hashtag Recommendation on Microblogs,主要从以下几个方面介绍:


研究背景:

微博是一个在社交网络服务中发布小内容的形式,对所有人可见或仅对所有人可见给同一社区的人。这种类型的模式会产生大量的导致需要有效数据分类和搜索的帖子。 在Twitter和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签或主题标签的情况下发布。


科研问题:
主题标签推荐如何优于不同的最先进的方法(生成模型,无监督模型和基于注意力模型)

研究目的:
推荐系统如何在预测主题标签方面有显著改进。作者测试了两种不同的句子嵌入预训练模型,即 GUSE 和 BERT,测试了两种不同的策略:即本地和全球,发现HASHET通过联合使用BERT和全球扩展策略 – 平均 F 得分高达 0.82,命中率高达 0.92,主题标签推荐和主题发现的准确率为95%。


使用方法:

与大多数神经网络方法不同,这些方法将hashtag推荐任务视为一个多类分类问题,在本文HASHET中,我们翻译帖子的潜在表示进入位于单词、主题标签嵌入空间中的目标向量。然后,使用语义扩展(一种基于流程的过程)找到并丰富最近的主题标签关于主题标签嵌入空间中的语义相似性。获得的输出语义上相似的主题标签,反映所学的语义关系在主题标签和基于主题的底层聚类结构之间。此检查进程利用单词,主题标签嵌入空间中的位置性,这引入了相对于其他技术,在预测主题标签方面有显著改进。

本地和全球扩展策略

实验结果:

Google Universal Sentence Encoder(GUSE)

BERT等方法进行对比

论文代码复现:

2022-01-06 组会报告摘要-01

本次组会将会介绍阅读的一篇论文《AMNN: Attention-Based Multimodal Neural
Network Model for Hashtag Recommendation,主要从以下几个方面介绍:


研究背景:

在真实的社交网络中,标签被广泛应用于理解单个微博的内容。然而,用户在发布微博时并不总是主动添加话题标签,因此需要投入大量精力进行自动的话题标签推荐。作为一种新趋势,用户不再仅仅发布文本,而是更愿意分享多模态数据,如图像。针对这种情况,该论文提出了一种基于注意力的多模态神经网络模型(AMNN)来学习多模态微博的表示并推荐相关的标签。在本文中,我们将hashtag推荐任务转换为一个序列生成问题。提出了一种混合神经网络方法来提取文本和图像的特征,并将它们合并到序列模型中进行标签推荐。


科研问题:
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。

研究目的:
让推荐系统更充分地挖掘用户深层内容特征信息,图片、文字的语义,生成更加符合用户需求的hashtag。


使用方法:

与大多数神经网络方法不同,这些方法将hashtag推荐任务视为一个多类分类问题,在本文中我们将该任务转换为一个序列生成问题。在给定一个带有文本和图片的多模态微博的情况下,我们的模型旨在自动生成一个合适的标签列表。所提出的序列到序列模型的整体架构如如下图所示,其中包括一个混合特征提取编码器和一个用于推荐的耦合解码器。在编码器中,并行神经网络分别提取微博的图像特征和文本特征,合并后送入解码器部分。然后,根据GRU网络获得的标签概率生成标签序列。

我们通过以下步骤执行hashtag推荐。对于给定的图文混合的多模态微博,神经网络模型首先利用带有注意力机制的混合神经网络(编码器)分别提取图文特征向量。然后,AMNN将这两种表示合并,并将输出值输入GRU网络,生成推荐的标签序列(解码器)。为了简单起见,我们使用贪婪搜索算法为推荐生成最终的top-K hashtag。由于输出的单词经常是重复的,我们也在每一步中筛选出重复的单词。

论文数据集:

论文代码复现