2022-04-21 组会报告摘要-02 | 电力大数据研究院

这次组会主要介绍《基于情感的hashtag推荐》的实验进展。

研究背景：

在微博和其他社交媒体平台中，主题标签被用来给用户方便搜索，分类和传播帖子。帖子对用户来说并不总是那么容易，因此帖子通常没有主题标签情况下发布。

科研问题：
推荐系统如何更充分地挖掘深层内容特征在下面三个方面：信息量、信息维度、提取能力。信息量：不同模态输入信息不同；信息维度：存在诸多影响因素；提取能力：去除噪声信息，强化重要信息特征。

研究目的：
让推荐系统更充分地挖掘用户或者话题深层内容特征信息，生成更加符合用户需求的hashtag。

实验说明：

此次组会一共做了两个实验，实验数据均为自己微博爬取构建。

实验一：LDA预测微博热点事件；

实验二：CNN实现预测文本hashtag。

实验数据集：

实验一：

爬取2022年4月12日当日中午十二点热门微博1969条数据，使用爬取数据content里面的文本，利用LDA模型生成微博热点事件预测结果

实验二：

从实验一的热点话题中选择了五个热点话题，星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风，每个话题爬取50页各1000条左右数据（实际爬下来的数据略少），总共4768条数据，大致按照8：2进行训练集和测试集划分，构建数据集进行实验。

训练集3752*2，文本、标签

测试集1016*2，文本、标签

实验结果：
实验一：

实验二：

将hashtag推荐任务视为一个多分类问题，选择了五类话题样本，星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风，训练模型得到以下结果

后续研究计划：

1.想将LDA主题模型提取特征信息拿给word2vc模型进行特征优化

2.将目前多对一的标签预测，做成多对多的标签预测

3.试着给模型增加情感向量。

不断优化结果，构思如下图：