2022-04-21 组会报告摘要-02

这次组会主要介绍《基于情感的hashtag推荐》的实验进展。


研究背景:

在微博和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签情况下发布。


科研问题
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。

研究目的:
让推荐系统更充分地挖掘用户或者话题深层内容特征信息,生成更加符合用户需求的hashtag。

实验说明:

此次组会一共做了两个实验,实验数据均为自己微博爬取构建。

实验一:LDA预测微博热点事件;

实验二:CNN实现预测文本hashtag。

实验数据集:

实验一:

爬取2022年4月12日当日中午十二点热门微博1969条数据,使用爬取数据content里面的文本,利用LDA模型生成微博热点事件预测结果

实验二:

从实验一的热点话题中选择了五个热点话题,星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,每个话题爬取50页各1000条左右数据(实际爬下来的数据略少),总共4768条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。

训练集3752*2,文本、标签

测试集1016*2,文本、标签

实验结果
实验一:

实验二:

将hashtag推荐任务视为一个多分类问题,选择了五类话题样本,星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,训练模型得到以下结果

后续研究计划

1.想将LDA主题模型提取特征信息拿给word2vc模型进行特征优化

2.将目前多对一的标签预测,做成多对多的标签预测

3.试着给模型增加情感向量。

不断优化结果,构思如下图: