这次组会主要介绍《基于情感的hashtag推荐》的实验进展。
研究背景:
在微博和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签情况下发布。
科研问题:
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。
研究目的:
让推荐系统更充分地挖掘用户或者话题深层内容特征信息,生成更加符合用户需求的hashtag。
实验说明:
此次组会一共做了两个实验,实验数据均为自己微博爬取构建。
实验一:LDA预测微博热点事件;
实验二:CNN实现预测文本hashtag。
实验数据集:
实验一:
爬取2022年4月12日当日中午十二点热门微博1969条数据,使用爬取数据content里面的文本,利用LDA模型生成微博热点事件预测结果

实验二:
从实验一的热点话题中选择了五个热点话题,星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,每个话题爬取50页各1000条左右数据(实际爬下来的数据略少),总共4768条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。
训练集3752*2,文本、标签

测试集1016*2,文本、标签

实验结果:
实验一:




实验二:
将hashtag推荐任务视为一个多分类问题,选择了五类话题样本,星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,训练模型得到以下结果



后续研究计划:
1.想将LDA主题模型提取特征信息拿给word2vc模型进行特征优化
2.将目前多对一的标签预测,做成多对多的标签预测
3.试着给模型增加情感向量。
不断优化结果,构思如下图:
