2022-06-23 组会报告摘要-02

这次组会主要介绍《融合LDA模型和情感特征的hashtag推荐》实验进展,《电力投诉文本数据挖掘及可视化》的后续想法分享。


研究背景:

在微博和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签情况下发布。


科研问题
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。

研究目的:
让推荐系统更充分地挖掘用户或者话题深层内容特征信息,生成更加符合用户需求的hashtag。

实验说明:

此次组会一共做了两个实验,实验数据均为自己爬取构建。

实验一:融合LDA模型和文本情感特征的hashtag推荐;

实验二:电力投诉文本数据挖掘及可视化。

实验数据集:

实验一:

从近期热点话题中选择了四个情感色彩浓烈的热点话题:

情感正向积极的两个话题:

#遇见美好#时光温柔

#说走就走的旅行#带着微博去旅行

情感负向消极的两个话题:

#向航班失事遇难者默哀#愿你我起落平安

#长沙居民自建房倒塌#逝者安息

每个话题爬取100页各2000条左右数据(实际爬下来的数据略少),总共近8000条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。

实验二:

总共近4196条数据,包含三个特征,被投诉单位,投诉内容,投诉处理结果。

实验结果

实验一:

实验二:

后续研究计划

5.21-6.05 将目前多分类的标签预测,做成多标签预测

6.05-6.21 试着给模型增加情感向量 

6.23-7.23  提取更好LDA和情感特征向量,优化模型

7.23-8.23  开始构思论文框架

8.23-9.23   学习命名体识别、知识图谱构建相关知识

9.23-10.23  构建电力投诉文本知识图谱