这次组会主要介绍《融合LDA模型和情感特征的hashtag推荐》实验进展,《电力投诉文本数据挖掘及可视化》的后续想法分享。
研究背景:
在微博和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签情况下发布。
科研问题:
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。
研究目的:
让推荐系统更充分地挖掘用户或者话题深层内容特征信息,生成更加符合用户需求的hashtag。
实验说明:
此次组会一共做了两个实验,实验数据均为自己爬取构建。
实验一:融合LDA模型和文本情感特征的hashtag推荐;
实验二:电力投诉文本数据挖掘及可视化。
实验数据集:
实验一:
从近期热点话题中选择了四个情感色彩浓烈的热点话题:
情感正向积极的两个话题:
#遇见美好#时光温柔
#说走就走的旅行#带着微博去旅行
情感负向消极的两个话题:
#向航班失事遇难者默哀#愿你我起落平安
#长沙居民自建房倒塌#逝者安息
每个话题爬取100页各2000条左右数据(实际爬下来的数据略少),总共近8000条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。
实验二:
总共近4196条数据,包含三个特征,被投诉单位,投诉内容,投诉处理结果。
实验结果:
实验一:
实验二:
后续研究计划:
5.21-6.05 将目前多分类的标签预测,做成多标签预测 √
6.05-6.21 试着给模型增加情感向量 √
6.23-7.23 提取更好LDA和情感特征向量,优化模型
7.23-8.23 开始构思论文框架
8.23-9.23 学习命名体识别、知识图谱构建相关知识
9.23-10.23 构建电力投诉文本知识图谱