这次组会主要介绍《融合LDA模型和情感特征的hashtag推荐》实验进展,《电力投诉文本3W命名体识别》的实验和后续想法分享。
研究背景:
在微博和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签情况下发布。
科研问题:
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。
研究目的:
让推荐系统更充分地挖掘用户或者话题深层内容特征信息,生成更加符合用户需求的hashtag。
实验说明:
此次组会一共做了两个实验,实验数据均为自己爬取构建。
实验一、二:融合LDA模型和文本情感特征的hashtag推荐;
实验三:电力投诉文本3W命名体识别。
实验数据集:
实验一:
从实验一的热点话题中选择了五个热点话题:
星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,每个话题爬取50页各1000条左右数据(实际爬下来的数据略少),总共4768条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。
实验二:
从近期热点话题中选择了四个情感色彩浓烈的热点话题:
情感正向积极的两个话题:
#遇见美好#时光温柔
#说走就走的旅行#带着微博去旅行
情感负向消极的两个话题:
#向航班失事遇难者默哀#愿你我起落平安
#长沙居民自建房倒塌#逝者安息
每个话题爬取100页各2000条左右数据(实际爬下来的数据略少),总共近8000条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。
实验二:
总共近4196条数据,包含三个特征,被投诉单位,投诉内容,投诉处理结果。
实验结果:
实验二:
实验三:
3W指who、when、what。
也就是who指被投诉单位,when投诉事件持续时间、what投诉什么。
通过命名体识别,减少人工参与成本,用机器语义帮助提升工作效率。