2022-08-18 组会报告摘要-01 | 电力大数据研究院

这次组会主要介绍《融合LDA模型和情感特征的hashtag推荐》实验进展，《电力投诉文本3W命名体识别》的实验和后续想法分享。

研究背景：

在微博和其他社交媒体平台中，主题标签被用来给用户方便搜索，分类和传播帖子。帖子对用户来说并不总是那么容易，因此帖子通常没有主题标签情况下发布。

科研问题：
推荐系统如何更充分地挖掘深层内容特征在下面三个方面：信息量、信息维度、提取能力。信息量：不同模态输入信息不同；信息维度：存在诸多影响因素；提取能力：去除噪声信息，强化重要信息特征。

研究目的：
让推荐系统更充分地挖掘用户或者话题深层内容特征信息，生成更加符合用户需求的hashtag。

实验说明：

此次组会一共做了两个实验，实验数据均为自己爬取构建。

实验一、二：融合LDA模型和文本情感特征的hashtag推荐；

实验三：电力投诉文本3W命名体识别。

实验数据集：

实验一：

从实验一的热点话题中选择了五个热点话题：

星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风，每个话题爬取50页各1000条左右数据（实际爬下来的数据略少），总共4768条数据，大致按照8：2进行训练集和测试集划分，构建数据集进行实验。

实验二：

从近期热点话题中选择了四个情感色彩浓烈的热点话题：

情感正向积极的两个话题：

#遇见美好#时光温柔

#说走就走的旅行#带着微博去旅行

情感负向消极的两个话题：

#向航班失事遇难者默哀#愿你我起落平安

#长沙居民自建房倒塌#逝者安息

每个话题爬取100页各2000条左右数据（实际爬下来的数据略少），总共近8000条数据，大致按照8：2进行训练集和测试集划分，构建数据集进行实验。

实验二：

总共近4196条数据，包含三个特征，被投诉单位，投诉内容，投诉处理结果。

实验结果：

实验二：

实验三：

3W指who、when、what。

也就是who指被投诉单位，when投诉事件持续时间、what投诉什么。

通过命名体识别，减少人工参与成本，用机器语义帮助提升工作效率。