2022-03-03 组会报告摘要-01 | 电力大数据研究院

本次组会将会介绍阅读的一篇论文《Learning Sentence-to-Hashtags Semantic Mapping for Hashtag Recommendation on Microblogs》，主要从以下几个方面介绍：

研究背景：

微博是一个在社交网络服务中发布小内容的形式，对所有人可见或仅对所有人可见给同一社区的人。这种类型的模式会产生大量的导致需要有效数据分类和搜索的帖子。在Twitter和其他社交媒体平台中，主题标签被用来给用户方便搜索，分类和传播帖子。帖子对用户来说并不总是那么容易，因此帖子通常没有主题标签或主题标签的情况下发布。

科研问题：
主题标签推荐如何优于不同的最先进的方法（生成模型，无监督模型和基于注意力模型）

研究目的：
推荐系统如何在预测主题标签方面有显著改进。作者测试了两种不同的句子嵌入预训练模型，即 GUSE 和 BERT，测试了两种不同的策略：即本地和全球，发现HASHET通过联合使用BERT和全球扩展策略 – 平均 F 得分高达 0.82，命中率高达 0.92，主题标签推荐和主题发现的准确率为95%。

使用方法：

与大多数神经网络方法不同，这些方法将hashtag推荐任务视为一个多类分类问题，在本文HASHET中，我们翻译帖子的潜在表示进入位于单词、主题标签嵌入空间中的目标向量。然后，使用语义扩展（一种基于流程的过程）找到并丰富最近的主题标签关于主题标签嵌入空间中的语义相似性。获得的输出语义上相似的主题标签，反映所学的语义关系在主题标签和基于主题的底层聚类结构之间。此检查进程利用单词，主题标签嵌入空间中的位置性，这引入了相对于其他技术，在预测主题标签方面有显著改进。

本地和全球扩展策略

实验结果：

Google Universal Sentence Encoder（GUSE）

BERT等方法进行对比

论文代码复现：