作者归档:侯晓萌

2024-11-28 组会摘要03

研究背景

研究问题

新闻故事发现任务目前面临的挑战主要包括三个:动态适应性不足、内容表达多样性和标注数据匮乏。

研究目的

综合考虑近时性,流行度和独特性来识别新闻文章流中能够表明主题信息的考虑时间衰减属性的关键词集,根据关键词集设计一种伪标签数据集生成方法,基于弱监督信号,通过分析新闻文章的主题和上下文表示,辅助监督故事集聚类过程,并且对于原有的文章分配到故事集的方法进行改进,减少文章错误分配。

研究内容

我的模型框架图如下图第一张ppt中所示,具体的弱监督机制会在组会中详细讲解。目前通过实验进行验证有效的部分是对于文章分配到故事集的分配机制的改进,如下图第二张ppt中所示,其他的弱监督机制内容目前还在修改代码尝试实现的阶段。

2024-5-30组会摘要03

此次组会汇报内容为目前的研究方向和创新点思考。主题名称为《SCStory:基于自监督和持续学习的在线新闻故事发现》。

科研背景:社交网络的兴起对新闻事件的传播与演化发酵产生了极大的影响 ,而报道实时事件的新闻文章通过社交网络平台大量发布。实时发现具有独特主题文章的新闻故事,不仅为个人关注新兴新闻故事带来了巨大的好处,也为企业带来了巨大的利益。

科研问题:利用一种新闻文章流的故事指示性自适应建模,它在并发故事的背景下识别并关注每篇文章中与故事相关的信息,考虑其故事独特性来实现新闻故事的聚类。

研究内容总结如下图所示:

创新点思考如下图所示: