研究背景
研究问题
新闻故事发现任务目前面临的挑战主要包括三个:动态适应性不足、内容表达多样性和标注数据匮乏。
研究目的
综合考虑近时性,流行度和独特性来识别新闻文章流中能够表明主题信息的考虑时间衰减属性的关键词集,根据关键词集设计一种伪标签数据集生成方法,基于弱监督信号,通过分析新闻文章的主题和上下文表示,辅助监督故事集聚类过程,并且对于原有的文章分配到故事集的方法进行改进,减少文章错误分配。
研究内容
我的模型框架图如下图第一张ppt中所示,具体的弱监督机制会在组会中详细讲解。目前通过实验进行验证有效的部分是对于文章分配到故事集的分配机制的改进,如下图第二张ppt中所示,其他的弱监督机制内容目前还在修改代码尝试实现的阶段。