科研背景


科研问题

研究内容

科研背景
科研问题
研究内容
面向充电站能量调度的强化学习应用研究
基于动态关系建模的社交机器人检测
科研目的:提出一个基于动态关系建模的社交机器人检测模型。运用面向社区内部的节点表示方法,能够通过社区内采样策略,显著保留社交网络节点中的社区结构。并且将社交网络描述为动态图,通过构建一个结构模块从每个历史快照中提取社交网络的拓扑信息,对社交机器人和正常用户的不断演变的行为模式进行建模。有效捕捉随时间变化的动态特性及其节点之间的关系,提高社交机器人检测的准确性。
模型的解释分事前解释和事后解释,之前的方法基于事前的解释性。我们希望能理解的性能最高的模型通常可能不是具备内在可解释架构的。在这种情况下,我们必须依赖事后可解释性方法。介绍了两种事后可解释性方法,并列举了一些关于机制可解释性和基于概念的可解释性的经典论文。
研究背景
研究问题
新闻故事发现任务目前面临的挑战主要包括三个:动态适应性不足、内容表达多样性和标注数据匮乏。
研究目的
综合考虑近时性,流行度和独特性来识别新闻文章流中能够表明主题信息的考虑时间衰减属性的关键词集,根据关键词集设计一种伪标签数据集生成方法,基于弱监督信号,通过分析新闻文章的主题和上下文表示,辅助监督故事集聚类过程,并且对于原有的文章分配到故事集的方法进行改进,减少文章错误分配。
研究内容
我的模型框架图如下图第一张ppt中所示,具体的弱监督机制会在组会中详细讲解。目前通过实验进行验证有效的部分是对于文章分配到故事集的分配机制的改进,如下图第二张ppt中所示,其他的弱监督机制内容目前还在修改代码尝试实现的阶段。
本次组会介绍可验证数据集所有权的研究进展
研究背景
科研问题
当前的模型(包括生成模型,AIGC)训练依赖于高质量的数据集,但数据集的获取极其不易,急需一种新的鲁棒性水印技术来保护数据集,防止被窃取。
现有的数据集水印缺乏定量研究可以检测水印的理论保证,易受到未来新类型的攻击去删除水印(存在攻防博弈关系)
科研目的
提出一种黑盒状态下基于共性预测的新型鲁棒的数据集可验证水印,旨在提供理论保证。只要数据集的扰动在一个区域(水印鲁棒性及其扰动大小共同指定的二维认证区域)之内,水印不易被删除,从而验证数据集的所有权。
研究方法
通过分别计算验证模型和可疑模型的概率分布,然后使用共性预测来对比这两者的差异之处,以此验证数据集所有权
基于自适应邻域选择和时空特征融合的电网虚假数据注入攻击定位
研究内容将于组会详细介绍
基于稀疏不可见后门水印的数据集保护技术研究
本次组会我将汇报对于近期在联邦学习后门防御的文献调研情况,对一些常用于对比的sota防御方法和最新的顶会论文等进行汇报。在本次组会汇报中我将从以下几个方面联邦学习后门防御方法进行介绍:科研背景、文献汇报、个人总结与思考,未来的研究计划、参考文献。
联邦学习是一种分布式机器学习训练过程,它的提出是解决集中式机器学习需要面对的数据孤岛和数据隐私问题。联邦学习中常用的架构是C-S架构,其中包含两类角色:多个客户端与一个中心聚合服务器。他们联合起来训练一个统一的全局模型。
(1)模型初始化与分发:中央服务器在第一轮确定学习任务,初始模型参数生成初始的全局模型,并将其分发给客户端。
(2)本地训练:各客户端利用本地的私有数据对模型进行训练,得到本地的局部模型。
(3)模型上传:本地向服务器上传本地训练后的模型参数
(4)模型更新:服务器根据指定的聚合方法将各个客户端上传的模型权重与全局模型进行更新后,将新的全局模型下发给客户端。
投毒攻击的主要目的在于通过恶意梯度或恶意数据降低全局模型的准确度。后门攻击也是通过数据投毒或模型投毒实现,在联邦学习中许多研究者将后门攻击归纳为特殊的投毒攻击。 后门攻击影响目标子任务的性能,全局模型在正常情况下表现良好,在某一类数据上准确度降低。联邦学习的后门攻击具有很强的隐蔽性,需要设计特定的防御方法来减轻后门攻击的影响。
其余部分我会在组会详细介绍
今天主要针对我的《合成数据评估研究》进行介绍。
在许多行业和领域中,数据被视为推动科学研究、技术创新和机器学习发展的关键资源。然而,现实中许多真实数据涉及敏感的隐私信息,尤其是在医疗、金融、政府和教育等行业。随着个人隐私保护意识的提升,全球范围内的法律法规也不断加强,对数据共享和公开的限制日益严格。例如,欧洲的GDPR(通用数据保护条例)和美国的HIPAA(健康保险携带与责任法案)等法律明确规定了数据的使用、存储和共享的严格要求。这些法律的实施有效保障了个体隐私权利,但同时也造成了数据的封闭性,限制了新技术的应用,尤其是对科学研究和机器学习算法的开发和验证造成了阻碍。
在此背景下,生成模型(如生成对抗网络GANs、变分自编码器VAEs等)作为一种新兴的技术,提供了一个潜在的解决方案。生成模型能够通过学习真实数据的统计分布,生成与真实数据相似的合成数据。与真实数据相比,合成数据不包含具体的个人信息,因此不会违反隐私保护规定,但它仍然能够保留真实数据的大部分分布信息。这意味着,研究人员可以使用这些合成数据进行科学实验、模型训练和算法验证,从而避免了隐私泄露的风险,并且仍能进行高质量的研究和分析。
•在这个背景下,合成数据(synthetic data)的评估显得尤为重要。尽管生成模型为解决隐私问题提供了一个潜在的解决方案,但合成数据的质量和有效性直接影响到科学研究和机器学习应用的可靠性。如果合成数据无法充分反映真实数据的特征和分布,或存在系统性偏差,它可能导致模型训练和结果分析的偏差。因此,如何准确评估合成数据的质量成为了确保其广泛应用的关键。
当前合成数据的评估维度主要包括:
•Fidelity: 生成的样本应当与真实数据集 𝑃𝑟 中的真实样本相似。一个高忠实度的合成数据集应包含“realistic”的样本,例如视觉上真实的图像。
•
•Usefulness: 使用真实数据训练的模型在进行下游的ML任务时的效果,应该与使用合成数据或合成数据混合真实数据的训练集在进行下游的ML任务时的效果相近。
•
•Diversity: 生成的样本应足够多样化,以覆盖真实数据的变异性。也就是说,模型应能够生成多种高质量的样本。
•
•Generalization: 生成的样本不应仅仅是训练数据中(真实)样本的简单复制,即对真实数据 𝐷𝑟𝑒𝑎𝑙过拟合的模型并不是真正的“生成性”模型。
•不同类型的数据(tabular data, time series data等)需要使用不同的evaluation的方法来进行评估 [8]。
•
•比起先前仅使用likelihood来对合成数据进行评估的方法,现在更加趋近于使用维度的方法来对合成数据进行评估[9]。
•
•合成数据直接copy原始数据的问题(overfitting problem)[1][10]。
1.针对现有的评测维度,提出一个新的evaluation的维度,结合现有的维度,组成全新的评测框架
2.在现有的evaluation的维度中提出全新的方法来对合成数据的质量进行评估。