2022.4.21 组会报告摘要—03

这次组会主要介绍《基于CPU-GPU架构的流程挖掘算法的性能优化》的实验进展。

科研背景

  • 对于企业来说,业务流程在信息系统中留下足迹,而流程挖掘则可以从这些足迹中抽取有用的信息,为企业自身业务流程的理解、改进和重构提供事实依据。
  • 在过去几年中,记录的数据量大幅增加。与这种数据爆炸现象相关的主要挑战不是存储,而是从这些庞大的数据集合中提取有价值的信息。后一个挑战也适用于业务流程的分析。

科研问题

虽然分布式计算框架和平台可以有效地利用数据并行性,但由于它们的计算是在CPU上进行的,它们的并行性仍然受到可用计算资源的限制。因此,如何提高事件数据处理的并行度,成为流程挖掘技术性能提升的重要问题。

科研目的

为了在有限的计算资源中实现高性能,我们提出了使用CPU-GPU架构进行大规模流程挖掘的方法。

整体流程框架

实验结果

下一步计划

完成中文论文的表达方式和逻辑结构修改

2022.4.21 组会报告摘要—01

这次组会主要介绍《A Safe and Eco-friendly Speed Advisory System for Connected and Automated Vehicles Using Consortium Blockchain》的实验进展。

科研背景

  • 作为ISA的一种特殊类型,基于共识的速度咨询系统(CSAS)旨在为在同一路段(如高速公路)或同一区域(如市中心)行驶的内燃机车(ICEV)或电动汽车(EV)车队推荐一致的速度。如果所有车辆都按照建议的速度行驶,对各种类型的道路使用者都有一些明显的好处,例如减少排放(减少加速/减速的频率)、降低能耗、增加吞吐量以及提高安全和健康。
  • 为了实际的扩展,系统必须充分考虑到前车的存在。在保证车辆安全约束的前提下,使得自动驾驶车队的总排放最小。将车辆间最小跟车距离和道路最大速度限制定义为状态约束,提出一个以排放最小为目标的最优控制问题。

科研问题

在之前的CSAS解决方案中,车辆必须将他们的私人数据发送到中央服务器以计算出最佳速度。在中央服务器不够安全或CSAS的服务提供商不受信任的情况下,一个次优甚至随机的速度可能被送回车辆。此外,在这些工作中,车辆也被认为是完全诚实的,忽略了车辆在私人数据收集中的不诚实行为可能导致速度推荐失败的事实。例如,恶意的车辆可能故意发送格式错误的加密数据,导致安全聚合失败。因此,CSAS不仅要确保中央服务器的安全性和可信度,而且要确保隐私数据收集的可验证性。

此外,上述专注于CSAS的工作并没有探索直接考虑前车的存在作为状态约束的可能性。也就是说,相邻车辆施加的车辆安全约束没有被考虑。例如,车辆的行驶速度超过了最高道路速度,后车与前车之间的距离小于安全距离。这些情况会给道路安全带来巨大的风险,从而限制了CSAS的实际扩展。

科研目的

设计一套共识速度推荐的完整流程,使自动驾驶车队的排放最小化,同时避免碰撞和遵守道路速度限制。并且利用联盟链的特点来提高整个推荐系统的安全性和隐私性。

实验进展

实验进展将从以下方面介绍。

*联盟链部分目前待完成,即Performance and Scalability Analysis。讲解的时候参考胡柏吉师兄《A Consortium Blockchain-enabled Secure and Privacy-Preserving Optimized charging and Discharging Trading Scheme for Electric V ehicles》这篇论文中的联盟链性能测试实验图。实验流程和指标是一致的。

2022-04-21 组会报告摘要-02

这次组会主要介绍《基于情感的hashtag推荐》的实验进展。


研究背景:

在微博和其他社交媒体平台中,主题标签被用来给用户方便搜索,分类和传播帖子。帖子对用户来说并不总是那么容易,因此帖子通常没有主题标签情况下发布。


科研问题
推荐系统如何更充分地挖掘深层内容特征在下面三个方面:信息量、信息维度、提取能力。信息量:不同模态输入信息不同;信息维度:存在诸多影响因素;提取能力:去除噪声信息,强化重要信息特征。

研究目的:
让推荐系统更充分地挖掘用户或者话题深层内容特征信息,生成更加符合用户需求的hashtag。

实验说明:

此次组会一共做了两个实验,实验数据均为自己微博爬取构建。

实验一:LDA预测微博热点事件;

实验二:CNN实现预测文本hashtag。

实验数据集:

实验一:

爬取2022年4月12日当日中午十二点热门微博1969条数据,使用爬取数据content里面的文本,利用LDA模型生成微博热点事件预测结果

实验二:

从实验一的热点话题中选择了五个热点话题,星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,每个话题爬取50页各1000条左右数据(实际爬下来的数据略少),总共4768条数据,大致按照8:2进行训练集和测试集划分,构建数据集进行实验。

训练集3752*2,文本、标签

测试集1016*2,文本、标签

实验结果
实验一:

实验二:

将hashtag推荐任务视为一个多分类问题,选择了五类话题样本,星巴克、刘宇柳叶刀MV、孤勇者、全国统一市场、鹿晗新歌兜风,训练模型得到以下结果

后续研究计划

1.想将LDA主题模型提取特征信息拿给word2vc模型进行特征优化

2.将目前多对一的标签预测,做成多对多的标签预测

3.试着给模型增加情感向量。

不断优化结果,构思如下图:

2022-04-14 组会报告摘要-02

之前的组会中介绍了《基于零知识证明的异构架构联邦学习安全聚合方法研究》的科研背景、问题、研究思路以及实验方案。本次组会将详细汇报系统架构、工作流程、隐私保护方案和实验进展。

科研背景

联邦学习支持在不损害多个参与者的数据隐私的情况下,创建强大的集中式模型。由于知识产权问题以及任务和数据的异构性,每个参与者独立设计自己的模型在实际应用中具有广泛的需求。在面临数据中毒攻击、模型中毒攻击以及推理攻击时,异构架构联邦学习的鲁棒性和隐私性同样会受到威胁。

科研问题

  1. 大多数隐私性和鲁棒性研究都集中在同构架构下的联邦学习上,目前尚不清楚现有的攻击、隐私保护技术和防御机制是否适用于异构体系结构的联邦学习。
  2. 针对于联邦学习系统的恶意攻击,现有的防御措施要么需要仔细检查培训数据,要么在服务器上完全控制培训过程,由于联邦学习需要对节点数据隐私进行保护,因此其中任何一种方法都难以在联邦学习环境中有效。

研究目的

提出一种在异构结构中基于零知识证明的联邦学习安全聚合方法,实现在服务端在不得到各个节点任何知识的同时确保学习节点用户提交具有预先指定属性的更新,在隐私性方面能够预防推理攻击,在安全性上能够抵御主流的数据中毒以及模型中毒攻击,达到增强异构架构联邦学习的隐私性及安全性。

异构架构联邦学习模型系统

1.公共数据集预训练,初始化模型
2.私有数据集训练
3.模型在public data batch上测试获取logits(softmax层之前的输出)
4.上传logits
5.计算平均,返回共识 (返回2.)

零知识证明模块

在本研究中,每个参与方必须提供一个非交互式零知识证明,证明其提交的更新logits格式正确,并且其范数符合设置的边界 (边界由公共数据集计算或中值方法) 。若服务端验证成功,进行更新步骤;若失败,将该参与方的logits排除在本次更新之外,计算其他验证成功的参与方提供的logits的平均值。

2022-04-14 组会报告摘要-03

本次将会介绍有关《客服中心场景下基于情感分析的业务流程预测研究》的进展情况。主要内容如下:

科研背景:

  • 预测性的业务流程监控(Predictive business process monitoring)是近年来流程挖掘领域的一个研究热点。
  • PBPM分析业务流程中已完成实例的事件日志,对其正在运行的实例进行预测,以采取更为有效的资源调度等执行策略,避免不必要的损失,提升业务系统的整体性能。
  • 随着技术的发展和消费模式的升级,客服中心已成为推动企业和政府等组织机构开展数字化和智能化转型的重要切入点。

科研问题:

  • 深度学习模型已经应用到流程监控领域,但是针对客服中心场景下的业务流程预测,几乎没有一种技术能利用以自然语言编写的客服通话文本,这些文本中可以保存对预测任务至关重要的用户情感信息。

科研目的:

  • 针对客服中心的自然语言文本信息,提出一种客服中心场景下基于情感分析的业务流程预测方法,对客户的发问意图、抒发情感、表达语义等进行识别和理解,提高流程预测精度。

流程框架:

实验结果:

2022-04-14 组会报告摘要-01

本次组会将介绍个人总结的关论文大修的注意事项以及response letter 的书写格式。

内容主要包括,1.论文大修的注意事项,2.修改意见的解读以及汇总方式,3.常见修改方式及图表描述方法,4. response letter的书写的格式与注意事项

对于论文大修的过程

审稿意见解读

首先,查看论文修改的截至日期。其次,逐条解读专家给出的评审意见,并初步制定出每条修改意见的修改范围。接着,汇总出各个专家的评审意见以及整个论文需要修改的部分。最后确制定出论文大修的修改计划,估计大致所需要的时间,确保能够在规定时间前完成论文的修改。

常见的修改意见

1.Introduction 的内容:缺少与某些概念、数据、方法、实际应用的联系;缺少所采用方法的背景、局限性、优势的介绍。(通过了解专家对Introduction提出的意见,可以帮助日后再写其它文章的Introduction有一个比较好的方向。)

2.related works常存在的问题:仅仅将大量论文在文中陈述,没有细致的分类,缺少各个论文中的优势与不足的分析。建议今后的文章把related works中的论文用一张表格按照类似method和Description进行展示,并按照不同使用方法的特点进行分类。

related works 分类

3.实验部分:常见的实验部分的问题包括实验数据不足,实验数据的分析不够,方法缺少对比等内容,这部分属于比较难改且耗费时间的,需要根据意见和实际情况来决定是按照专家的意见进行修改,还是向专家解释所设定的特定条件。

response letter 的书写

1.回复函最好制成表格的形式,便于审稿人查看自己对论文提出的问题,以及你对该问题的回答和修改内容。(注意:节省审稿人的时间就是节省你自己的时间,最好让审稿人能够只看你的回复函而不需要再去看文章,重新看文章可能又有新的意见提出)

回复函的常用格式

2.对审稿人的提出的意见,放低姿态,认真修改并感谢对方提出的问题。常见的感谢语句:

We thank you for the critical comments and helpful suggestions. We have taken all these comments and suggestions into account, and have made major corrections in this revised manuscript. For the problem that…… We have added ……

Thank you for your comments and suggestion concerning our manuscript. The comments and suggestions are all valuable and very helpful for revising and improving our paper, as well as the important the important guiding significance to our research. We have studied comments carefully and have made correction which we hope to meet with approval:

3.制定出文章修改的综述,方便审稿人和编辑查看论文修改的内容,最好也做成表格

文章修改综述