密码保护：2022-02-28 组会纪要

能源电力大数据研究院组会安排（2022.2-2022.6）

日期		报告人
2.24	陈雅联坤	常晓雨
3.3	梁音	余其轩	毛徐晗
3.10	陈志强	孙艺凡	杨士铎
3.17	张务卿	杨鑫浩	张敬伟
3.24	李诗珂	金正晗	李敬豪
3.31	仝鑫	李何筱	栗继房
4.7	梁音	徐亚	成娜
4.14	陈志强	杨士铎	杜丽
4.21	李诗珂	余其轩	毛徐晗
4.28	曲克童	孙明雨	张务卿
5.5	杜哲	韩旭	王跃
5.12	孙艺凡	杨鑫浩	金正晗
5.19	陈雅联坤	常晓宇	仝鑫
5.26	李诗珂	李敬豪	张敬伟
6.2	陈志强	徐亚	杜丽
6.9	李何筱	栗继房	成娜

组会于每周四晚7点开始，形式为线上、线下结合。
6月9日之后的组会安排于四月更新。
组会原则上不允许请假，特殊情况，请假人需提前一周，以书面形式向研究院院长提出申请。
报告人需提前两天将报告题目和内容摘要发布到研究院群。
组内安排会议纪要，在次周周一提交。

2022-02-24组会报告摘要02

本次组会将会介绍阅读的一篇论文《Dynamic Knowledge Graph Alignment》，主要从以下几个方面介绍：

科研背景

研究者通常根据实际需求构建知识图谱，造成单一知识图谱信息覆盖率低的问题，无法满足不同领域知识图谱的应用需求。知识融合是充分利用现有知识图谱，提高知识图谱信息覆盖率的主要途径。实体对齐是最常用的知识融合方法，一般用来从不同知识图谱中找到指向现实世界同一对象，并建立对象之间的关联关系。

科研问题

作者表示，现有对齐方法普遍假定知识图谱是静态的，而事实上知识图谱应该是处于一个更新和发展的过程中。基于此，论文提出了一个扩展的对齐任务：动态图谱对齐。

方法

作者认为该任务的难点在于实体嵌入的更新，因为知识图谱更新后拓扑结构也会随之变化，而实体嵌入与图谱结构高度相关。所提方法DINGAL-系列的核心思路是将知识图谱表示学习使用的GCN参数矩阵视作特征转换操作，从而减少转换和聚合过程间的耦合。

结果

实验对比现有14种对齐模型取得了性能超越，并且系列算法取得了更快的运行速度。

2022-02-24组会报告摘要-01

本次组会介绍阅读的一篇论文《Contextualized Weak Supervision for Text Classification》，主要从以下几个方面展开介绍：

1. 介绍理由
主题是弱监督文本分类;
发表在顶刊, 比较权威;
有开源代码;
是看过的第一篇论文的引用论文, 同时引用了看过的第二篇论文

2. 科研背景
有标签的数据获得成本高
有监督学习可以获得更好的训练效果
但是
已有的弱监督框架:
生成伪标签
学习文档与标签的映射关系
扩展用户提供的类别关键字

3. 科研问题
同一个词在不同的上下文环境下将表示不同的含义, 考虑上下文之后可以获得更好的训练效果

4. 方法

密码保护：2022-01-27 组会纪要

2022-01-27 组会报告摘要-02

本次组会介绍论文《Smart power consumption abnormality detection in buildings using micromoments and improved K‐nearest neighbors》，主要从以下方面介绍：

介绍理由：

对现有功耗异常检测方案的分类进行全面概述
收集新的异常检测数据集（QUD）
提出了一种使用 OCSVM (UAD-OCSVM) 的新型无监督异常检测方法
提出了一种使用微矩 (SAD-M2) 的新型监督异常检测，它使用 IKNN模型来学习使用微矩范式定义的消耗异常。（IKNN，与传统的 KNN 和其他 ML 方法相比，它可以提高异常检测性能，并且可以进一步减少计算时间。）

科研背景：

目前存在的相关研究方法有各自的优点，但它们也显示出不同的缺点和局限性。
明确地，在能耗中检测用电异常会遇到以下问题和挑战：
缺乏对正常和异常能源使用的精确定义；
正常和异常能源消耗行为之间没有明确的界限；
缺乏带标签的数据集；
使得电力异常检测解决方案的开发成为一项具有挑战性的任务。

科研问题：

如何识别电气设备中的能源异常消耗？
解决此科研问题原因：
能源消耗异常检测是开发高效节能系统、减少整体能源消耗和减少碳排放的关键一步。实现能源消耗异常检测这一目标并告知最终用户他们的能源消耗足迹，并为他们提供改善习惯的建议。在这种情况下，节能有助于促进可持续行为，也有助于减少总能源消耗

方法：

1.OCSVM（无监督）

2.SAD-M2（有监督）

结论：

2022-01-27 组会报告摘要-01

本次组会介绍阅读的一篇论文《Deep Adaptive Input Normalization for Time Series Forecasting》，主要从以下几个方面展开介绍：

科研背景

在时间序列预测领域中，时间序列数据的非平稳性、非线性等性质会造成预测模型精度降低，尤其在金融、电力负荷领域中。所以要对数据进行预处理，标准化是数据预处理中比较重要的一个步骤，本文提出的方法学习如何对给定的任务进行归一化，而不是使用固定的归一化方案。

科研问题

对于预测的时间序列数据进行适当的归一化。

方法

该论文提出的方法开源代码:https://github.com/passalis/dain

部分实验

实验设置：在实验预训练模型中采用锚定评估方法，在提供的十天的数据集中，采用该方法重复训练九次，利用序列数据的相关性有效的提高了模型的训练以及学习效果。实验结论：（1）使用标准化对于提高模型训练能力是必要的；
（2）分布偏移以及一些重尾分布，自适应方法性能更好。

2022-01-20 组会报告摘要-03

本次组会将进行《网络安全威胁情报文本信息抽取研究》研究进展情况，并且报告接下来要进行实验的内容，其主要内容如下:

科研背景：

网络威胁情报利用收集、完善和分析收集到的网络攻击信息来应对网络空间领域中存在的威胁[Brown R，2019]。
知识图谱以结构化图的形式描述客观世界中概念、实体及其关系属性，便于机器更好的建模、理解和推理。
网络安全知识图谱通过三元组的形式存储了大量网络威胁信息,对于帮助安全分析师检测网络威胁至关重要。它可以帮助在“安全运营中心”（SoC）工作的安全分析师及时对网络攻击进行响应，并提供防御决策时信息支持。

科研问题：对网络安全威胁情报的即时分析是安全专家面临的一个挑战，因为每天生成的网络信息量无法估量，这就需要自动化的信息抽取工具来方便查询和检索数据。所以如何准确、高效地抽取威胁情报所隐含的信息是要解决的科研问题。

科研目的：l针对收集到的威胁情报，可以识别出威胁情报句子中的实体类型，并提取出不同实体之间存在的关系。

研究的宏观图景框架：

针对整体研究框架，在后续的报告中报告该框架中的实验以及实验中的参数、模型、数据集等情况，并分析实验结果。

下一步计划：

针对下一步的研究计划，准备引入激励学习（promet learning）中的OpenPrompt框架和命名实体识别中的MRC（machine reading comprehension）框架来提高命名实体识别的准确率，并介绍激励学习和MRC的任务定义和主要思想。

密码保护：2022-01-20 组会报告摘要-01

2022-01-13组汇报告摘要-03

本次我将梳理我的研究《基于零知识证明的异构架构联邦学习安全聚合方法研究》的实验设置并重点讲解其中的零知识证明应用部分

科研背景及问题

联邦学习支持在不损害多个参与者的数据隐私的情况下，创建强大的集中式模型。由于知识产权问题以及任务和数据的异构性，每个参与者独立设计自己的模型在实际应用中具有广泛的需求。在面临数据中毒攻击、模型中毒攻击以及推理攻击时，异构架构联邦学习的鲁棒性和隐私性同样会受到威胁。因此，增强异构架构联邦学习的鲁棒性及隐私性是非常有意义的研究方向。
问题：目前在异构架构联邦学习的场景下还没有有效的保护系统隐私性以及鲁棒性的方法。

实验思路

1.公共数据集预训练，初始化模型
2.私有数据集训练
3.模型在public data batch上测试获取logits（softmax层之前的输出）
（零知识证明模块）4.上传logits
5.计算平均，返回共识（返回2.）

异构架构联邦学习系统部分
联邦学习系统基于FedMD[1]，分别在私有数据集和公共数据集上进行投毒攻击；恶意控制模型上传编造的losgits；截获第（4）步中的logits，推理攻击还原出模型结构。

零知识证明模块
零知识证明是指证明者能够在不向验证者提供任何有用信息的情况下,只通过双方交互使验证者相信某个论断是正确的。
1）完备性
2）合理性
3）零知识性

在本研究中，每个参与方必须提供一个非交互式零知识证明，证明其提交的更新logits格式正确，并且其范数符合设置的边界（边界由公共数据集计算或中值方法）。若服务端验证成功，进行更新步骤；若失败，将该参与方的logits排除在本次更新之外，计算其他验证成功的参与方提供的logits的平均值。

[1] Li, Daliang, and Junpu Wang. “Fedmd: Heterogenous federated learning via model distillation.” arXiv preprint arXiv:1910.03581 (2019).