作者归档:杨顺博

2023-06-15组会摘要01

本次我将会从GDPR合规性的角度出发进行报告。

科研背景

《通用数据保护条例》(GDPR)于2018年5月在所有欧盟(EU)国家生效。《GDPR》是对1995年发布的数据隐私法规的重大更新,其中的规定是为了确保个人数据“只能在严格的条件下,出于合法目的合法收集”,同时,GDPR将数据的完全控制权交还给数据所有者。

如下图所示,GDPR在其”合法性,公平性和透明性“,”目的限制“,”数据最小化“,”准确性“,”存储限制“,”完整性和保密性“的六大准则之下,明确规定了三种角色,分别为数字主体(data subject),数据控制者(data controller)以及数据处理者(data processor)。

GDOR六大原则以及三种角色

GDPR要求数据控制者(DC)在对个人数据进行访问、存储、处理和传输时,应当提前取得用户的明确同意。受到合规性的驱动,身为数据控制者(DC)的实体或个人需要对其数据处理的流程进行修改,从而保护数据主体(DS)的权益。

科研问题

对于企业在对其内部流程进行改革从而合规的规程有带来了新的问题:

1.手动验证对于数据控制者(DC)来说是一个耗时且易出错的过程。

2.只有在怀疑有违反规定的情况下,或当数据主体(DS)向监管当局提出投诉时,数据控制者才须证明遵守规定,因此对于服务供应商来说难以证明其一直在遵守相关规定。

科研目的

1.设计一种方法,能够透明的记录数据控制者(DC)对个人数据的操作,并根据政策合规性的要求,使数据主体(DS)和DC能够识别和验证对数据允许的操作。

2.需要一种方法,确保数据主体(DS)和数据控制者(DC)能够核实谁拥有他们的个人数据以及与谁共享了这些数据。

3.开发一种不可篡改的记录机制,以便能够记录和验证基于GDPR相关要求对用户数据进行的操作。

研究内容

因此本次汇报描述了一种基于GDPR规则的编码,使用这些规则实行的每个操作都将记录到区块链中,用于审计的目的。具体来说,这项工作展示了一些GDPR规则如何以操作码的形式出现在智能合约中,以透明和自动的方式对用户数据进行操作。

通过将GDPR规则转化为智能合约,从而使监察机构以及数据主体(DS)能够以自动和透明的方式对数据控制者(DC)进行验证与监督。

研究框架

2023年4月13日 组会报告摘要-01

我本次汇报的题目是:《联邦学习中的安全和隐私保护问题研究》,我将从科研背景、科研目的、科研问题、研究内容、研究计划五个方面进行汇报。

科研背景

我国高度重视数字经济

在政策方面,2019 年党的十九届四中全会首次将数据与土地、劳动力、资本、技术并列作为重要的生产要素。

在管理机制方面,2023 年国务院组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设。

在行业方面,地方数据交易所进入了高速发展阶段。2022 年上海数据交易所发布了《数据要素流通标准化白皮书》、广东省发布《广东省数据要素市场化配置改革白皮书》,以基于标准化布局保障数据流通、释放数据潜在价值,为数据要素市场化及数字经济发展提供方向指导。

在数字信息凸显,数据安全风险与日俱增,数据泄露、数据贩卖等数据安全事件频发,为个人技术日新月异的发展趋势下,数据已成为数字经济发展的核心生产要素,是国家重要资产和基础战略资源。随着数据价值的愈加隐私、企业商业秘密、国家重要情报等带来了严重的安全隐患。

趋势:1.内外部安全威胁持续升级 2.数据伦理道德问题凸显

因此,国内外相继发布了数据相关的保护条例。

中国三管齐下的信息安全法律框架

科研目的

当前在数据安全的主要矛盾是当前数据已经被定义为了一种生产要素,因此需要数据流动起来而不是形成数据孤岛,才能让数据释放其价值。然而从数据安全的角度来说,一旦数据发生了流动,就会对数据产生安全和隐私相关的问题。因此,对于这样的一种矛盾,联邦学习是一种很好的解决方案,因为每一个client的数据在本地训练,因此可以让数据在不流动的前提下,让数据释放其价值。然而联邦学习本身仍然存在一些安全和隐私的风险。

科研问题

尽管联邦学习通过在本地客户端上进行本地模型训练在一定程度上保护了数据的隐私和安全,但仍然存在一些攻击手段可能泄露个人信息。因此我们希望探究设计联邦学习系统时可能面临的挑战以及可能的解决办法。

研究内容

如下图所示,联邦学习中存在的数据安全威胁主要可以概括为三方面

1.在客户端的隐私保护

2.在服务器的隐私保护

3.联邦安全框架的安全防护

联邦学习的结构与存在的数据安全威胁

对于联邦学习中存在的数据安全威胁、以及对应的一些防护方法,以及采用了一些防护方法又引发的新的需要解决的问题等,将在组会上进行详细的介绍。

2023年2月16日 组会报告摘要-01

我本次组会的汇报题目是《利用深度强化学习在绿色数据中心进行多目标任务调度》(Multi-objective Task Scheduling in Green Data Centres with Deep Reinforcement Learning),我将从科研背景,科研问题,科研目的,研究内容等方面进行介绍。

科研背景

近些年来,随着互联网的迅速发展,如电子邮件,远程会议,在线聊天与搜索等业务得到了极大的普及。与此同时,越来越多的服务被部署在云数据中心中。因此,数据中心的规模和能耗一直在显著增加。然而,随着数据中心不断增加,其货币成本、能源消耗的增加和有害气体排放已成为社会面临的严峻问题。统计报告显示,2010年,数据中心消耗的能源占世界总能耗的1.3%。因此上述问题已经成为了一个丞待解决的问题。

科研问题

随着越来越多的用户在数据中心部署他们的延迟受限的应用,如大数据处理、深度学习和高性能计算,大规模数据中心的能源消耗量也急剧增加。在美国,超过57%的电能是通过燃烧褐色能源(如石油和煤炭)产生的,它带来了严重的环境破坏。因此越来越多的企业建立了绿色能源中心。目前的绿色数据中心(Green Data Centre, GDCs)主要由三种能源供电,即电网、太阳能和风能,它们旨在通过使用可再生设备减少褐色能源的消耗。

然而,对于绿色数据中心而言,如何在严格保证其任务的服务质量(quality of service)的前提下来保证其利润仍然是一个开放的话题。因为当能源消耗减少时,用户任务的服务质量会降低,然而绿色数据中心的利润会提高,因此,供应商的利润和任务的服务质量需要通过智能调度任务和分配基础设施资源来共同优化。

科研目的:

因此本研究提出了一种基于深度强化学习的任务调度算法,使一个数据中心由于有利的天气条件而拥有更多的可再生能源时,优先在能保证任务QoS的情况下将任务分配到该能源中心从而减少电网的能源消耗。从而达到保证用户QoS,降低成本与减少碳排放的多目标。

问题建模:

针对该问题,包括具体的框架以及数学模型将会在组会上进行详细的介绍。

2022年12月1日 组会报告摘要-01

因为目前方向还没有完全确定,最近两个月主要是在看文章找场景以及场景中存在的问题,例如边缘云计算(edge-cloud computing),多云(inter-cloud)等场景。根据上次组会之后这一个多月文献的阅读,本周组会我选择了多云场景中的一个分支混合云(hybrid cloud)来和大家进行讨论。选择混合云这个场景的原因有如下的几点:

1.首先由下图所示,这张图描述了在Masdari and Zangakani 2019年关于多云(inter-cloud)间进行任务调度的综述中,所引用的文献的年份分布,从这张图可以看出,从2010年开始,针对这个场景的研究呈现出逐年增加的趋势,因此可以认为目前有很多人都在针对这个场景下进行工作流/任务调度。具有一定的参考价值。

本文引用的在多云环境下进行BAG或者scientific workflow调度的工作的年份分布(Masdari and Zangakani, 2019)

2. 根据Masdari and Zangakani在2019年的研究,inter-cloud上进行scheduling的场景主要可以分为三类,即federation,multi-cloud以及hybrid cloud。本次我介绍的重点主要放在了hybrid cloud上。在先前的组会中,已经有同学在着手与隐私相结合,对hybrid cloud进行研究。我关注的领域主要是hybrid cloud中的elastic属性,例如Genez在2017年的研究,以及Yi Zhang在2018年的研究。在带有elastic属性的hybrid cloud场景中,存在一个私有云和多个公有云,当私有云的空间不足的时候,管理员可以在公共云上创建私有云的扩展。从而使用公有云的资源。

3.除此之外,例如Zhanghui Liu以及Haitao Yuan的研究也考虑到了数据中心之间网络带宽的因素,因为跨地理分布的数据中心移动数据会导致极大的延迟,并阻碍scientific workflows或者BAG的有效执行。在Haitao Yuan的研究中,更是在绿色数据中心(GDC)将收入、电网价格、太阳光强度、风速、网络带宽等多种因素进行了考虑。

具体内容将会在组会报告中进行详细报告与讨论。

2022年9月29日 组会报告摘要-01

本次组会将会分享我的一项新的研究,题目暂定为Application of Deep Reinforcement Learning to Dynamic Role-Based Access Control Policy: a Case Study in Smart Grid,即深度强化学习在动态角色访问控制策略中的应用——以智能电网为例。

本次报告将会从四个方面进行介绍,包括研究背景,研究目标,拟采用方案,以及研究计划。

研究背景

随着信息和通讯技术的发展,基于角色的访问控制(RBAC)已经广泛的应用于身份验证,成为大型组织为建立访问控制的一种解决方案,然而,在一些场景下可能会导致传统的RBAC模型失效,例如:

1.凭证(credential)的丢失或被盗取。[El Kalam et al., 2018]

2.来自内部的恶意威胁。[Fragkos et al., 2021]

3.错误的设置了RBAC的策略。[Fragkos et al., 2021]

上述的问题可能会使未经获得授权的人浏览到敏感的信息,或使信息遭到恶意破坏。

其中,RBAC的结构图如图1所示。

图1 RBAC模型的结构图

研究目的

因此,鉴于传统的RBAC在上述场景下存在缺陷,我们希望设计一种动态的RBAC模型,能够基于授权用户的行为属性,自动的对用户-角色的分配进行更新。

基于上述的需求,我们以智能电网为例,使用深度强化学习设计了一种动态的RBAC模型,从而应对凭证泄露后,来自内部已经得到授权的用户所带来的威胁。

拟采用方案

图片2展示了我们的混合RBAC模型的操作流程,当用户请求一个角色后,首先会检测其是否拥有角色(role),如果拥有角色的话,接下来就会使用DRL中的最优策略函数,对用户的可信度等级进行评估,从而决定是否对用户进行授权,给予其申请的角色。

图片2 动态RBAC混合模型流程图

其中,深度强化学习的状态空间,动作空间,奖励等设置问题将会在组会中进行详细的介绍。

2022-06-16 组会报告摘要-02

在上一次组会报告中,我对我的研究《A QoS-Aware Job Scheduling Framework for Applications in Clouds: DQN Based Reinforcement Learning Algorithm with Preemption
》进行了初步的介绍。目前该研究的相关实验已经基本完成,并且正在撰写论文,因此本次组会汇报将围绕我的研究内容以及写作分为三部分介绍,首先是对于文章背景,科研目的,公式以及框架等内容的回顾;其次是对于实验最终结果的汇报;最后会和大家分享一些最近写作的感想以及分享比较好用的写作网站。具体内容如下:

第一大部分

研究背景:

因此,随着云服务市场规模的不断扩大,越来越多的公司选择将自己的应用迁移到云服务平台上进行,然而,这同时也带来了相应的挑战,首先由于在云平台上加载的工作流的大小在不断的变化,对于云服务供应商而言难以去追踪每一个工作流的服务质量。其次,云服务供应商可以提供多种类型的虚拟机,例如高计算性能或高内存的虚拟机实例,并且每一个虚拟机实体的计算性能各不相同,与此同时,基于云服务平台的应用不仅需要执行用户所提交的任务,同时也需要满足用户对于该应用的服务质量要求。

科研目的:

因为云服务供应商无法提供类似的优化,因此我们希望设计基于深度强化学习的框架,能够让应用学会自己来进行实时任务的调度,并且能够满足用户的期望,即在用户所期待的最长执行之间之内完成任务。

与此同时,为了进一步提升任务执行的成功率,我们提出了一种抢占机制,并把这种抢占机制应用到了即将超过用户期待时间的任务中,从而进一步提高任务的成功率。

框架:

第二大部分实验结果:

首先是在不同任务到达率情况下任务的成功率以及任务的相应时间,其中肉色的bar代表我们自己的方法:

在不同任务到达率的情况下,不同任务调度方法的任务成功率
在不同任务到达率的情况下,不同任务调度方法的平均响应时间

其次是在任务类型(computing intensive/ I/O intensive)比例不同的情况下,不同任务调度方法的成功率与响应时间:

在不同任务类型比例的情况下,不同任务调度方法的任务成功率
在不同任务类型比例的情况下,不同任务调度方法的平均响应时间

在最终的第三部分,想和大家分享一下最近写文章的时候,通过自己的一些亲身体会,谈谈对于先写英文再翻译成中文与直接用英文写的差别,以及如何克服类似一用英文写文章就没有什么头绪等等的问题。

2022-01-13组会报告摘要-02

本次组会将会对我《A QoS-Aware Job Scheduling Framework for Applications in Clouds: DQN Based Deep Reinforcement Learning Algorithm with Preemption》研究计划进行一次详细的报告,具体内容如下:

科研背景与问题:

随着云服务市场规模的不断扩大,许多的IaaS供应商,利于亚马逊,微软等,已经能够为用户提供强大的计算与存储服务。而对于公司与个人用户而言,其能够越来越轻松的通过低成本的方式,租用这些IaaS供应商的服务,因此,越来越多的公司选择将自己的应用迁移到云服务平台上进行运作。在云环境中,基于云平台的应用的资源管理变得尤为的重要,尤其是如何高效地利用服务器的资源。

然而,这同时也带来了相应的挑战,其一是由于在云平台上加载的工作流的大小在不断的变化,对于云服务供应商而言难以去追踪每一个工作流的服务质量。其二,云服务供应商可以提供多种类型的虚拟机,例如高计算性能或高内存的虚拟机实例,并且每一个虚拟机实体的计算性能各不相同。其三,基于云服务平台的应用不仅需要执行用户所提交的任务,同时也需要满足用户对于该应用的服务质量要求。

科研目的与方法:

因此,基于上述的三个挑战,我们提出了一种基于深度强化学习的智能任务调度框架,致力于让处于云端的应用能够自动完成实时任务的调度,并且引入了用户最长等待时间作为评判任务是否成功执行的标准来代表云端应用的服务质量(Quality of Service, aka QoS)。具体框架如图1所示。

图1 基于DRL的云调度框架图

与此同时,为了进一步提升任务执行的成功率,我们提出了一种抢占机制,并把这种抢占机制应用到了即将超过用户期待时间的任务中。其中传统的DQN方法会在每次新的任务来临时将任务与VMs的状态空间送到DNN中,从而得出最佳结果,即该任务应该被调度到哪台VM上进行执行。而加入了抢占机制之后,在每次新任务来临时,每台VM的队列都会进行一次检查,使即将到达其最长等待时间的任务抢占该VM,从而在每一次通过DNN进行任务调度之前进行一次内部抢占检测,从而进一步提高任务的成功率。

个人思考与总结

将会与大家分享我的上一篇论文“Vector Autoregression for Predicting COVID-19 Confirmed Cases using Multiple Open Access Datasets: A case study in the UK”中,关于editor给我的拒信的相关内容,总结其中的一些经验教训。