作者归档:王跃

关于王跃

深度强化学习

2023-07-27组会摘要03

本次组会对近期的工作《基于深度强化学习的大规模云计算任务调度》的研究进度进行汇报,主要从科研背景、科研问题、科研目的以及研究进展这几方面来阐述。

科研背景

  1. 云计算:一种可以为用户按需提供计算资源的服务平台,拥有着高计算能力、低服务成本、高可伸缩性和可用性等优势。近年来,云服务吸引了很多终端用户包括企业、个人以及物联网应用等,他们都希望以低成本实现计算和功耗应用程序。
  2. 作业调度:在云计算中一个核心的研究问题就是作业调度问题,作业调度的好坏直接影响着云平台的服务质量。一个好的作业调度方法不仅能够为用户提供更好的服务质量,还能增大服务提供商的利润空间。

科研问题

随着云计算市场的快速发展,云服务平台在作业调度方面存在以下挑战:
1. 复杂的作业请求和高度动态变化的云环境给实时调度带来很大的挑战,很难找到一种最优的调度方法来保证最优的服务和最小的资源浪费。
2. 大规模云环境中,用户对服务的响应时间提出了更高的要求,总是希望在更短时间内得到响应,而传统单智能体在大规模环境中的响应效率较差。

科研目的

提出一种面向大规模复杂云环境的分层在线任务调度方法,使用深度强化学习(DRL)方法,通过分级分层的思想处理大规模的操作空间,优化决策质量。具体来说,我们将云环境分为集群和虚拟机两个层次,并在每一层专门设置不同的智能体学习决策。特定的智能体不仅比一个组合的大型智能体更快地调度任务,而且由于一个DQN只负责一个小环境中的操作,因此更能提高决策质量,快速响应用户请求,在保证用户响应时间的基础上,提高资源利用率,降低执行成本。

系统框架

图1 大规模云作业调度的整体框架

研究进展:补充实验完成多智能体在线分层调度算法,取得进一步的实验结果。

2023-05-25组会摘要02

本次组会对近期的研究工作《基于深度强化学习的大规模云计算任务调度》进行汇报,主要从科研背景、科研问题、科研目的以及研究进展这几方面来阐述。

科研背景

  1. 云计算:一种可以为用户按需提供计算资源的服务平台,拥有着高计算能力、低服务成本、高可伸缩性和可用性等优势。近年来,云服务吸引了很多终端用户包括企业、个人以及物联网应用等,他们都希望以低成本实现计算和功耗应用程序。
  2. 作业调度:在云计算中一个核心的研究问题就是作业调度问题,作业调度的好坏直接影响着云平台的服务质量。一个好的作业调度方法不仅能够为用户提供更好的服务质量,还能增大服务提供商的利润空间。

科研问题

随着云计算市场的快速发展,云服务平台在作业调度方面存在以下挑战:
1. 复杂的作业请求和高度动态变化的云环境给实时调度带来很大的挑战,很难找到一种最优的调度方法来保证最优的服务和最小的资源浪费。
2. 大规模云环境中,用户对服务的响应时间提出了更高的要求,总是希望在更短时间内得到响应,而传统单智能体在大规模环境中的响应效率较差。

科研目的

本次研究旨在提出一种面向大规模复杂云环境的分层在线任务调度方法,使用深度强化学习(DRL)方法,通过分级分层的思想处理大规模的操作空间,优化决策质量。具体来说,我们将云环境分为集群和虚拟机两个层次,并在每一层专门设置不同的智能体学习决策。特定的智能体不仅比一个组合的大型智能体更快地调度任务,而且由于一个DQN只负责一个小环境中的操作,因此更能提高决策质量,快速响应用户请求,在保证用户响应时间的基础上,提高资源利用率,降低执行成本。

研究内容

图1 大规模云作业调度的整体框架

研究进展

  1. 设计实验完成多智能体在线分层调度算法,取得初步实验结果。
  2. 根据实验结果调整数学模型。

2023-03-02 组会报告摘要03

本次组会汇报《基于深度强化学习的大规模云计算任务调度》的工作进展,主要从科研背景,科研问题,科研目的以及研究内容几个方面来阐述。

科研背景

  1. 云计算:一种可以为用户按需提供计算资源的服务平台,拥有着高计算能力、低服务成本、高可伸缩性和可用性等优势。近年来,云服务吸引了很多终端用户包括企业、个人以及物联网应用等,他们都希望以低成本实现计算和功耗应用程序。
  2. 作业调度:在云计算中一个核心的研究问题就是作业调度问题,作业调度的好坏直接影响着云平台的服务质量。一个好的作业调度方法不仅能够为用户提供更好的服务质量,还能增大服务提供商的利润空间。

科研问题

随着云计算市场的快速发展,云服务平台在作业调度方面存在以下挑战:
1. 高度动态变化的环境和多样繁杂的作业对作业调度器提出了更高的要求,需要不断自学习作业特性来满足用户的服务请求,因此很难找到一种最优的调度方法以保证最优的服务和最小的资源浪费。
2. 用户对服务的响应时间提出了更高的要求,总是希望在更短时间内得到响应,而传统单智能体在大规模环境中的响应效率较差。

科研目的

本次研究旨在提出一种面向大规模复杂云环境的分层在线任务调度方法,使用深度强化学习(DRL)方法,通过分级分层的思想处理大规模的操作空间,优化决策质量。具体来说,我们将云环境分为集群和虚拟机两个层次,并在每一层专门设置不同的智能体学习决策。特定的智能体不仅比一个组合的大型智能体更快地调度任务,而且由于一个DQN只负责一个小环境中的操作,因此更能提高决策质量,快速响应用户请求,在保证用户响应时间的基础上,提高资源利用率,降低执行成本。

研究内容

图1 大规模云作业调度的整体框架

具体调度过程

图2 分层多智能体的调度流程图

2022-12-01组会摘要02-王跃

本次汇报基于近期的背景调研,提出下一步工作的研究内容。下一步工作主要考虑在大规模云环境中,引入多智能体系统,解决任务调度问题。

科研背景

1. 云计算是一种计算服务,具有按需分配、可扩展、可靠和灵活等特性。他可以为企业的大数据提供可扩展的存储和处理,也可以简化企业管理和机器维护等工作,提高工作效率。因此,云计算成为了广大物联网制造商和供应商的首选。
2. 云计算中一个核心的研究问题就是作业调度问题。大规模云环境中,计算资源数量庞大,用户任务更加复杂,这对云管理员提出了很大的考验。如何以一种高效的调度方法处理大规模复杂任务的请求是一个非常值得研究的问题。

科研问题

1. 大规模云环境中任务数量庞大,计算资源多,云环境中的动态变化更加复杂,很难找到一种最佳的方法在虚拟化环境中高效地调度大数据任务,以保证最优的性能和最小的资源浪费。
2. 传统的深度强化学习使用单智能体来处理任务调度,但单智能体在大规模复杂环境中表现不优,学习效率较低。

科研目的

本次研究旨在提出一种面向大规模复杂云环境的任务调度方法,采用分层的思想,在大规模云环境中设置多个智能体协同调度,快速响应用户请求,在保证用户响应时间的基础上,提高资源利用率,保证服务性能。

研究方法——多智能体深度强化学习

多智能体是指在环境中设置多个智能体共同决策,适用于解决群体决策的问题。在多智能体系统中,智能体共分为竞争型、合作型、合作竞争型三种,可以实现系统均衡、合作等不同目标。多智能体强化学习框架如下所示。

多智能体强化学习框架

2022-09-08组会报告摘要02

本次组会将介绍新的研究工作进展情况。本次研究基于数字孪生技术背景下,研究用于无线网状网络的通信流控制的自适应DRL方法,并通过联邦学习技术实现不同地理位置模型的数据共享,优化全局模型。本次汇报主要介绍研究的第一部分《WMN中通信流控制的自适应DRL方法研究》。

科研背景

数字孪生简单来说就是对物理模型的仿真,这个仿真包括实质的动态的变化。数字孪生模型体内通过各种有线和无线网络与传感器连接来获取和传输数据,实现对物理模型的预测和优化。比如在一个城市中,数字孪生可以通过对互联系统进行虚拟复制,例如路灯、停车场、垃圾收集等,最终使地方当局和政府可以运行更顺畅、更高效、更智能的公共服务。
无线网状网络(WMN)是一种新型的网络连接技术,又称“多跳”网络。具有自配置、自适应以及成本效益高等特点,成为企业、社区以及物联网领域中通信网络的理想选择。

科研问题

通信流控制问题:尽管WMN可以动态配置路由,但随着底层网络结构特性的不断变化,网络通信性能会受到很严重的影响,很难找到最佳的流量控制策略来提高通信效率。目前已有人将DRL模型应用于WMN的通信流控制问题中,并训练了高效的模型。但是,目前已有的模型大都基于静态的网络结构,将预设好的属性特征值传送到DRL模型中,很难实现模型的最佳性能。

科研目的

提出一种用于WMN中通信流控制的自适应DRL方法,充分发挥WMN网络的自适应特性,为DRL模型提供更多的属性特征值,提高通信效率。

研究内容

  • 基于集群的WMN:划分集群是WMN中最常见的流量控制策略,每个集群会这是一个头结点用来接收子节点的数据并发送到sink节点中,实现数据通信。
图1 基于集群的WMN
  • WMN的自适应聚类:对于给定的网络拓扑结构,动态划分集群,有效的减少空闲或拥塞。
图2 减少拥塞
图3 减少空闲
  • 基于自适应DRL的通信流控制方法:设置两个模型,一个是DRL模型,另一个是WMN网络的自适应模型,通过DRL模型优化WMN簇之间的流控制,再使用自适应模型动态改变网络簇模式的方式相互调整两个模型,挖掘WMN网络自适应特性的同时,提高DRL模型的性能。
图4 基于自适应DRL的通信流控制框架

个人思考

不同地理位置分布着不同的WMN网络拓扑结构图,也就对应有不同的训练模型。对于不同地理位置的模型,我们需要在保护其数据隐私的基础上进行模型之间的参数整合,由中心服务器统一调度,共同提高每一个模型的性能。因此下一步,我们将使用联邦学习技术整合不同地理位置的模型,实现全局优化。

2022-07-14组会报告摘要-03

本次组会将对《A Deep Reinforcement Learning-based Preemptive Approach for Cost-aware Cloud Job Scheduling》的研究工作做总结报告,并分享工作过程中的个人思考和总结。

科研背景
1. 云计算是一种计算服务,具有按需分配、可扩展、可靠和灵活等特性。企业使用云平台不仅可以降低IT基础设施的部署成本,也可以简化企业管理和机器维护等工作,提高工作效率。因此,越来越多的企业选择使用云平台部署他们的应用程序,从而为用户提供服务。
2. 云计算中一个核心的研究问题就是作业调度问题。以一种高效的方式实时调度作业请求,不仅可以满足用户的需求,也能为服务提供商节省成本,提高效率。因此,如何以一种合理的方式将作业分配到虚拟机上执行是云计算中的重点研究问题。

科研问题
1.由于作业的高度动态性和复杂性,云服务商很难动态捕捉到实时变化,也就很难找到一种最佳的方式来分配作业。
2.基于DRL的作业调度算法可以解决实时调度问题,但是它只考虑了分配决策的问题,没有考虑到作业在虚拟机中的其他优化问题。

科研目的
我们提出了一个基于DRL的云抢占式成本感知作业调度框架,它不仅可以尽可能的满足用户的响应时间需求,实现实时作业调度,还能够通过抢占机制优化调度性能,提高作业执行成功率,并在此基础上降低虚拟机的执行成本。

研究框架

图1 基于DRL的云抢占式成本感知作业调度框架

实验结果
本次实验从不同作业平均到达率、不同作业类型占比和不同虚拟机类型占比三方面进行,实验指标为作业执行成功率、成本和平均响应时间,具体实验结果如下图:

图2 不同作业平均到达率下的实验结果
图3 不同作业类型比例下的实验结果
图4 不同虚拟机类型比例下的实验结果

个人思考与总结
本部分重点分享个人在论文写作方面的新的学习心得,通过文章对比找出逻辑漏洞,深入学习写作。

2022-04-28组会报告摘要-02

本次组会主要介绍《Preemptive Cost-aware Job Scheduling  for Hybrid Cloud using Deep Reinforcement Learning》的研究进展。

科研背景

  1. 云计算由于其低成本、高数据处理能力的优势受到了越来越多企业的青睐,很多企业选择把他们的数据迁移到云平台上。
  2. 为了适应企业对数据保密性的要求,云计算提供三种不同的服务模式:公有云、私有云和混合云,其中,混合云服务模式是一种融合公有云和私有云的个性化服务模式,企业将私密数据存储在私有云上,但在作业执行过程中借助公有云的计算资源来扩展计算能力,从而达到既节约成本又安全高效的目的。

科研问题

  1. 云平台提供的计算资源总是动态变化的,云服务提供商无法实时跟踪到这种变化来智能调度作业从而为使用者提供更高效的服务。
  2. 传统的调度算法大多面向批处理作业而不是实时作业调度,也更少人考虑混合云中的实时任务。
  3. 在云计算作业调度算法中,大多数都是非抢占式作业调度,没有考虑作业的优先级。

科研目的

本文中我们提出一种基于深度强化学习的混合云抢占式成本感知作业调度框架,用于在混合云中实时调度作业,有效利用计算资源,从而满足用户对作业响应时间的要求,降低执行成本。此外我们还在该框架中加入抢占机制,从而提高作业执行的成功率。

研究内容

图1所示为基于深度强化学习(DRL)的抢占式智能作业调度框架。在该框架中,我们使用DRL方法创建一个智能体代理来实时调度作业,做出合理决策。通过使用DQN算法来不断地训练神经网络,使智能体做出更好地决策,不断优化作业调度机制,从而降低使用者的成本。此外,为了提高作业执行的成功率,我们引入了最短剩余响应时间优先的抢占机制,根据不同作业的优先级合理分配资源,高效利用。

图1 基于深度强化学习的抢占式智能作业调度框架

实验结果

图2是加入抢占式机制前后,作业调度成功率的对比图,实验结果表明,加入抢占式机制的作业调度机制可以有效提高作业的执行成功率,但由于实验过程还存在一些问题,目前的提高效果不是很明显,还在继续优化实验结果。

图2 引入抢占式机制成功率的对比图

下一步研究计划

  1. 优化实验结果
  2. 同步开始论文写作(2022.5.20左右)

2022-01-13组会报告摘要-01

本次组会将进行《基于深度强化学习的云实例成本感知作业调度》研究进展情况,其主要内容如下:

科研背景:云计算的广泛应用使得越来越多的企业选择将应用程序部署在云端,一般来说,云服务有私有云、公有云以及混合云三种,其中公有云为用户提供按需付费的服务,提供便利。因此,一个高效的面向云实例的智能作业调度框架,可以满足用户需求,降低作业执行成本,合理利用云计算资源。云作业调度框架如图1所示:

图1 云作业调度框架

科研问题:在云中,计算资源会随着工作负载的变化而进行动态变化,管理者跟踪资源的动态变化需要投入很大的代价,目前几乎所有的作业调度算法都是用来处理批作业的,对于用户提交的事务性作业请求,无法实时的进行作业调度,合理分配资源,满足用户的需求。

科研目的:提出一个基于深度强化学习的智能作业调度框架,在满足用户响应时间要求的基础上,优化作业的执行成本。在我们的作业调度框架中,我们使用DRL方法设置了一个智能体代理,实时的为用户提交的作业做出决策,并使用DQN算法来训练神经网络,帮助智能体更好地做出决策,作业调度框架如图所示:

图2 基于深度强化学习的智能作业调度框架

调度过程:在我们的方法中,作业调度分为两个过程,在线决策和离线训练。在线决策是智能体在作业到达时刻根据当时系统状态做出选择,决定作业在哪台虚拟机上进行处理。离线训练的过程是引导智能体做出更有选择的过程,利用DQN算法进行神经网络的训练,帮助智能体做出更好地选择。

下一步计划:目前提出的方法,每一个独立任务在虚拟机上执行的时候遵循的都是先来先服务式的策略,没有任何抢占机制。因此,在此基础上,我们打算引入作业的抢占机制,让我们的作业调度更加智能。