2022-04-28组会报告摘要-02

本次组会主要介绍《Preemptive Cost-aware Job Scheduling  for Hybrid Cloud using Deep Reinforcement Learning》的研究进展。

科研背景

  1. 云计算由于其低成本、高数据处理能力的优势受到了越来越多企业的青睐,很多企业选择把他们的数据迁移到云平台上。
  2. 为了适应企业对数据保密性的要求,云计算提供三种不同的服务模式:公有云、私有云和混合云,其中,混合云服务模式是一种融合公有云和私有云的个性化服务模式,企业将私密数据存储在私有云上,但在作业执行过程中借助公有云的计算资源来扩展计算能力,从而达到既节约成本又安全高效的目的。

科研问题

  1. 云平台提供的计算资源总是动态变化的,云服务提供商无法实时跟踪到这种变化来智能调度作业从而为使用者提供更高效的服务。
  2. 传统的调度算法大多面向批处理作业而不是实时作业调度,也更少人考虑混合云中的实时任务。
  3. 在云计算作业调度算法中,大多数都是非抢占式作业调度,没有考虑作业的优先级。

科研目的

本文中我们提出一种基于深度强化学习的混合云抢占式成本感知作业调度框架,用于在混合云中实时调度作业,有效利用计算资源,从而满足用户对作业响应时间的要求,降低执行成本。此外我们还在该框架中加入抢占机制,从而提高作业执行的成功率。

研究内容

图1所示为基于深度强化学习(DRL)的抢占式智能作业调度框架。在该框架中,我们使用DRL方法创建一个智能体代理来实时调度作业,做出合理决策。通过使用DQN算法来不断地训练神经网络,使智能体做出更好地决策,不断优化作业调度机制,从而降低使用者的成本。此外,为了提高作业执行的成功率,我们引入了最短剩余响应时间优先的抢占机制,根据不同作业的优先级合理分配资源,高效利用。

图1 基于深度强化学习的抢占式智能作业调度框架

实验结果

图2是加入抢占式机制前后,作业调度成功率的对比图,实验结果表明,加入抢占式机制的作业调度机制可以有效提高作业的执行成功率,但由于实验过程还存在一些问题,目前的提高效果不是很明显,还在继续优化实验结果。

图2 引入抢占式机制成功率的对比图

下一步研究计划

  1. 优化实验结果
  2. 同步开始论文写作(2022.5.20左右)