2023-03-02 组会报告摘要03

本次组会汇报《基于深度强化学习的大规模云计算任务调度》的工作进展,主要从科研背景,科研问题,科研目的以及研究内容几个方面来阐述。

科研背景

  1. 云计算:一种可以为用户按需提供计算资源的服务平台,拥有着高计算能力、低服务成本、高可伸缩性和可用性等优势。近年来,云服务吸引了很多终端用户包括企业、个人以及物联网应用等,他们都希望以低成本实现计算和功耗应用程序。
  2. 作业调度:在云计算中一个核心的研究问题就是作业调度问题,作业调度的好坏直接影响着云平台的服务质量。一个好的作业调度方法不仅能够为用户提供更好的服务质量,还能增大服务提供商的利润空间。

科研问题

随着云计算市场的快速发展,云服务平台在作业调度方面存在以下挑战:
1. 高度动态变化的环境和多样繁杂的作业对作业调度器提出了更高的要求,需要不断自学习作业特性来满足用户的服务请求,因此很难找到一种最优的调度方法以保证最优的服务和最小的资源浪费。
2. 用户对服务的响应时间提出了更高的要求,总是希望在更短时间内得到响应,而传统单智能体在大规模环境中的响应效率较差。

科研目的

本次研究旨在提出一种面向大规模复杂云环境的分层在线任务调度方法,使用深度强化学习(DRL)方法,通过分级分层的思想处理大规模的操作空间,优化决策质量。具体来说,我们将云环境分为集群和虚拟机两个层次,并在每一层专门设置不同的智能体学习决策。特定的智能体不仅比一个组合的大型智能体更快地调度任务,而且由于一个DQN只负责一个小环境中的操作,因此更能提高决策质量,快速响应用户请求,在保证用户响应时间的基础上,提高资源利用率,降低执行成本。

研究内容

图1 大规模云作业调度的整体框架

具体调度过程

图2 分层多智能体的调度流程图