2023-05-25组会摘要02

本次组会对近期的研究工作《基于深度强化学习的大规模云计算任务调度》进行汇报,主要从科研背景、科研问题、科研目的以及研究进展这几方面来阐述。

科研背景

  1. 云计算:一种可以为用户按需提供计算资源的服务平台,拥有着高计算能力、低服务成本、高可伸缩性和可用性等优势。近年来,云服务吸引了很多终端用户包括企业、个人以及物联网应用等,他们都希望以低成本实现计算和功耗应用程序。
  2. 作业调度:在云计算中一个核心的研究问题就是作业调度问题,作业调度的好坏直接影响着云平台的服务质量。一个好的作业调度方法不仅能够为用户提供更好的服务质量,还能增大服务提供商的利润空间。

科研问题

随着云计算市场的快速发展,云服务平台在作业调度方面存在以下挑战:
1. 复杂的作业请求和高度动态变化的云环境给实时调度带来很大的挑战,很难找到一种最优的调度方法来保证最优的服务和最小的资源浪费。
2. 大规模云环境中,用户对服务的响应时间提出了更高的要求,总是希望在更短时间内得到响应,而传统单智能体在大规模环境中的响应效率较差。

科研目的

本次研究旨在提出一种面向大规模复杂云环境的分层在线任务调度方法,使用深度强化学习(DRL)方法,通过分级分层的思想处理大规模的操作空间,优化决策质量。具体来说,我们将云环境分为集群和虚拟机两个层次,并在每一层专门设置不同的智能体学习决策。特定的智能体不仅比一个组合的大型智能体更快地调度任务,而且由于一个DQN只负责一个小环境中的操作,因此更能提高决策质量,快速响应用户请求,在保证用户响应时间的基础上,提高资源利用率,降低执行成本。

研究内容

图1 大规模云作业调度的整体框架

研究进展

  1. 设计实验完成多智能体在线分层调度算法,取得初步实验结果。
  2. 根据实验结果调整数学模型。