2022-01-13组会报告摘要-01

本次组会将进行《基于深度强化学习的云实例成本感知作业调度》研究进展情况,其主要内容如下:

科研背景:云计算的广泛应用使得越来越多的企业选择将应用程序部署在云端,一般来说,云服务有私有云、公有云以及混合云三种,其中公有云为用户提供按需付费的服务,提供便利。因此,一个高效的面向云实例的智能作业调度框架,可以满足用户需求,降低作业执行成本,合理利用云计算资源。云作业调度框架如图1所示:

图1 云作业调度框架

科研问题:在云中,计算资源会随着工作负载的变化而进行动态变化,管理者跟踪资源的动态变化需要投入很大的代价,目前几乎所有的作业调度算法都是用来处理批作业的,对于用户提交的事务性作业请求,无法实时的进行作业调度,合理分配资源,满足用户的需求。

科研目的:提出一个基于深度强化学习的智能作业调度框架,在满足用户响应时间要求的基础上,优化作业的执行成本。在我们的作业调度框架中,我们使用DRL方法设置了一个智能体代理,实时的为用户提交的作业做出决策,并使用DQN算法来训练神经网络,帮助智能体更好地做出决策,作业调度框架如图所示:

图2 基于深度强化学习的智能作业调度框架

调度过程:在我们的方法中,作业调度分为两个过程,在线决策和离线训练。在线决策是智能体在作业到达时刻根据当时系统状态做出选择,决定作业在哪台虚拟机上进行处理。离线训练的过程是引导智能体做出更有选择的过程,利用DQN算法进行神经网络的训练,帮助智能体做出更好地选择。

下一步计划:目前提出的方法,每一个独立任务在虚拟机上执行的时候遵循的都是先来先服务式的策略,没有任何抢占机制。因此,在此基础上,我们打算引入作业的抢占机制,让我们的作业调度更加智能。