2023-03-09组会报告摘要01

本次汇报对基于深度强化学习的高效云工作流调度研究的研究进展进行介绍,主要从科研背景、科研问题、科研目的、研究进展几个方面展开。

科研背景
云计算是一种采用虚拟化技术通过网络为用户提供各类计算资源,平台化服务,应用程序服务的一种分布式计算服务框架,能够根据用户的需求为用户提供各种配置类型的服务实例,这些服务实例具有按需服务,动态伸缩,成本低的特点,使越来越多领域的应用程序,特别是需要大规模计算的应用,如天气预报、地震预测等正在迁移至云环境,这些应用程序通常一系列数据依赖的任务组成,也就是工作流。
工作流是由一组之间具有数据或功能依赖的任务组成的作业,在云环境中执行时,由于工作流中的任务必须等待前置任务的完成才能执行,不可避免的造成了大量的空隙时间,导致服务实例的空闲,降低了云环境的处理效率。过往研究大多仍集中于云中单个或多个工作流的静态规划,并且没有考虑任务在实例中执行时间的不确定性。同时,对于实时工作流调度的研究还很少,并且集中于使用基于先验专家知识设计的调度算法,在动态、复杂、多样的云环境中存在局限性。

科研问题
1.受依赖关系限制,工作流在云环境中的执行效率低。
2.受云环境动态变化性质的影响,工作流任务在云服务实例中的执行时间和数据传输时间具有不确定性。
3.实时工作流的结构,任务数量等具有不确定性,传统静态工作流调度方法无法直接应用,基于专家经验的启发式实时调度方法无法在动态不确定的云环境中实现最优调度。

科研目地
提出一种面向不确定云环境的实时云工作流在线调度方法,通过深度强化学习(DRL)智能体,将实时到达的具有截止时间期限的工作流在线调度到任务执行情况不确定的云环境中执行。具体来说,在每个工作流到达时,将子任务进行拆分,通过计算每个子任务的最晚开始时间和最晚结束时间确定子任务的响应时间范围,不断将无前置任务或前置任务执行结束的就绪任务通过DQN智能体调度到云虚拟机中执行,通过智能体不断离线学习调度经验,在虚拟机子任务执行时间和数据传输时间不确定的云环境中实现满足工作流截止时间期限约束下低成本的工作流调度。

研究内容