科研背景
云计算是一种通过网络向用户提供计算资源、平台、应用程序的分布式计算框架。其主要服务形式有:基础设施即服务(IaaS) 平台即服务(PaaS) 软件即服务(SaaS)。云计算能够根据用户的需求为用户提供各种配置类型的服务实例,这些服务实例具有按需服务,动态可拓展,性价比高的特点。云计算提供了一种更加灵活、低成本的应用服务构建模式,推动了人脸识别等需要大规模计算的智能服务的应用。
工作流是由一组之间具有数据或功能依赖的任务组成的作业,表示各种复杂计算过程。任务间复杂的依赖关系使工作流需要在云计算等分布式系统中通过并行执行提高计算效率。但在云环境中执行时,任务间的依赖关系导致的大量空隙时间将造成服务实例空闲,降低云计算的计算效率。目前研究少有针对实时工作流调度问题,而现有的相关研究普遍通过先验专家知识涉及动态规划算法,无法实现最优的工作流调度。
科研问题
1.工作流依赖关系导致的空隙时间使工作流在云环境中的执行效率低,增加虚拟机租赁成本。
2.云环境动态变化性质使工作流在云服务实例中的执行时间和数据传输时间具有不确定性。
3.实时工作流的结构,任务数量等具有不确定性,传统静态工作流调度方法无法直接应用,基于专家经验的启发式实时调度方法无法在动态不确定的云环境中实现最优调度。
科研目地
提出一种面向不确定云环境的实时云工作流调度方法,通过深度强化学习(DRL)智能体,将实时到达的具有截止时间期限的工作流调度到任务执行情况不确定的云环境中执行。具体来说,在每个工作流到达时,将子任务进行拆分,通过计算每个子任务的最晚开始时间和最晚结束时间确定子任务的响应时间范围,不断将无前置任务或前置任务执行结束的就绪任务通过DQN智能体调度到云虚拟机中执行,通过智能体不断离线学习调度经验,在虚拟机子任务执行时间和数据传输时间不确定的云环境中实现低响应时间、低成本的工作流调度。
研究框架
