作者归档:张敬伟

2023-07-20组会摘要02

科研背景
云计算是一种通过网络向用户提供计算资源、平台、应用程序的分布式计算框架,是一种可以为用户提供一种按需使用、无处不在、便捷的共享计算资源,这些计算资源包括但不限于网络,服务器,存储,应用程序和服务。同时这些计算资源可以快速扩展和释放,使用户的管理成本大大降低。根据提供服务的不同,云计算的服务形式可以分为基础设施及服务,平台及服务,软件及服务三种类型。在基础设施即服务这种服务形式中,云服务供应商,比如亚马逊EC2,阿里云,他们通过虚拟机化技术为用户提供了具有不同配置多种类型的服务实例。用户可以根据自身需求自由的选择服务实例,并且可以根据需求变化对服务实例进行弹性拓展和释放,减少了计算资源的浪费,相比于传统计算环境具有更高的性价比。
工作流的定义是业务过程的部分或整体在计算机应用环境下的自动化,是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。通俗的将,工作流是一组具有数据或功能依赖的任务组成的作业,根据应用场景可以分为将业务过程抽象成任务自动化完成的计算模型的业务工作流,主要存在于自动化办公这类事务密集型场所;有数据依赖性的复杂的科学数据处理活动的集合科学工作流,主要用于地震预测,图像识别这类计算密集型场景。近几年科学工作流已经由小规模、单一领域、单一组织发展成为大规模多学科交叉的科学计算问题,计算量更加庞大且性能要求高,开始普遍使用云计算支持其处理过程。

科研问题
1.工作流内部任务间的依赖关系使其调度是NP-hard问题,调度需要考虑子任务的执行顺序和计算实例。
2.云计算的动态性、异构性、扩展性使云计算环境下的工作流调度问题成为NP-complete问题,云服务实例类型不同、可动态租赁和释放、计算和数据传输性能动态变化影响调度算法性能。
3.实时调度需要满足截止时间约束、成本、能耗等特定的服务质量要求。

科研目地
针对云环境的动态性、异构型、扩展性等特性,提出一种面向不确定云环境的实时云工作流调度方法,通过深度强化学习(DRL)智能体,将实时到达的具有截止时间期限的工作流调度到任务执行情况不确定的云环境中执行。具体来说,在每个工作流到达时,根据工作流结构特征将子任务进行拆分为可直接调度执行的就绪任务和需要等待前置任务完成的等待任务,并为每个子任务分配子截至时间约束,不断将就绪任务通过DQN智能体调度到云虚拟机中执行,并根据任务执行情况更新未调度任务的子截至时间约束,通过智能体不断离线学习调度经验,在虚拟机子任务执行时间和数据传输时间不确定的云环境中实现低响应时间、低成本的工作流调度。

研究框架

2023-06-08组会摘要03

科研背景
云计算是一种通过网络向用户提供计算资源、平台、应用程序的分布式计算框架。其主要服务形式有:基础设施即服务(IaaS)  平台即服务(PaaS)  软件即服务(SaaS)。云计算能够根据用户的需求为用户提供各种配置类型的服务实例,这些服务实例具有按需服务,动态可拓展,性价比高的特点。云计算提供了一种更加灵活、低成本的应用服务构建模式,推动了人脸识别等需要大规模计算的智能服务的应用。
工作流是由一组之间具有数据或功能依赖的任务组成的作业,表示各种复杂计算过程。任务间复杂的依赖关系使工作流需要在云计算等分布式系统中通过并行执行提高计算效率。但在云环境中执行时,任务间的依赖关系导致的大量空隙时间将造成服务实例空闲,降低云计算的计算效率。目前研究少有针对实时工作流调度问题,而现有的相关研究普遍通过先验专家知识涉及动态规划算法,无法实现最优的工作流调度。

科研问题
1.工作流依赖关系导致的空隙时间使工作流在云环境中的执行效率低,增加虚拟机租赁成本。
2.云环境动态变化性质使工作流在云服务实例中的执行时间和数据传输时间具有不确定性。
3.实时工作流的结构,任务数量等具有不确定性,传统静态工作流调度方法无法直接应用,基于专家经验的启发式实时调度方法无法在动态不确定的云环境中实现最优调度。

科研目地
提出一种面向不确定云环境的实时云工作流调度方法,通过深度强化学习(DRL)智能体,将实时到达的具有截止时间期限的工作流调度到任务执行情况不确定的云环境中执行。具体来说,在每个工作流到达时,将子任务进行拆分,通过计算每个子任务的最晚开始时间和最晚结束时间确定子任务的响应时间范围,不断将无前置任务或前置任务执行结束的就绪任务通过DQN智能体调度到云虚拟机中执行,通过智能体不断离线学习调度经验,在虚拟机子任务执行时间和数据传输时间不确定的云环境中实现低响应时间、低成本的工作流调度。

研究框架

2023-03-09组会报告摘要01

本次汇报对基于深度强化学习的高效云工作流调度研究的研究进展进行介绍,主要从科研背景、科研问题、科研目的、研究进展几个方面展开。

科研背景
云计算是一种采用虚拟化技术通过网络为用户提供各类计算资源,平台化服务,应用程序服务的一种分布式计算服务框架,能够根据用户的需求为用户提供各种配置类型的服务实例,这些服务实例具有按需服务,动态伸缩,成本低的特点,使越来越多领域的应用程序,特别是需要大规模计算的应用,如天气预报、地震预测等正在迁移至云环境,这些应用程序通常一系列数据依赖的任务组成,也就是工作流。
工作流是由一组之间具有数据或功能依赖的任务组成的作业,在云环境中执行时,由于工作流中的任务必须等待前置任务的完成才能执行,不可避免的造成了大量的空隙时间,导致服务实例的空闲,降低了云环境的处理效率。过往研究大多仍集中于云中单个或多个工作流的静态规划,并且没有考虑任务在实例中执行时间的不确定性。同时,对于实时工作流调度的研究还很少,并且集中于使用基于先验专家知识设计的调度算法,在动态、复杂、多样的云环境中存在局限性。

科研问题
1.受依赖关系限制,工作流在云环境中的执行效率低。
2.受云环境动态变化性质的影响,工作流任务在云服务实例中的执行时间和数据传输时间具有不确定性。
3.实时工作流的结构,任务数量等具有不确定性,传统静态工作流调度方法无法直接应用,基于专家经验的启发式实时调度方法无法在动态不确定的云环境中实现最优调度。

科研目地
提出一种面向不确定云环境的实时云工作流在线调度方法,通过深度强化学习(DRL)智能体,将实时到达的具有截止时间期限的工作流在线调度到任务执行情况不确定的云环境中执行。具体来说,在每个工作流到达时,将子任务进行拆分,通过计算每个子任务的最晚开始时间和最晚结束时间确定子任务的响应时间范围,不断将无前置任务或前置任务执行结束的就绪任务通过DQN智能体调度到云虚拟机中执行,通过智能体不断离线学习调度经验,在虚拟机子任务执行时间和数据传输时间不确定的云环境中实现满足工作流截止时间期限约束下低成本的工作流调度。

研究内容

2022-12-08组会摘要03

基于深度强化学习的高效云工作流调度研究

本次汇报对基于深度强化学习的高效云工作流调度研究的研究内容进行总结介绍,并提出下一步研究思路。

科研背景:
随着各行业自动化和流程化改革的不断发展,工作流普遍应用于各类应用程序当中,由多个具有依赖关系任务组成的工作流的调度问题一直以来是分布式系统领域的重要问题。
近年来,能够提供多样化的在线计算、存储、应用等服务的云计算,因其低成本和弹性拓展的性质成为各类应用程序构建基础服务架构的最受欢迎的选择之一。然而,在影响因素更多,资源类型设置更复杂的云计算环境中,工作流调度变得更加困难,成为影响云计算服务质量和应用用户服务质量要求的关键问题。

科研问题:
工作流由于复杂结构和依赖关系,难以直接进行调度运行。同时,在动态变化的云环境中很难通过传统方法为工作流分配计算资源,实现工作流的高效执行。

科研目的:
本次研究旨在提出一种工作流高效调度框架,通过设计一种动态任务选择方法,对工作流任务进行拆分,结合深度强化学习DQN算法,实现在云环境中,对工作流进行高效并行执行,提升工作流执行效率并降低工作流执行成本。

研究思路:
设计一个两层工作流调度框架,第一层通过从不断变化的可执行任务中动态选择一个任务(元启发式或DQN算法),第二层通过DQN算法为选择的任务选择最优虚拟机进行执行,最小化该任务的执行时间和成本,实现高效云工作流调度。

2022-8-18 组会报告摘要-01

本次组会将会介绍关于基于深度强化学习和遗传算法的成本感知云工作流实时调度研究进度,主要内容如下:

科研背景:
工作流是由多个具有依赖关系的任务组成的流程化任务,普遍存在于工业(事务密集型工作流,如商务流程)和科学研究(数据与计算密集型科学工作流,如地震数据分析流程)领域。其多任务的特点使得工作流常在分布式系统中进行调度。
云计算在虚拟化技术的推动下,其服务性能不断提升,功能不断完善,所提供的强大且低成本共享式存储资源和计算资源成为各类应用程序构建基础服务架构最受欢迎的选择之一。与实体环境和传统分布式系统不同,云计算提供的计算服务具有弹性拓展的特性,其服务质量受网络,负载等多因素影响,使得云计算环境更加复杂。
工作流复杂的结构和依赖关系使其很难进行高效调度。在以往对工作流任务在分布式系统的调度研究中,多将工作流任务建模为有向无环图采用启发式和元启发式技术优化调度。但在云计算环境下,工作负载的不确定性和云环境的多变性使得以往启发式和元启发式方法无法在云中对工作流实现高效实时调度。同时,云环境下的调度往往需要考虑多种优化目标,如用户服务质量,虚拟机成本等,基于启发式的技术优化目标单一,元启发式技术对多目标优化的时间和计算成本过高。因此,云环境下的工作流调度必须寻找能够适应云环境动态变化的方法,以实现高效调度。

科研问题:
在动态多变的云环境中,如何对具有复杂结构的工作流实现高效实时的调度。

科研目的:
通过使用遗传算法计算工作流在虚拟机中的执行顺序,简化工作流结构,帮助构建基于深度强化学习工作流调度模型,该模型能够感知虚拟机成本,优化工作流响应时间和执行成本,实现对复杂的工作流实时,高效的调度。

研究框架:


2022-06-22组会报告摘要-01

本次组会将会介绍关于基于深度强化学习的工作流任务云调度研究进度并对未来研究进行展望,主要内容如下

科研背景
虚拟化技术推动了云计算的飞速发展。云计算为用户提供了提供了强大且低成本的计算和存储资源和各种平台化服务和优化功能,使得云服务逐渐成为搭建应用程序的主流选择之一。
随着越来越多的应用选择云环境,云服务面临的服务环境愈发复杂,不断增加的任务种类对云服务的服务质量要求不断提高,实现高效的资源管理成为云服务发展的主要方向之一,其中,任务调度优化对于提高资源利用率,降低服务成本,满足用户要求等方面具有关键作用。

科研问题:
如何实现云环境下对复杂任务的实时,高效,提供满足用户QoS要求的调度。

科研目的:
我们以工作流任务为研究对象,对于应用程序用户实时发出工作流任务请求,通过使用遗传算法和深度强化学习,优化任务响应时间和执行成本,实现在动态变化的云环境下高效的工作流任务调度。

研究框架

实验结果:

2022-5-26 组会报告摘要-03

本次组会将会介绍关于基于深度强化学习的工作流任务云调度研究进度,主要内容如下

科研背景
近年来,云计算技术迅速发展,云服务供应商除了为用户提供强大的计算和存储资源,越来越多的功能如负载平衡,自动拓展等功能为应用开发提供了强有力的支持,使得云服务逐渐成为搭建应用程序的主流选择之一。随着越来越多的应用选择云环境,云服务调度的任务种类愈发复杂,同时,各类在线服务应用对云环境高效实时的任务调度需求不断增加。

科研问题:
如何实现云环境下对复杂任务的实时,高效,提供满足用户QoS要求的调度。

科研目的:
使用遗传算法和深度强化学习,通过遗传算法对workflow任务在虚拟机中子任务执行顺序的预处理,深度强化学习Q-learning算法进行智能调度,实现对workflow任务实时调度,并尽可能降低任务响应时间和虚拟机成本满足QoS要求。

整体框架: