2022-01-13组会报告摘要-02

本次组会将会对我《A QoS-Aware Job Scheduling Framework for Applications in Clouds: DQN Based Deep Reinforcement Learning Algorithm with Preemption》研究计划进行一次详细的报告,具体内容如下:

科研背景与问题:

随着云服务市场规模的不断扩大,许多的IaaS供应商,利于亚马逊,微软等,已经能够为用户提供强大的计算与存储服务。而对于公司与个人用户而言,其能够越来越轻松的通过低成本的方式,租用这些IaaS供应商的服务,因此,越来越多的公司选择将自己的应用迁移到云服务平台上进行运作。在云环境中,基于云平台的应用的资源管理变得尤为的重要,尤其是如何高效地利用服务器的资源。

然而,这同时也带来了相应的挑战,其一是由于在云平台上加载的工作流的大小在不断的变化,对于云服务供应商而言难以去追踪每一个工作流的服务质量。其二,云服务供应商可以提供多种类型的虚拟机,例如高计算性能或高内存的虚拟机实例,并且每一个虚拟机实体的计算性能各不相同。其三,基于云服务平台的应用不仅需要执行用户所提交的任务,同时也需要满足用户对于该应用的服务质量要求。

科研目的与方法:

因此,基于上述的三个挑战,我们提出了一种基于深度强化学习的智能任务调度框架,致力于让处于云端的应用能够自动完成实时任务的调度,并且引入了用户最长等待时间作为评判任务是否成功执行的标准来代表云端应用的服务质量(Quality of Service, aka QoS)。具体框架如图1所示。

图1 基于DRL的云调度框架图

与此同时,为了进一步提升任务执行的成功率,我们提出了一种抢占机制,并把这种抢占机制应用到了即将超过用户期待时间的任务中。其中传统的DQN方法会在每次新的任务来临时将任务与VMs的状态空间送到DNN中,从而得出最佳结果,即该任务应该被调度到哪台VM上进行执行。而加入了抢占机制之后,在每次新任务来临时,每台VM的队列都会进行一次检查,使即将到达其最长等待时间的任务抢占该VM,从而在每一次通过DNN进行任务调度之前进行一次内部抢占检测,从而进一步提高任务的成功率。

个人思考与总结

将会与大家分享我的上一篇论文“Vector Autoregression for Predicting COVID-19 Confirmed Cases using Multiple Open Access Datasets: A case study in the UK”中,关于editor给我的拒信的相关内容,总结其中的一些经验教训。