一种面向GPU集群的深度学习训练任务调度系统,包括:离线性能刻画模块和在线任务调度部署模块,离线性能刻画模块分别预测不同训练任务的相似度以确定新提交任务的待采集硬件指标集以及两个训练任务混合部署后产生的性能下降程度,即性能干扰度,并离线采集训练任务在独占GPU模式下不同批大小的计算时间以拟合得到其批大小‑计算时间关系;在线任务调度部署模块从任务队列中取出待调度任务并根据批大小‑计算时间关系以及性能干扰度生成待调度任务的GPU亲和性和批大小分布策略,根据用户提交的训练任务及用户指定的GPU数量分为其分配合适的GPU,即混合部署后性能干扰最小的GPU以最小化平均作业完成时间并提高集群资源利用率,彻底解决GPU集群中,对于部分训练任务无法单独充分利用GPU资源和需要遵守组调度原则的条件下,最大化系统整体吞吐并提高集群资源利用率的问题。
