本发明提供了一种基于服务质量需求的深度学习任务资源优化配置方法及系统,包括:基于深度学习任务模型的本质特征,建立参数服务器资源峰值需求预测模型和工作节点资源峰值需求预测模型;根据参数服务器资源峰值和工作节点资源峰值需求建立深度学习任务迭代时间预测模型;预设最大迭代次数,根据预测的深度学习任务迭代时间,得到基于预测的资源峰值配置下运行1台参数服务器和1台工作节点的任务结束时间;根据预设服务质量要求,预测任务在截止日期前完成所需的工作节点数量和参数服务器数量;在深度学习任务调度执行时,定量估计集群可用资源状况,并根据可用资源状况对预测任务在截止日期前完成所需的工作节点数量和参数服务器数量进行微调。
