本发明公开了一种软硬件结合的视觉深度学习模型推理加速方法,包括:S1、根据视觉任务,训练原始深度学习模型;S2、针对所有网络层,利用权值大小挑选不重要的滤波器;S3、移除当前层不重要滤波器,判断剪枝前后模型精度;S4、进行判断模型精度下降是否明显;S5、机型判断是否所有层处理完毕;S6、进行全局优化网络,计算模型精度;S7、模型部署TensorRT&多线程处理。根据本发明,能够运用在任何需要部署到边缘设备的视觉深度学习模型中,在基本保持模型推理精度的同时,有效提升模型的推理速度。