一种针对人工智能模型的后门攻击防御系统,包括:模型预检测模块和实时防御模块,其中:模型预检测模块扫描待测图像分类模型中:是否对本地文件进行读取或修改的操作行为以及每一层输出的数据,以判断该模型是否包含后门;实时防御模块通过对含有触发器的图片进行添加滤镜,使得图像分类模型中的后门无效。本发明能够应用于图像分类,图像识别领域的模型,对模型加强防御进而提升深度学习领域的安全性能。