本发明提供了一种后处理对抗防御方法及系统,该方法包括:根据获取的深度神经网络模型中计算样本分类预测概率的原始输入logits向量,用于计算原始边缘损失;根据所述原始边缘损失,获取目标损失;根据所述原始输入logits向量,计算最大值对应类别的原始预测概率和目标校准预测概率;根据所述目标损失和所述目标校准预测概率,确定对抗防御logits向量,直接将其输出,即可达到防御效果。本发明能够在不降低模型识别精度的情况下,极大提升深度神经网络模型对基于分数黑盒查询攻击的抵御能力,提升深度神经网络模型的预测置信度。
