本发明提供了一种基于强化学习的多模态大模型黑盒防御方法及装置,具有这样的特征,包括以下步骤:步骤S1,通过图像净化器对越狱图像进行净化生成净化图像,并通过文本净化器对越狱文本进行净化生成净化文本;步骤S2,将净化文本输入良性引导生成器生成引导文本;步骤S3,将净化文本和引导文本进行拼接,得到拼接文本;步骤S4,将拼接文本和净化图像一同输入多模态大模型,生成良性回复。总之,本方法能够提高多模态大模型对越狱攻击的防御能力,并对输入生成对应的良性回复。
复旦大学
马兴军 | 赵蕴涵 | 姜育刚
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日