本发明公开了一种无监督视频摘要模型,涉及计算机视觉方向的视频处理领域,所述模型包括条件特征选择模块,帧级自注意力模块和条件生成对抗网络模块,其中,所述条件特征选择模块选取输出视频中较重要的帧特征引导所述条件生成对抗网络模块训练,使其可以更多的关注此区域特征;所述帧级自注意力模块可以获取视频中帧与帧的长时依赖,使模型可以更好的学习到全局特征,尽可能避免去掉视觉上相似但具有一定时间距离的帧;所述条件生成对抗网络模块,包含生成器和鉴别器,可实现无监督学习,不需任何人工标定数据,克服原有方法的信息损失、部分网络需要预训练、模型复杂等问题,可实现端到端训练,提升视频摘要性能。
上海交通大学
马汝辉 | 何旭峰 | 华扬 | 宋涛 | 管海兵
