本发明提供一种基于多模态的深度学习预测方法、系统、介质及设备,所述基于多模态的深度学习预测方法包括:获取图像数据集,所述图像数据集包括至少两个模态的图像数据;将所述图像数据进行特征提取,以生成与每个模态对应的特征提取结果;结合预设的约束项对所述特征提取结果进行融合并分类预测。本发明设计了多模态的网络结构,对于每一个模态的图像,分别使用卷积神经网络进行特征提取,然后结合约束项在全连接层将这些特征进行融合,综合不同模态的特征信息,得到最终的分类结果。这样既保留了单个模态的信息特点又可以综合利用多模态的信息,提高了最终决策的可靠性。
