本发明公开了一种基于Transformer‑ESIM注意力机制的多模态情绪识别方法,包括:对原始数据进行预处理,以获得语音序列和文本序列;将预处理后的语音序列和文本序列输入至transformer编码层,以在transformer编码层提取深层特征并进行编码,获得编码序列;将编码序列输入至ESIM的交互注意力层,获得语音序列和文本序列之间的相似特征和差异特征;对相似特征和差异特征进行池化处理;将池化处理后的相似特征和差异特征输入至分类器,获得情绪识别的分类结果。应用本发明实施例,解决了传统神经网络的长期依赖性,其自身顺序属性无法捕获长距离特征以及多模态特征直接融合而忽视的模态间交互的问题,提高模型对情感语义的理解和泛化能力。
