乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

基于外部知识增强和语义一致的视觉对话方法和设备

本发明涉及一种基于外部知识增强和语义一致的视觉对话方法和设备,方法包括:根据获取的图像、历史对话文本和当前问题文本,通过提取域内视觉对象间的关联关系和域内文本词汇间的关联关系构建多模态场景图,通过提取常识知识三元组构建常识知识库;基于常识知识库,对多模态场景图进行扩展并进行关系增强学习,得到关联增强节点的特征;利用预训练的大语言模型获取实例级表征,基于关联增强节点的特征得到文本常识级表征,针对实例级表征和常识级表征进行特征融合,得到全局的融合特征;基于融合特征,通过推理得到视觉对话的答案。本发明能够细致挖掘语义关联,使得多轮视觉对话在精准度、丰富性和全面性方面均有显著提升。
同济大学
王瀚漓 | 杜杉杉

More Posts

Send Us A Message