乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

基于动态路由交互和混合图推理的视觉对话方法和设备

本发明涉及一种基于动态路由交互和混合图推理的视觉对话方法和设备,方法包括如下步骤:获取图像特征和文本特征,基于动态路由交互模块进行过滤‑提取‑对齐的跨模态交互,得到潜在对齐的跨模态特征;针对所述跨模态特征,基于混合图推理模块进行多步的历史对话语义关联推理,得到基于视觉引导的文本特征;将所述文本特征输入解码器中,通过推理得到视觉对话的答案。与现有技术相比,本发明能够充分挖掘语义依赖,具有协同表示能力强,多轮视觉对话更加精准、可靠等优点。
同济大学
王瀚漓 | 杜杉杉

More Posts

Send Us A Message