本发明涉及一种基于动态路由交互和混合图推理的视觉对话方法和设备,方法包括如下步骤:获取图像特征和文本特征,基于动态路由交互模块进行过滤‑提取‑对齐的跨模态交互,得到潜在对齐的跨模态特征;针对所述跨模态特征,基于混合图推理模块进行多步的历史对话语义关联推理,得到基于视觉引导的文本特征;将所述文本特征输入解码器中,通过推理得到视觉对话的答案。与现有技术相比,本发明能够充分挖掘语义依赖,具有协同表示能力强,多轮视觉对话更加精准、可靠等优点。
同济大学
王瀚漓 | 杜杉杉
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日