乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

一种基于双重语义理解与融合的视觉语言导航方法

本发明涉及一种基于双重语义理解与融合的视觉语言导航方法,包括以下步骤:获取引导性指令和视觉观察图像;分别提取视觉观察图像的图像特征和图像中的物品特征;基于自然语言编码网络提取引导性指令长文本特征,并基于专家经验规则提取引导性关键词文本特征;获取基于物品级别的图像增强特征与基于引导性关键词的文本增强特征,得到双重语义增强后的视觉和语言特征,并将输入到视觉‑语言交叉融合模块以获取跨模态融合特征;基于跨模态融合特征,使用动作预测子网络模块输出导航位置预测结果,控制机器人向预测的导航位置方向前进,并更新对应的视觉观察图像。与现有技术相比,本发明具有动作预测准确性高、可解释性强等优点。
同济大学
陈启军 | 王柳懿 | 刘成菊 | 何宗涛 | 党荣浩

More Posts

Send Us A Message