乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

基于多模态知识图谱的语音自适应补全系统

一种基于多模态知识图谱的语音自适应补全系统,包括:数据接收器、数据分析器和数据推理器,其中:数据接收器根据接收的音视频数据,进行预处理并输出至数据分析器;数据分析器对语音和图像的分析提取出波形时序特征和唇部轨迹特征,经多模态联合表征得到音素序列;数据推理器根据历史文本,进行领域会话建模和候选文本预测,结合音素序列进行文本推理,得到具有语义的语句,并根据波形特征合成补全的语音。本发明通过音素推理模型,在语音模态缺失时进行音素识别的同时,根据多模态知识图谱中实体间的语义关系对已有语音所产生的历史文本进行领域会话建模,从而推理并生成具有语义的文本,结合用户语音的波形特征对语音进行合成,形成补全后的音频。
上海交通大学
蔡鸿明 | 李琥 | 于晗 | 姜丽红

More Posts

Send Us A Message