本发明涉及一种基于声纹特征的多人语音分离方法、设备及介质,该方法包括:S1:获取目标说话人的声纹特征Xref以及对混合音频采用短时傅里叶变换提取其频谱特征Xmix;S2:通过拼接混合音频的频谱特征Xmix与目标说话人的声纹特征Xref得到参考声纹特征的频谱特征X′mix,并将频谱特征X′mix输入到用于捕获低级别音频特征的扩张卷积层,得到语音分离模型的输入特征Xinput;S3:通过基于语音分离模型获取频谱掩膜,并将其与混合音频的频谱特征Xmix相乘,得到预测出的目标说话人的纯净音频的频谱;通过参考混合音频的相位谱并结合短时傅里叶逆变换,得到预测出的目标说话人在时域上的纯净音频。与现有技术相比,本发明具有语音分离精度高的优点。
同济大学
沈莹 | 程诗丹 | 周子怡 | 张林 | 赵生捷
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日