本申请公开音频定位模型的训练方法、设备、存储介质及程序产品,涉及音频处理技术领域,该方法包括:获取音频‑字幕样本,该音频‑字幕样本包含在时间轴对齐的音频片段和字幕片段;基于音频‑字幕样本和对比损失函数,对音频定位模型进行CLAP训练;基于音频适配器提取所述音频片段的帧级音频特征;计算各帧的帧级音频特征和相应的短语嵌入之间的帧级音频‑短语相似度;根据各帧所对应的帧级音频‑短语相似度和声音事件标签,对音频定位模型进行声音事件分类训练,声音事件标签用于指示音频帧是否与短语嵌入所描述的真实声音事件相匹配。由此,显著提升了音频定位模型在帧级音频理解任务中的性能表现。
上海交通大学
陈谐 | 李希泉
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日