乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

国家技术转移东部中心

乐清市人民政府

智能电气

音频定位模型的训练方法、设备、存储介质及程序产品

本申请公开音频定位模型的训练方法、设备、存储介质及程序产品，涉及音频处理技术领域，该方法包括：获取音频‑字幕样本，该音频‑字幕样本包含在时间轴对齐的音频片段和字幕片段；基于音频‑字幕样本和对比损失函数，对音频定位模型进行CLAP训练；基于音频适配器提取所述音频片段的帧级音频特征；计算各帧的帧级音频特征和相应的短语嵌入之间的帧级音频‑短语相似度；根据各帧所对应的帧级音频‑短语相似度和声音事件标签，对音频定位模型进行声音事件分类训练，声音事件标签用于指示音频帧是否与短语嵌入所描述的真实声音事件相匹配。由此，显著提升了音频定位模型在帧级音频理解任务中的性能表现。
上海交通大学
陈谐 | 李希泉

More Posts

新闻资讯|OUR创新生态联盟体项目路演活动圆满举办 ——聚焦智能电气与新能源技术转化

2025年11月29日

“规则的天空”：中国低空空域管理与安全体系演进趋势研究

2025年11月10日

新闻资讯 | 乐清市科学技术局-国家技术转移东部中心海外项目路演线上专场-中白科技创新对接会

2025年9月24日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办

2023年11月24日

Send Us A Message