本发明公开一种文本数据的描述符识别方法、装置及介质。所述方法包括:将文本数据分隔成至少一个句子序列,并将各个句子序列分隔成单独的标记,基于预设的实体标签,对各个标记进行标注,所述预设的实体标签用于定义描述符;随机掩码所述句子序列中的部分单词,并通过学习到的上下文语义关系预测被掩码的单词,以实现对文本数据的增强;基于增强后的文本数据对识别模型进行训练,利用训练好的识别模型通过对文本数据的描述符进行识别,进而筛选出性能驱动的高质量描述符。本发明不仅可以从粗粒度和细粒度两方面从材料科学文献种自动抽取描述符,还可以将领域知识嵌入描述符识别方法中,使得本发明能够根据使用者需要筛选高质量描述符。
上海大学
刘悦 | 葛献远 | 杨正伟 | 孙拾雨 | 施思齐
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日