本发明提供一种标签自动生成方法、系统、计算机可读存储介质及设备,标签自动生成方法包括:针对有标签的训练文本和标签待生成文本,创建初始标签集合;挖掘有标签的训练文本和标签待生成文本;训练一标签判别模型;根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签。本发明采用文本分析技术、机器学习和深度学习算法,基于多方法构建的原始标签集合,对待标注文本数据进行信息挖掘,基于文本主题分析方法,结合词语在文本中的分布情况,实现多模型融合的文本标签主题相似度计算,解决互联网在线内容等文本数据无标签、标签少的问题,解决人工标注缺乏统一标准,不同用户可能会将相似文本标注为不同标签等问题。最终帮助用户更准确、更高效地获得期望的信息。
中国科学院上海高等研究院
李梅 | 于景洋 | 王煜 | 宁德军
