乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

一种基于词频幂律分布特性的文本关键词权重计算方法

本发明公开了一种基于词频幂律分布特性的文本关键词权重计算方法,具体步骤如下:S1:打开文本进行预处理,包括去除停用词和分词,余下的词作为候选关键词;S2:以候选关键词为节点,词频为节点权重,词共现为边,词共现频率为边权重,构建无向的关键词网络;S3:从关键词网络中抽取核心网络;S4:更新核心网络中每个节点的权重;S5:对于核心网络进行加一条边的操作并更新节点权重;S6:判断加边后的核心网络的节点权重分布是否符合幂律分布,如果不符合,转至步骤S5;如果符合,转至步骤S7;S7:输出每个候选关键词对应的权重。该方法针对单篇文本对关键词的权重进行计算,不依赖领域文本集和训练集,简便易操作,且效果更优。
上海大学
陈雪 | 郭峻材 | 王小飞 | 乐金雄 | 王鹏 | 骆祥峰 | 魏晓 | 张惠然

More Posts

Send Us A Message