本发明提供了一种基于BERT预训练模型和卷积网络的文本分类方法和系统,包括:步骤1:在数据库中获取各领域的论文文本数据以及所述论文所属领域的类别标签数据;步骤2:去除文本中的噪声,将论文文本数据和类别标签数据分为训练集和测试集,保存在文本文件中;步骤3:使用BERT预训练模型对训练集和测试集中的文本数据进行字嵌入;步骤4:将每一段文本的字嵌入组成文本矩阵作为卷积神经网络的输入,使用卷积神经网络对句子矩阵进行文本的特征提取;步骤5:将卷积神经网络提取的特征输入全连接神经网络层进行分类。本发明通过全连接神经网络进行分类,使得用户能够快捷且较为准确地按学科领域对论文文献进行分类。
