本发明提出了一种用于预测心血管疾病的医疗数据处理方法。本发明方法包含三个步骤:1、数据预处理:补全数据集中的缺失值,对数据集中的属性进行标准化处理。2、密度权重学习:在利用DBSCAN算法将样本点分为核心样本点、噪声样本点和边界样本点的基础上,对核心样本点的密度信息进一步量化,对处于不同密度区域的点赋予不同权重。3、特征工程:将所有样本点的权重值作为一维新的特征加入数据集,然后对整个数据集进行特征选择和数据离散化两步。本发明通过为处于不同分布密度的样本点赋予相应的权重,强调核心样本点在模型建立时的贡献度,从而帮助机器学习模型决策边界的建立,提高模型的预测心血管疾病精度。
上海大学
谢江 | 吴蕊颖 | 王海涛 | 张武 | 孔艳艳
