乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

基于词向量和机器学习的数据溯源方法和系统

本发明提供了一种基于词向量和机器学习的数据溯源方法和系统,通过网络采集流量数据,基于流量数据进行文件特征提取,得到文本特征向量;使用机器学习对流量数据进行聚类,得到多个聚类种类,将待溯源文件与多个聚类种类进行匹配,得到待溯源文件的所属种类;在待溯源文件的所属种类中,通过文本特征向量进行文本相似度计算,对待溯源文件进行溯源判定。本发明可扩展性强,不依赖于特定系统,不需要进行数据库改造,对数据格式没有要求,溯源稳定可靠,效率高;从网络中抓包,通过词向量提取特征向量,通过机器学习进行聚类,再通过计算余弦值进行溯源,脱离对数据库的依赖,避免了高昂的系统管理成本。
上海交通大学
丁疏横 | 范磊

More Posts

Send Us A Message