本发明提供了一种基于多维度特征的通用二阶段网页信息提取方法和系统,第一阶段通过分析目标网页的文本内容、HTML结构内容获得文本特征、XPath特征、位置特征和节点标签特征,通过双向长短期记忆模型学习多维度的节点表征,实现节点级信息提取与网页摘要提取;第二阶段基于Transformer架构的语言模型对网页摘要进行向量表征,通过文本范围预测实现节点内部的实体信息识别。本发明通过设计二阶段网页信息提取流程,解决了以往技术只能针对单一类别信息提取的问题,实现了节点级、实体级信息同步提取的技术效果。
上海交通大学
刘伟 | 唐顾 | 卢彬 | 梁诗宇 | 甘小莺 | 金梦 | 傅洛伊 | 王新兵
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日