1. 首页
  2. 数据库
  3. 其它
  4. 基于节点属性与正文内容的海量Web信息抽取方法

基于节点属性与正文内容的海量Web信息抽取方法

上传者: 2021-01-31 20:21:45上传 PDF文件 530.89KB 热度 11次
为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面内容进行预处理;引入MapReduce计算框架,实现海量Web信息的并行化抽取。仿真实验结果表明,提出的海量Web信息抽取方法不仅具有更好的性能,还具备较好的系统可扩展性。
下载地址
用户评论