基于节点属性与正文内容的海量Web信息抽取方法 上传者:玉符天启 2021-01-31 20:21:45上传 PDF文件 530.89KB 热度 37次 为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面内容进行预处理;引入MapReduce计算框架,实现海量Web信息的并行化抽取。仿真实验结果表明,提出的海量Web信息抽取方法不仅具有更好的性能,还具备较好的系统可扩展性。 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论