基于网页分割的Web信息提取算法 上传者:lvszqy 2020-10-28 04:47:03上传 PDF文件 216.32KB 热度 51次 针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论