1. 首页
  2. 编程语言
  3. C
  4. 基于网页分割的Web信息提取算法

基于网页分割的Web信息提取算法

上传者: 2020-10-28 04:47:03上传 PDF文件 216.32KB 热度 20次
针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。
用户评论