1. 首页
  2. 编程语言
  3. 其他
  4. 论文研究基于模板的Web信息自动提取方法.pdf

论文研究基于模板的Web信息自动提取方法.pdf

上传者: 2020-02-21 20:45:54上传 PDF文件 496.23KB 热度 17次
为了解决传统Web信息提取过程中准确率和效率相矛盾的问题,提出了一种基于模板与机器自动识别相结合的Web信息自动提取方法。该方法先利用一组启发式规则自动识别HTML文本中不同属性信息之间的分隔符,再把它们配置到模板中,然后根据模板分析相同类型的网页,最后以话题线索的方式存储。实验结果表明,与传统的Web信息提取方法相比,本方法能够处理多种结构类型的网页,同时能够在很大程度上提高准确率、召回率和效率;并且可以在不需要修改算法的情况下根据用户需求动态提取相关信息,满足各方面研究的需要。
用户评论