1. 首页
  2. 大数据
  3. Netty
  4. 基于网页聚类的Web信息自动抽取

基于网页聚类的Web信息自动抽取

上传者: 2020-10-28 04:53:51上传 PDF文件 290.4KB 热度 7次
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。
用户评论