1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 基于正文结构和长句提取的网页去重算法.pdf

论文研究 基于正文结构和长句提取的网页去重算法.pdf

上传者: 2020-08-05 18:34:05上传 PDF文件 858.06KB 热度 27次
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。
下载地址
用户评论