1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 基于信息增益的自适应主题爬行策略.pdf

论文研究 基于信息增益的自适应主题爬行策略.pdf

上传者: 2020-07-17 08:10:26上传 .PDF文件 204KB 热度 27次
结合信息增益,提出了一种新的自适应主题爬行策略。利用维基百科的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行自动学习,反馈更新主题向量空间中每个概念的权重,完善主题描述。实验结果表明,该方法具有增量爬行的能力,并在信息量总和上明显优于基于the interest ratio的自适应策略;且前者所爬取的网页更接近于与主题相关。
下载地址
用户评论