1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 基于词频差异特征选取的Context Graph算法改进.pdf

论文研究 基于词频差异特征选取的Context Graph算法改进.pdf

上传者: 2020-07-17 13:55:50上传 PDF文件 544.6KB 热度 21次
为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了网页不同部分的文本信息对特征选取的影响,及特征词的类间权重和类中权重,以提高特征选取和评价的质量。实验结果表明,与既定传统方法进行实验对照,改进后的策略效率更高。
用户评论