1. 首页
  2. 编程语言
  3. C++ 
  4. 网站爬虫 文献期刊

网站爬虫 文献期刊

上传者: 2019-06-03 21:59:33上传 ZIP文件 3.09MB 热度 53次
本软件主要针对《软件学报》进行了试验。通过爬虫程序,将所有期刊原文(pdf)抓取到本地,并且提取出文献的相关信息存成xml固定格式。文献和xml的名采用MD5,方便建立索引。主要的算法就是网页源码的分析
用户评论
码姐姐匿名网友 2019-06-03 21:59:33

运行了下,还不错,基于VC6.0的

码姐姐匿名网友 2019-06-03 21:59:33

感谢分享,我想政府网站应该是用这个技术捕捉敏感信息,好好学习下