网站爬虫 文献期刊
本软件主要针对《软件学报》进行了试验。通过爬虫程序,将所有期刊原文(pdf)抓取到本地,并且提取出文献的相关信息存成xml固定格式。文献和xml的名采用MD5,方便建立索引。主要的算法就是网页源码的分析
下载地址
用户评论
运行了下,还不错,基于VC6.0的
感谢分享,我想政府网站应该是用这个技术捕捉敏感信息,好好学习下