BlogCrawler.jar
爬虫系统采用HttpClient+Jsoup+多线程+Log4j日志框架实现+Ehcache缓存框架判断重复URL;最终可以将博客内容完整的爬取并且存入数据库。
下载地址
用户评论