最简单的爬虫WebMagic 0.73 源码
最简单的爬虫设置,最好二次开发的爬虫WebMagic框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。作为爬虫框架,它使用httpclient作为获取网页工具、使用Jsoup作为分析页面定位抓取内容、使用ExecutorService线程池作为定时增量抓取、Jdiy作为持久层框架。不熟悉这些名词的同学们可以先行百度一下这些都是什么,起了什么作用,以便更好的理解爬虫的原理。爬虫主要思想分这么几步:1.根据种子链接,抽取目标链接放入待爬取队列2.从页面中解析并抽
下载地址
用户评论