1. 首页
  2. 数据库
  3. 其它
  4. spider roach:分布式定向抓取集群 源码

spider roach:分布式定向抓取集群 源码

上传者: 2021-05-12 13:36:46上传 ZIP文件 12KB 热度 10次
声明 本人自知精力与能力有限,欢迎志同道合之士送上您宝贵的建议与Patch! 关于 一个分布式定向抓取集群的简单实现。 目前实现功能 多线程下载,线程数可配置。 无需修改代码,按照规则添加配置就可以完成页面抽取、入库。 利用Redis的list作为抓取队列,zset作为已抓取集合。 支持分布式部署多个爬虫,Redis作为核心,mysql为存储,当然redis/mysql自身拥有各自的扩展方案。 TODO List KISS: Keep it simple & stupid! Supports cookies,and authentication. Write information into files (using protobuf??). INSTALL 确认安装Python2.7及依赖库: MySQLdb: http://sourceforge.net/projects/my
下载地址
用户评论