升级版PHP爬虫:基于swoole与QueryList.zip
PHP爬虫,基于swoole与QueryList,通过CLI执行。
- 启动:
#php start.php
- 停止:
#php stop.php
运行环境:
php >= 7.0
需配置swoole扩展与redis扩展
执行顺序:
1. 执行php tastqueue.php,创建任务队列queue。
2. swoole启动分布式任务,每隔五分钟执行一次。
3. QueryList采集queue队列,将数据入库。
爬虫说明:
1. 失败任务将进入errorlist队列。
2. 任务失败时,自动重新检测代理池并移除失效代理。
3. 依赖库:
- jaeger/querylist: ^4.0
- illuminate/database: ~4.2
4. Pickup::setRule()方法用于编写页面采集规则。
5. Server::$count定义开启的爬虫数量。
6. 支持随机代理和随机age。
用户评论