1. 首页
  2. 数据库
  3. 其它
  4. 海葵:海葵网络蜘蛛框架 源码

海葵:海葵网络蜘蛛框架 源码

上传者: 2021-02-24 22:52:22上传 ZIP文件 34KB 热度 12次
银莲花 Anemone是一个网络蜘蛛框架,可以蜘蛛一个域并收集有关其访问页面的有用信息。 它用途广泛,可让您快速轻松地编写自己的特殊蜘蛛任务。 有关更多信息,请参见 。 功能 多线程设计实现高性能 跟踪301 HTTP重定向 内置BFS算法确定页面深度 允许排除基于正则表达式的URL 选择链接,在每个页面上使用focus_crawl() HTTPS支持 记录每页的响应时间 CLI程序可以列出域中的所有页面,计算页面深度等 遵守robots.txt 使用TokyoCabinet,SQLite3,MongoDB或Redis进行爬网期间的页面内存或持久存储 例子 有关几个有用的Anem
下载地址
用户评论