1. 首页
  2. 数据库
  3. 其它
  4. python scrapy框架进行页面数据抓取

python scrapy框架进行页面数据抓取

上传者: 2021-02-25 12:40:15上传 PDF文件 121.28KB 热度 31次
第一部分爬虫架构介绍 1.Spiders(自己书写的爬虫逻辑,处理url及网页等【spider genspider -t 指定模板 爬虫文件名 域名】),返回Requests给engine——> 2.engine拿到requests返回给scheduler(什么也没做)——> 3.然后scheduler会生成一个requests交给engine(url调度器)——> 4.engine通过downloader的middleware一层一层过滤然后将requests交给downloader——> 5.downloader下载完成后又通过middleware过滤将response返回给engin
下载地址
用户评论