selenium+phantomjs
一.爬虫与反爬斗争—反爬策略 1.通过user-agent客户端标识来判断是不是爬虫 方法:封装请求头:user-agent 2.封ip 方法:设置代理ip 3.通过访问频率判断是否是非人类请求 方法:设置爬取间隔 和爬取策略 4.验证码 方法:识别验证码 5.页面请求不再直接渲染,通过前端js异步获取 方法:a通过selenium+phantomjs来获取数据 b.找到数据来源的接口(ajax接口) 6.能获取列表页,就不获取详情页,为了避免增加请求数量. a.将详情页放到每条数据中心,第一次爬取先爬取列表 b.第二次从数据库中拿出详情页链接,在做第二次爬取 7.能一次性获取,就不分页获取,
用户评论