2020/4/11 记录最新拉勾网职位和详情页的爬取
拉勾网职位和详情页爬取 拉勾网爬虫是异步加载方式,先访问初始页面得到cookie,再用cookie去爬取职位详情页面。 这里参考的是另外一篇文字的做法,开始自己走了很多弯路。原文链接暂时找不到了,后面看到会再贴上来。 爬取过程: 1、创建获取cookie的函数 2、main主程序 根据页面地址封装url,让其可以输入“城市”和“岗位”进行爬取。 3、解析页面 返回的是一个json格式,而且是post方法,但是在post的时候,页面的翻页地址实际上也会发生变化,只是并不会显示出来,所以我们通过改变这个pn实现翻页。 4、解析详情页的地址 详情页地址解析这里也有个坑,就是也需要带上第一步的coo
下载地址
用户评论