记一次爬虫实践
事情经过 这次做的是一个客户的爬虫项目,需求比较简单。一开始客户希望能用他给定的Cookie文件登录百度云网盘,获取网盘内所有的文件列表,并将结果保存在txt里面。后来这部分做完了客户又提出个需求,希望增加网盘内的文件分享功能。 总体思路 1、读取用户给的Cookie.txt,对每一个Cookie构造一个请求头(header) 2、利用构造好的请求头和数据包获取列表文件(一般都是js文件) 3、对列表文件进行解析(常用解析工具Re、Xpath、Jsonpath),并保存结果。 4、输出所有的文件列表,当用户选择其中一个文件时,构造这个文件的分享数据(请求头一般跟着Cookie就行,请求的数据包
用户评论