1. 首页
  2. 编程语言
  3. Python
  4. python爬取单个博主所有博文

python爬取单个博主所有博文

上传者: 2019-05-13 14:01:04上传 PY文件 2.58KB 热度 72次
python+urllib+selenium爬取CSDN单个博主的所有博文。步骤:1.通过selenium获取js动态加载的页数页数是javascript动态加载,不能直接通过urllib获取。改为通过selenium获取页数。2.通过urllib获取一页内所有文章的链接根据页数、链接,获取每一页的文章链接,存入数组。3.遍历文章链接,获取对应的文章的html文件,写好标题存储起来请自行阅读代码修改食用
用户评论