1. 首页
  2. 数据库
  3. 其它
  4. 长期学习打卡之爬虫

长期学习打卡之爬虫

上传者: 2020-12-22 19:37:09上传 PDF文件 79.79KB 热度 8次
初学爬虫,将一些基本的爬虫方法记录在这里供自己复习,日后会陆续更新。 一些基础知识: 状态码:例如200 400 403 404 HTTP状态码(英语:HTTP Status Code)是用以表示网页服务器超文本传输协议响应状态的3位数字代码。 –百度百科 urlib库里面的request a.获取网页的代码。 请求方式有GET和POST两种。urlopen方法可以获取网页的代码 from urllib import request x1=request.urlopen('http://www.baidu.com',data=None)##获取百度首页代码,
用户评论