Python网络爬虫及基础学习实践.rar
1.1网络爬虫是指通过程序模拟浏览器请求站点的行为,获取站点返回的HTML代码/JSON数据/二进制数据,并提取有用数据存放本地。爬虫基本流程包括发起请求、获取响应内容、解析数据。用户获取网络数据的方式有两种:一是浏览器提交请求—>下载网页代码—>解析成页面;二是模拟浏览器发送请求—>获取网页代码—>提取有用的数据—>存放于数据库或文件中。入门Python爬虫十分简单,只需10分钟即可了解基础教学。1.2发起请求使用http库向目标站点发起请求,发送Request包含请求头、请求体等信息。然而,该模块存在缺陷,无法执行JS和CSS代码。2获取响应内容,若服务器正常响应,将得到一个包含HTML、JSON、图片、视频等的Response。
用户评论