Python实现抓取页面上链接的简单爬虫分享
这不是python自带的模块,需要从网上下载、解压与安装:windows用户直接点击下载。解压后再本地使用命令python setup.py install安装即可。就像它的说明里面说的那样,built for human beings,为人类而设计。最简单的,requests.get()就是发送一个get请求。data = requests.get,向网易首页提交get请求,得到一个requests对象r,r.text就是获得的网页源代码,保存在字符串data中。re.findall返回的是一个列表,用for循环遍历列表并输出:这是我获取到的所有连接的一部分。上面是获取网站里所有链接的一个简单的实现,没有处理任何异常,没有考虑到超链接的类型,代码仅供参考。
用户评论