Python网络爬虫基础教程-Urllib库详细解析.pdf
Python网络爬虫基础教程-Urllib库详细解析前言爬虫技术已经是我所熟悉的领域,我期望在半个月的时间内完成对Urllib库的学习,迎来Python的全新境界。今天,我将全面总结与爬虫基础相关的库——Urllib。Urllib库提供了多种用于操作URL的功能。在Python 3中,将Python 2.7的urllib和urllib2两个包合并成了一个urllib库,主要包括以下模块:urllib.request请求模块、urllib.error异常处理模块、urllib.parse URL解析模块、urllib.robotparser robots.txt解析模块。urllib.request中的urlopen方法通过实例可以看出,urlopen将返回一个二进制对象,对这个对象进行read()操作可以得到包含网页内容的二进制字符串,然后可以用decode()方法解码成一段HTML代码。urlopen方法的参数如下:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault
用户评论