Python天气预报采集器实现代码(网页爬虫)
爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。 1、获得html文本。 python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。 复制代码 代码如下: def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。 2、根据正则表达式等获得需要的内容。 使用正则表达式时需要仔细观察该网页信息的结构,并写出正确的正则表达式。 python正则表达式的使用也很简洁。我的上一篇文章《Pyth
用户评论