基于 Python 的网络爬虫:获取异步加载的数据
1. 需求分析 从重庆市政府采购网自动获取所有的采购公告信息,将其项目名称和采购物资通过可读的方式展示。 2. 实现过程 分析页面布局 第一次爬取到“假网址” (1)首先,展示第一次爬取到的“假网址”。通过 xpath 匹配该 div。 (2)尝试采集当前页面的所有二级链接。 import requests from lxml import etree import json def getpage(url, headers): res = requests.get(url, headers=headers) html = etree.HTML(res.text)
用户评论