模拟浏览器头部信息设置方法
使用Python编程语言,通过设置请求头部信息,实现模拟浏览器的操作。在代码中,通过导入相关库,包括re、requests和lxml的etree,实现对网页的解析和请求。具体而言,源地址为'http://www.gushiwen.org/shiwen/',而模拟浏览器的头部信息则包括User-Agent,其中User-Agent的数值为'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'。通过此设置,使得请求的行为更接近于真实浏览器的访问。进一步,代码中还包括获取所有作者对应作品的URL的函数get_auth_poey_urls。此函数通过对源地址的请求,获取响应并通过XPath解析,最终得到所有作者对应的作品的URL。
下载地址
用户评论