Python学习笔记——第七天
第六天回顾:1. 多线程爬虫:1.1 多进程线程应用场景;1.2 多进程适用于大量密集并行计算;1.3 多线程适用于I/O密集的任务,如网络I/O和本地磁盘I/O。2. 多线程爬虫:2.1 URL队列:put(url);2.2 RES队列:从URL队列中get()发请求,put(html);2.3 创建多个RES线程,发请求获取html;2.4 创建多个解析线程,解析html。3. BeautifulSoup:HTML/XML解析库:3.1 使用流程:3.1.1 导入模块:from bs4 import BeautifulSoup as bs;3.1.2 创建对象:soup = bs(html,'lxml');3.1.3 查找节点:soup.find_all(id="test")。4. 支持解析库:4.1 lxml:快速,文档容错能力强;4.2 html.parser:一般;4.3 xml:快速,文档容错能力强。5. 常用方法:5.1 find_all():返回列表
用户评论