1. 首页
  2. 编程语言
  3. Python
  4. Python学习笔记——第七天

Python学习笔记——第七天

上传者: 2023-07-01 16:17:12上传 TXT文件 5.58KB 热度 8次

第六天回顾:1. 多线程爬虫:1.1 多进程线程应用场景;1.2 多进程适用于大量密集并行计算;1.3 多线程适用于I/O密集的任务,如网络I/O和本地磁盘I/O。2. 多线程爬虫:2.1 URL队列:put(url);2.2 RES队列:从URL队列中get()发请求,put(html);2.3 创建多个RES线程,发请求获取html;2.4 创建多个解析线程,解析html。3. BeautifulSoup:HTML/XML解析库:3.1 使用流程:3.1.1 导入模块:from bs4 import BeautifulSoup as bs;3.1.2 创建对象:soup = bs(html,'lxml');3.1.3 查找节点:soup.find_all(id="test")。4. 支持解析库:4.1 lxml:快速,文档容错能力强;4.2 html.parser:一般;4.3 xml:快速,文档容错能力强。5. 常用方法:5.1 find_all():返回列表

用户评论