1. 首页
  2. 数据库
  3. 其它
  4. python之——使用python编写爬虫脚本

python之——使用python编写爬虫脚本

上传者: 2020-12-22 12:51:55上传 PDF文件 194.68KB 热度 25次
此处以爬取百度百科为例 本文的爬虫组成分为以下几部分 1.调度器(controler) 协调几个模块之间的工作 2.url管理器(urlmanager) 去重,如果url已经被抓取过,就不在访问该url 3.html下载器(htmldownloader) 下载html 4.html解析器(htmlparser ) 解析html,解析内容为链接和文档 5.数据输出器(dataoutputer) 对数据进行保存 调度器(controler) #coding:utf-8 #引入各个模块 import Urlmanage
下载地址
用户评论