1. 首页
  2. 数据库
  3. 其它
  4. python实现的一只从百度开始不断搜索的小爬虫

python实现的一只从百度开始不断搜索的小爬虫

上传者: 2020-12-30 23:36:46上传 PDF文件 39.21KB 热度 7次
文中用到了BeautifulSoup这个库, 目的是处理html文档分析的, 因为我只是提取了title的关键字,所以可以用正则表达式代替, 还有一个库是jieba, 这个库是中文分词的作用, 再有一个库是 chardet, 用来判断字符的编码, 本想多线程的, 但是自认为被搞糊涂了,就放弃了 复制代码 代码如下:#coding:utf-8import reimport urllibimport urllib2import sysimport timeimport Queue import threadimport threadingimport jiebaimport chardetfrom
用户评论