python实现的一只从百度开始不断搜索的小爬虫
文中用到了BeautifulSoup这个库, 目的是处理html文档分析的, 因为我只是提取了title的关键字,所以可以用正则表达式代替, 还有一个库是jieba, 这个库是中文分词的作用, 再有一个库是 chardet, 用来判断字符的编码, 本想多线程的, 但是自认为被搞糊涂了,就放弃了 复制代码 代码如下:#coding:utf-8import reimport urllibimport urllib2import sysimport timeimport Queue import threadimport threadingimport jiebaimport chardetfrom
用户评论