知乎爬虫和v2ex爬虫的实现
爬虫python入门pyspider知乎爬虫和v2ex爬虫的实现.使用python的pyspider爬虫进行开发主要爬取知乎的问题和评论以及v2ex的帖子.数据转储到mysql数据库用于zhihu项目的使用.使用python爬虫爬取知乎和v2ex数据充实网站信息安装python2.7并且配置环境变量.同时安装pycharm配置interpretor安装pip.这里会各种报错主要是中文目录以及pip版本导致的错误需要修改各种配置文件以支持gbk编码.详情略.安装好以后我们先熟悉一下python的语法写一些例子比如数据类型操作符方法调用以及面向对象的技术.因为数据是要导入数据库的所以这里安装MySQLdb的一个库并且写一下连接数据库的代码写一下简单的crud进行测试.使用requests库作为解析http请求的工具使用beautifulsoup作为解析html代码的工具请求之后直接使用css选择器匹配.即可获得内容.当然现在我们有更方便的工具pyspider可以方便解析请求并且可以设置代理伪装
用户评论