Python3 实现大众点评网酒店信息和酒店评论的网页爬虫
内容: 根据已有的的"大众点评网"酒店主页的URL地址,自动抓取所需要的酒店的名称、图片、经纬度、酒店价格、用户评论数量以及用户评论的用户ID、用户名字、评分、评论时间等,并且将爬取成功的内容存放到.txt文档中。 平台:Python 3.5.3;Eclipse for Pydev 主程序:DianpingSpider.py 注意:设置了时间,模拟器等,较为有效地防止大众点评网的反爬虫结束检测到同一个IP访问频繁而屏蔽爬取,但是未能实现IP代理。
下载地址
用户评论
FileNotFoundError: [Errno 2] No such file or directory: 'HotelUrl.txt'
所以爬出来的数据保存的文件在哪呢
TypeError: argument of type 'NoneType' is not iterable
都失败了,细碎socket.gaierror: [Errno 11001] getaddrinfo failed urllib.error.URLError:
感谢分享。然而比较疑问为什么我运行出来显示“正在抓取第195个网址的酒店信息 正在抓取第195家酒店的信息,网址为http://www.dianping.com/shop/8993889 第195个酒店网址的信息抓取失败”
学习中,谢谢分享
python3的 我希望用python2的 啊啊啊啊 大家要注意下