1. 首页
  2. 编程语言
  3. Python
  4. Python3 实现大众点评网酒店信息和酒店评论的网页爬虫

Python3 实现大众点评网酒店信息和酒店评论的网页爬虫

上传者: 2018-12-29 07:04:45上传 ZIP文件 15.88KB 热度 54次
内容: 根据已有的的"大众点评网"酒店主页的URL地址,自动抓取所需要的酒店的名称、图片、经纬度、酒店价格、用户评论数量以及用户评论的用户ID、用户名字、评分、评论时间等,并且将爬取成功的内容存放到.txt文档中。 平台:Python 3.5.3;Eclipse for Pydev 主程序:DianpingSpider.py 注意:设置了时间,模拟器等,较为有效地防止大众点评网的反爬虫结束检测到同一个IP访问频繁而屏蔽爬取,但是未能实现IP代理。
用户评论
码姐姐匿名网友 2018-12-29 07:04:46

FileNotFoundError: [Errno 2] No such file or directory: 'HotelUrl.txt'

码姐姐匿名网友 2018-12-29 07:04:46

所以爬出来的数据保存的文件在哪呢

码姐姐匿名网友 2018-12-29 07:04:46

TypeError: argument of type 'NoneType' is not iterable

码姐姐匿名网友 2018-12-29 07:04:46

都失败了,细碎socket.gaierror: [Errno 11001] getaddrinfo failed urllib.error.URLError:

码姐姐匿名网友 2018-12-29 07:04:46

感谢分享。然而比较疑问为什么我运行出来显示“正在抓取第195个网址的酒店信息 正在抓取第195家酒店的信息,网址为http://www.dianping.com/shop/8993889 第195个酒店网址的信息抓取失败”

码姐姐匿名网友 2018-12-29 07:04:46

学习中,谢谢分享

码姐姐匿名网友 2018-12-29 07:04:46

python3的 我希望用python2的 啊啊啊啊 大家要注意下