1. 首页
  2. 数据库
  3. 其它
  4. 爬取豆瓣读书的图书信息和评论信息

爬取豆瓣读书的图书信息和评论信息

上传者: 2020-12-30 14:55:49上传 PDF文件 194.05KB 热度 20次
最近在做毕业设计,需要收集用户的评分数据做协同过滤算法,同时收集评论数据做情感分析 注意一个比较坑的地方就是豆瓣图书可以没有评分,或者用户评论了但没给评分。而且豆瓣图书的编码方式很无奈呀,热门书籍附近总是冷门书籍,无评分、无评论那种,所以经常输出failed fake_useragent的用法 在这次爬虫中使用了fake_useragent来伪造请求头,因为听说豆瓣的反爬机制比较好 fake_useragent的用法简单如下,random是随机产生一个请求头 from fake_useragent import UserAgent import requests ua=UserAgent()
用户评论