爬取豆瓣读书的图书信息和评论信息
最近在做毕业设计,需要收集用户的评分数据做协同过滤算法,同时收集评论数据做情感分析 注意一个比较坑的地方就是豆瓣图书可以没有评分,或者用户评论了但没给评分。而且豆瓣图书的编码方式很无奈呀,热门书籍附近总是冷门书籍,无评分、无评论那种,所以经常输出failed fake_useragent的用法 在这次爬虫中使用了fake_useragent来伪造请求头,因为听说豆瓣的反爬机制比较好 fake_useragent的用法简单如下,random是随机产生一个请求头 from fake_useragent import UserAgent import requests ua=UserAgent()
用户评论