java爬取豆瓣电影示例解析
我们使用Chrome浏览器去访问豆瓣的网站如在Chrome浏览器的network中会得到如下的数据可以看到地址栏上的参数type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0其中type是电影tag是标签,sort是按照热门进行排序的,page_limit是每页20条数据,page_start是从第几页开始查询。但是这不是我们想要的,我们需要去找豆瓣电影数据的总入口地址是下面这个我们再次的去访问请求终于拿到了豆瓣的电影数据如下图所示在看下请求头信息最后我们确认了爬取的入口为:https://movie.douban.com/j/new_search_subjects?爬取豆瓣网站非常的轻松,每页任何的难度,需要注意的是就是start是每页多少条我们发现规则当start=0的时候是20条数据是从0到19条,就这样每次加20条直到爬取完。
下载地址
用户评论