Scrapy入门:爬取古诗文
Scrapy框架介绍 写一个爬虫需要做很多事情,比如:发送请求,数据解析,数据存储,反爬虫机制(更换代理,设置请求头等),异步请求。这些工作如果每次都要从头开始,使很浪费时间得。scrapy 把一些基础的东西都封装了,在它上面写爬虫可以更加高效。 Scrapy Engine(引擎) :框架的核心,负责在各组件之间进行通信,传递数据等。 Spider(爬虫):发送那个需要爬取的链接给引擎,最后引擎把其他模块请求回来的数据在发送给爬虫,爬虫就去解析想要的数据。用于从特定的网页中提取自己需要的信息,即所谓的实体(Item)。 用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。这个部分使我
用户评论