1. 首页
  2. 数据库
  3. 其它
  4. 基于Docker容器的分布式爬虫的设计与实现

基于Docker容器的分布式爬虫的设计与实现

上传者: 2021-01-15 21:12:45上传 PDF文件 1.4MB 热度 7次
随着互联网的快速发展,信息量也随之快速增长。为了快速地获取特定的有效信息,通过对开源爬虫框架Scrapy的学习研究,结合Redis数据库和MongoDB数据库,设计并实现了一个分布式网络爬虫系统。此次针对58同城租房信息进行爬取,网页数据存入MongoDB数据库,网页链接存入Redis数据库,着重对反爬虫问题进行处理优化,并使用Docker容器对传统部署环境进行了改造。运行结果表明,基于Docker的分布式爬虫系统比基于VM的分布式爬虫系统运行效率更高更稳定。
用户评论