1. 首页
  2. 考试认证
  3. 其它
  4. broadcrawl 在广泛抓取期间限制内部外部链接数量的中间件

broadcrawl 在广泛抓取期间限制内部外部链接数量的中间件

上传者: 2024-10-08 13:27:41上传 ZIP文件 5.25KB 热度 2次
广泛的抓取限制一个Scrapy中间件,用于在跟踪大量内部/外部链接时防止过于广泛的爬行用法为了在你的Scrapy项目中使用它,请在settings.py启用中间件: SPIDER_MIDDLEWARES = { ... 'broadcrawl.limits.BroadCrawlLimitsMiddleware': 100, }设置您可以通过在settings.py设置变量来更改限制值: BCL_MAX_INTERNAL_LINKS -来自同一域的最大链接到给定页面(默认值:10) BCL_MAX_EXTERNAL_LINKS -来自外部域的最大链接到给定页面(默认值:10) BCL_MAX_LINKS_PER_DOMAIN -每次抓取每个域的最大链接总数(默认值:10) BCL_RANDOMIZE_LINKS -随机链接以获得更多相关结果的
用户评论