1. 首页
  2. 编程语言
  3. 其他
  4. web爬虫Heritrix.zip

web爬虫Heritrix.zip

上传者: 2020-06-17 19:08:03上传 ZIP文件 2.77MB 热度 29次
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和METArobots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架,其组织结构如图2.1所示,包含了整个组件和抓取流程: Heritrix采用的是模块化的设计,各个模块由一个控制器类(CrawlController类)来协调,控制器是整体的核心。控制器结构图如图2.2所示:   图2.2CrawlController类结构图 CrawlController类是整个爬虫的总控制者,控
下载地址
用户评论