1. 首页
  2. 编程语言
  3. Web开发
  4. heritrix网络爬虫

heritrix网络爬虫

上传者: 2019-05-22 18:16:32上传 ZIP文件 32.26MB 热度 35次
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和METArobots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。
用户评论