1. 首页
  2. 数据库
  3. 其它
  4. java爬虫框架heritrix

java爬虫框架heritrix

上传者: 2020-08-31 10:17:57上传 ZIP文件 21.72MB 热度 17次
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。本文是最新的1.14.4版本,目前用的最为广泛
用户评论