1. 首页
  2. 编程语言
  3. Web开发
  4. Heritrix 3.x 用户手册

Heritrix 3.x 用户手册

上传者: 2019-09-26 09:01:25上传 DOCX文件 3.81MB 热度 36次
Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和METArobots标签。简介它的执行是递归进行的,主要有以下Heritrix有Web控制管理界面Heritrix有Web控制管理界面几步:1。在预定的URI中选择一个。2。获取URI3。分析,归档结果4。选择已经发现的感兴趣的URI。加入预定队列。5。标记已经处理过的URI它是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。
用户评论