heritrix3.x详解
随着互联网中网页数量的急剧增长,面对如此庞大的网络资源,快速准确找到自己需要的信息变得越来越重要,而通用的搜索引擎已经不能满足不同用户对不同信息的需求。例如如今电子商务领域,如何快速、准确搜索用户所需求的信息,成为一个关键因素。搜索引擎是从各种网络资源中根据关键字搜索出特定的资源的一种工具,而网络爬虫技术是搜索引擎中的关键技术。目前的搜索引擎室面向互联网中所有信息的,但是人们往往需要更精确更具体的搜索引擎,在这种情况下,Heritrix项目应运而生。Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。Heritrix最出色的的特性是开发者可以在现有的框架基础上对各个组件进行扩展,实现自己所需要的抓取逻辑。
下载地址
用户评论
资料新鲜,内容给力!