1. 首页
  2. 编程语言
  3. Web开发
  4. 一个简单的java爬虫产品

一个简单的java爬虫产品

上传者: 2020-08-19 11:01:35上传 APPLICATION/X-ZIP文件 6KB 热度 24次
最近一直在研究爬虫和Lucene,虽然开始决定选用Heritrix来执行爬虫操作,但是后来发现用它来做还是存在一定的问题,比如需要程序生成相应的XML文件,对于同一个Job,怎样才能保证重复运行该Job时文件夹始终是同一个(Heritrix为Job创建文件夹的规则是“Job名称-时间戳”)等等,都是需要考虑的问题,最终还是将其搁浅。 后来google了一下,找到了一个简单爬虫的程序代码(http://www.blogjava.net/Jack2007/archive/2008/03/24/188138.html),随即试验了一下,发现确实能得到网页的内容,在这里还是要谢谢代码的提供者——
用户评论
码姐姐匿名网友 2020-08-19 11:01:35

还可以,就是太简单,扩展性什么都不好,jar包也没有,望继续努力

码姐姐匿名网友 2020-08-19 11:01:36

基础东西,学习一下

码姐姐匿名网友 2020-08-19 11:01:36

不错,入门了

码姐姐匿名网友 2020-08-19 11:01:36

一般吧新手可以学习点东西

码姐姐匿名网友 2020-08-19 11:01:36

呃。。少jar包的呀==

码姐姐匿名网友 2020-08-19 11:01:36

耐心阅读完后还是很有用的

码姐姐匿名网友 2020-08-19 11:01:37

作为参考可以。如果想用还要重新组织一下。

码姐姐匿名网友 2020-08-19 11:01:37

哥们,不地道啊,2个类,缺失大量的类,还说是例子,不厚道

码姐姐匿名网友 2020-08-19 11:01:37

不会看,不会用,