1. 首页
  2. 数据库
  3. 其它
  4. 多线程实现的Java爬虫程序

多线程实现的Java爬虫程序

上传者: 2020-12-29 17:02:14上传 PDF文件 54.73KB 热度 29次
以下是一个Java爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。 参数:private static int webDepth = 2;//爬虫深度。 主页的深度为1,设置深度后超过该深度的网页不会抓取。 private int intThreadNum = 10;//线程数。开启的线程数。 抓取时也会在程序源文件目录下生成一个report.txt文件记录爬虫的运行情况,并在抓取结束后生成一个fileindex.txt文件维护网页文件索引。 本程序用到了多线程(静态变量和同步),泛型,文件操作,URL类和连接,Hashtabl
用户评论