java网络爬虫，网络检索作业

Name: java网络爬虫，网络检索作业
Rating: 4.5 (126 reviews)
Author: 大魔王来巡山

上传者：大魔王来巡山 2018-12-09 19:18:22上传 ZIP文件 819.29KB 热度 126次

实现了一下功能：（1）能够搜集本站内的所有网页，能提取出其中的URL并加入到待搜集的URL队列中，对非本网站域名的URL，只允许搜集首页，记录发现的URL即可；对搜集的结果，产生2个URL列表：站内搜集URL、非站内（站外）发现URL；（2）使用User-agent向服务器表明自己的身份；（3）能对HTML网页进行解析，提取出链接URL，能判别提取的URL是否已处理过，不重复下载和解析已搜集过的网页；（4）能够对crawler的一些基本参数进行设置，包括：搜集深度（depth）、文件类型、文件大小等。（5）对搜集的过程生成日志文本文件，日志文件的格式定义，请在实验报告中详细说明。（6）遵循礼貌规则。必须分析robots.txt文件和meta tag有无限制；一个线程抓完一个网页后要适当停顿（sleep）；最多允许与被搜集站点同时建立2个连接（本地做网页解析的线程数则不限）。（7）采用多线程并行编程技术，提高搜集速度。

下载地址

用户评论

更多下载

下载地址

立即下载

用户评论

: 码姐姐匿名网友 2018-12-09 19:18:22

不错不错，很棒的资源

: 码姐姐匿名网友 2018-12-09 19:18:22

可以运行的

: 码姐姐匿名网友 2018-12-09 19:18:22

可以作为我这样的初学者参考源码的资料

: qq_63446478 2025-01-10 21:12:57

优秀，大佬学长，顶！

: auntie6982 2025-01-03 00:30:16

不会用啊。。。！！

: actually85863 2024-12-27 08:37:06

这个爬虫比较简单，可以看一下

: Caroline_Yang 2025-01-02 10:16:16

成功运行了，基本功能做得不错，就是界面简单了点

: 中科天玑大数据 2024-12-30 20:22:24

完全可用阿,不知是哪位学长大神留下的~~~~

: weixin_96320118 2024-12-27 18:39:05

我是个初学者，感觉这个挺不错的

java网络爬虫网络检索作业

实现了一下功能：（1）能够搜集本站内的所有网页，能提取出其中的URL并加入到待搜集的URL队列中...

大小：0B | 2018-12-09 19:18:22
网络检索作业

网络检索作业,可以用作模板,也可以参考一下。

大小：2.05MB | 2020-08-08 14:43:10
网络爬虫页面检索器java代码

网络爬虫页面检索器搜索引擎的基础java代码

大小：0B | 2019-07-11 03:07:03
Java网络爬虫

这个网络爬虫程序可以抓取网页的信息和抓取网页的链接，并保存到TXT文件。

大小：0B | 2019-09-23 21:57:31
网络爬虫Java

大小：0B | 2019-02-19 09:58:03
java网络爬虫

Java web crawler

大小：0B | 2019-06-23 06:21:41
网络爬虫java

网络爬虫java

大小：0B | 2019-05-15 08:11:14
java网络爬虫网络代理

一个简单的网络爬虫,获取代理信息以及验证代理是否可以! GetAgentTask.java main...

大小：11.38MB | 2020-10-27 15:33:49
用VC写的信息检索课程大作业网络爬虫

大小：0B | 2019-03-13 05:02:55
网络信息检索大作业

大小：0B | 2018-12-07 11:17:00
java网络爬虫源码

一个JAVA开发的简单网络爬虫可以实现对指定站点新闻内容的获取程序很简单大家一起学习

大小：2.54MB | 2020-09-19 04:17:53
java网络爬虫PDF

java网络爬虫PDF

大小：0B | 2020-05-14 19:06:32
java实现网络爬虫

本代码实现根据一个url获取该页面上的所有图片url存入到images表中，然后根据images表中...

大小：0B | 2019-07-25 10:25:44
网络爬虫Java Websphinx

Web crawler Java Websphinx

大小：0B | 2019-06-27 23:56:12
java网络爬虫demo

Java web crawler demo

大小：0B | 2019-06-28 02:25:08
Java网络爬虫源码

Java web crawler source

大小：0B | 2019-06-21 21:12:03