爬虫-理工大学优秀毕业设计论文及成果物--王光磊
理工大学优秀毕业设计论文及成果物--王光磊 搜索引擎网络爬虫设计与实现 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。 本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后具体阐述了如何设计并实现搜索引擎的搜索器——网络爬虫。 多线程网络爬虫程序是从指定的Web页面中按照宽度优先算法进行解析、搜索,并把搜索到的每条URL进行抓取、保存并且以URL为新的入口在互联网上进行不断的爬行的自动执行后台程序。 网络爬虫主要应用socket套接字技术、正则表达式、HTTP协议、windows网络编程技术等相关技术,以C++语言作为实现语言,并在VC6.0下调试通过。 在网络爬虫的设计与实现的章节中除了详细的阐述技术核心外还结合了多线程网络爬虫的实现代码来说明,易于理解。本网络爬虫是一个能够在后台运行的以配置文件来作为初始URL,以宽度优先算法向下爬行,保存目标URL的网络程序,能够执行普通用户网络搜索任务。
下载地址
用户评论
论文可以参考,代码就呵呵哒。
还行吧,不太是我需要的
一般般吧!还可以
拜读后,对去重算法和多线程管理的理解很有帮助。是很好的参考
论文写得不错,可是代码太碎,基本无用
文章很有参考价值
代码基本无用啊
参考论文方面的东西还是不错的。
文章有参考价值
代码基本可以无视,原理还是可以看看