1. 首页
  2. 编程语言
  3. Web开发
  4. 海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文

海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文

上传者: 2020-07-17 22:48:53上传 DOC文件 222.5KB 热度 18次
论 文 摘 要 本文首先由WWW的起源和发展导出搜索引擎技术的出现和发展。北大天网是这类技术在中国的最早的成功产品之一,本文将大体介绍其体系结构和技术特点。 搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作为本文的重点。 最后,本文试图指出现有系统的处理能力极限和瓶颈,并在此基础上作新的体系结构的探讨。
下载地址
用户评论
码姐姐匿名网友 2020-07-17 22:48:53

研究一下对自己的研究有帮助