海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文 上传者:lmlmvxi 2020-07-17 22:48:53上传 DOC文件 222.5KB 热度 18次 论 文 摘 要 本文首先由WWW的起源和发展导出搜索引擎技术的出现和发展。北大天网是这类技术在中国的最早的成功产品之一,本文将大体介绍其体系结构和技术特点。 搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作为本文的重点。 最后,本文试图指出现有系统的处理能力极限和瓶颈,并在此基础上作新的体系结构的探讨。 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 码姐姐匿名网友 2020-07-17 22:48:53 研究一下对自己的研究有帮助 发表评论 lmlmvxi 资源:18 粉丝:0 +关注 上传资源 免责说明 本站只是提供一个交换下载平台,下载的内容为本站的会员网络搜集上传分享交流使用,有完整的也有可能只有一分部,相关内容的使用请自行研究,主要是提供下载学习交流使用,一般不免费提供其它各种相关服务! 本站内容泄及的知识面非常广,请自行学习掌握,尽量自已动脑动手解决问题,实践是提高本领的途径,下载内容不代表本站的观点或立场!如本站不慎侵犯你的权益请联系我们,我们将马上处理撤下所有相关内容!联系邮箱:server@dude6.com
研究一下对自己的研究有帮助