网络爬虫 源码
什么是网络爬虫? Web搜寻器是一种软件程序,可以有条不紊和自动化地浏览万维网。 它通过递归地从一组起始页面中获取链接来收集文档。 Web搜寻器的用法 通过搜索引擎在下载页面上创建索引以执行更快的搜索 测试网页和链接的有效语法和结构。 监视站点以查看其结构或内容何时更改。 维护流行网站的镜像站点。 搜索版权侵权。 为了建立一个特殊用途的索引,例如,一个对Web上的多媒体文件中存储的内容有一定了解的索引。 系统的要求和目标 功能要求 假设我们需要爬网所有网络。 非功能性要求 可扩展性我们的服务需要具有可伸缩性,以便它可以对整个Web进行爬网,并可以用于获取数亿个Web文档。 可扩展性 我们的服务应以模块化的方式设计,并期望将新功能添加到其中。 将来可能会有较新的文档类型需要下载和处理。 遵守robots.txt排除网址 体积约束 4周内可抓取的页面数:150亿 单机设计 在
用户评论