1. 首页
  2. 存储
  3. Microsoft
  4. 网络爬虫技术详解

网络爬虫技术详解

上传者: 2020-11-08 21:22:23上传 PDF文件 2.49MB 热度 22次
你知道百度、Google 是如何获取数以亿计的网页并且实时更新的吗?你知道在搜索引 擎领域人们常说的Spider 是什么吗?本章将全面介绍网络爬虫的方方面面。读完之后,你 将完全有能力自己写一个网络爬虫,随意抓取互联网上任何感兴趣的东西。 既然百度、Google 这些搜索引擎巨头已经帮我们抓取了互联网上的大部分信息,为什 么还要自己写爬虫呢?因为深入整合信息的需求是广泛存在的。在企业中,爬虫抓取下来 的信息可以作为数据仓库多维展现的数据源,也可以作为数据挖掘的来源。甚至有人为了 炒股,专门抓取股票信息。既然从美国中情局到普通老百姓都需要,那还等什么,让我们 快开始吧。
用户评论