1. 首页
  2. 编程语言
  3. Python
  4. Python采集腾讯新闻实例

Python采集腾讯新闻实例

上传者: 2022-07-08 13:12:52上传 PDF文件 100.92 KB 热度 7次

目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称、时间、来源以及正文。接下来分解目标,一步一步地做。python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。这样子就把所有符合条件的链接都保存到urls.txt文件里了。我使用的数据提取的正则表达式是这样的:其实这个并不能匹配到腾讯网的所有新闻,因为上面的新闻有两种格式,标签有一点差别,所以只能提取出一种。这样腾讯网上面的正文基本全部能够提取出来。到此整个采集也就结束了。我简单地使用处理异常的方式,估计应该有其他方式。python的处理简直优雅到死啊!

下载地址
用户评论