1. 首页
  2. 数据库
  3. 其它
  4. 爬虫 —–beautifulsoup、Xpath、re (二)

爬虫 —–beautifulsoup、Xpath、re (二)

上传者: 2020-12-23 01:55:40上传 PDF文件 86.72KB 热度 29次
目录1.Xpath简介1.1使用流程:1.2Xpath常用的路径表达式1.3 使用lxml解析2 实战:爬取丁香园-用户名和回复内容2.1 获取url的html2.2 lxml解析html2.3 利用Xpath表达式获取user和content(完成xpath的语句)2.4 保存爬取的内容 1.Xpath简介 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 1.1使用流程: 学习xpath,使用lxml+xpath提取内容。 使用xpath提取丁香园论坛的回复内容。 抓取丁香园网页:http://www.dxy.cn/bbs/
下载地址
用户评论