1. 首页
  2. 数据库
  3. 其它
  4. Python爬虫教程之利用正则表达式匹配网页内容

Python爬虫教程之利用正则表达式匹配网页内容

上传者: 2021-02-23 16:00:38上传 PDF文件 348.47KB 热度 9次
前言 Python爬虫,除了使用大家广为使用的scrapy架构外,还有很多包能够实现一些简单的爬虫,如BeautifulSoup、Urllib、requests,在使用这些包时,有的网络因为比较复杂,比较难以找到自己想要的代码,在这个时候,如果能够使用正则表达式,将能很方便地爬取到自己想要的数据。 何为正则表达式 正则表达式是一种描述字符串排列的一种语法规则,通过该规则可以在一个大字符串中匹配出满足规则的子字符串。简单来说,就是给定了一个字符串,在字符串中找到想要的字符串,如一个电话号码,一个IP地址,一个字段,在爬虫过程中,如果灵活使用正则表达式,将极大地提升爬虫效率。 正则表达式
下载地址
用户评论