1. 首页
  2. 编程语言
  3. Python
  4. python爬虫入门教程--HTML文本的解析库BeautifulSoup(四)

python爬虫入门教程--HTML文本的解析库BeautifulSoup(四)

上传者: 2022-05-14 10:49:57上传 PDF文件 121.14 KB 热度 38次

BeautifulSoup 是一个用于解析 HTML 文档的 Python 库,通过 BeautifulSoup,你只需要用很少的代码就可以提取出 HTML 中任何感兴趣的内容,此外,它还有一定的 HTML 容错能力,对于一个格式不完整的HTML 文档,它也可以正确处理。BeautifulSoup3 被官方放弃维护,你要下载最新的版本 BeautifulSoup4。学习 BeautifulSoup4 前有必要先对 HTML 文档有一个基本认识,如下代码,HTML 是一个树形组织结构。BeatifulSoup 有3类常用的数据类型,分别是 Tag、NavigableString、和 BeautifulSoup。

下载地址
用户评论