python lxml中etree的简单应用
我一般都是通过xpath解析DOM树的时候会使用lxml的etree,可以很方便的从html源码中得到自己想要的内容。这里主要介绍一下我常用到的两个方法,分别是etree.HTML()和etree.tostrint()。etree.HTML()可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变成_Element对象。例如,这里有一段最简单的html源码:"This is a test",现在想要得到h1标签中的文本,可以这样实现:结果:。通过结果可以知道,xpath()方法放回的结果是一个列表,所以通常在取xpath()方法结果的时候,只取列表中的第一个元素。使用“//h1/text()”试试:通过截图左下角的提示可以知道,使用xpath表达式“//h1/text()”只能得到h1标签中文本的“This”和“test”,用代码实现看看:运行结果:。这时候使用etree.tostring()方法是不是很容易的就解决问题了。
下载地址
用户评论