使用BeautifulSoup进行书籍爬虫新手必看
Beautiful Soup自动将输入文档转换为Unicode编码输出文档转换为utf8编码.你不需要考虑编码方式除非文档没有指定一个编码方式这时Beautiful Soup就不能自动识别编码方式了.然后你仅仅需要说明一下原始编码方式就可以了简称bs4主要功能也是解析和提取数据缺点是效率没有lxml的效率高xpath优点是接口设计人性化使用方便.推荐使用get text适用于标签中嵌套标签的结构BeautifulSoup效率没有xpath高但有些设计人性化对前端人员友好既可以解析本地文件也可以解析服务器响应的数据用BeautifulSoup打开文件时默认gbk编码要先编码成utf8第二个参数lxml不能忘要分清获取的是节点对象还是列表如果是列表可以用索引找到第n个标签
下载地址
用户评论