用Python提取PDF表格的方法
大家好,从PDF中提取信息是办公场景中经常需要用到的操作,也是经常又读者在后台问的一个操作。内容少的话我们可以手动复制粘贴,但如果需要批量提取就可以考虑使用Python,之前我也转载过相关文章,提到主要就是使用pdfplumber库,今天我们再次举例讲解。通常PDF里的表格分为图片型和文本型。文本型又分简单型和复杂型。文中出现的PDF材料是在巨潮资讯官网下载的公开PDF文件,主题是关于理财的,相关发布信息等信息如下:内容总共有6页,后文中的例子会有展示。在pdfplumber中,open()函数是用来打开PDF文件,该代码用的是相对路径。其实本质上就是提取图片,之后如何对图片进一步处理提取信息就与Python提取PDF表格这个主题没有太大关系了!
用户评论