pdfminer:Python PDF解析器(未积极维护)。 查看pdfminer.six 源码
PDFMiner PDFMiner是用于PDF文档的文本提取工具。 警告:截至2020年,尚未积极维护PDFMiner 。 该代码仍然有效,但是该项目处于Hibernate状态。 对于活动项目,请查看其分支 。 特征: 纯Python(3.6或更高版本)。 支持PDF-1.7。 (好吧,差不多) 获取文本的准确位置以及其他布局信息(字体等)。 执行自动布局分析。 可以将PDF转换为其他格式(HTML / XML)。 可以提取轮廓(TOC)。 可以提取标记的内容。 支持基本加密(RC4和AES)。 支持各种字体类型(Type1,TrueType,Type3和CID)。 支持CJK语言和垂直书写脚本。 具有可用于其他目的的可扩展PDF解析器。 如何使用: > pip install pdfminer > pdf2txt.py samples/simple1.pdf
用户评论