1. 首页
  2. 区块链
  3. BlueMix
  4. PDF 文件文本内容提取的设计与实现

PDF 文件文本内容提取的设计与实现

上传者: 2020-09-19 15:19:05上传 APPLICATION/PDF文件 414KB 热度 12次
PDF 文件格式是面向显示的,本身缺乏语义信息,如果不将其内容提取出来,就不能实现基于语义的查询。本文设计并实现了一款PDF 内容提取的工具,首先对PDF 文件进行了文本解析,将正文内容字符串流从源码中提取出,并对提取后的字符串流利用解密算法进行解密,然后利用Filter 解码算法进行解码,最后将PDF 的文本内容从解码后的字符串流中提取出。结果表明本文提出的方法不但能够非常准确的实现PDF 文件格式的转换,而且可以非常方便的嵌入到搜索引擎中。
用户评论
码姐姐匿名网友 2020-09-19 15:19:05

原理大家都知道,具体的实现=。=各种复杂情况要考虑啊