1. 首页
  2. 编程语言
  3. Java
  4. 解析word(Apache Poi)、伪word(htm、mht格式)

解析word(Apache Poi)、伪word(htm、mht格式)

上传者: 2020-05-27 05:15:05上传 ZIP文件 15MB 热度 17次
最近对51job、猎聘、智联导出来的简历进行解析,可是以为该doc文件是Word文件,就直接使用Apachepoi中提供的WordExtractor来读取word文本内容,结果总是报Invalidheadersignature;read0x6D78206C6D74683C,expected0xE11AB1A1E011CFD0,查了好多资料,记录下不成熟解决思路
用户评论