1. 首页
  2. 编程语言
  3. Java
  4. apache tika jar包

apache tika jar包

上传者: 2019-07-16 00:24:47上传 其他文档文件 24.52MB 热度 37次
ApacheTika利用现有的解析类库,从不同格式的文档中(例如HTML,PDF,Doc),侦测和提取出元数据和结构化内容。  功能包括:  侦测文档的类型,字符编码,语言,等其他现有文档的属性。  提取结构化的文字内容。  该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。编程语言为Java.
下载地址
用户评论
码姐姐匿名网友 2019-07-16 00:24:47

很不错 赞一个

码姐姐匿名网友 2019-07-16 00:24:47

调用parseToString报错了, org.apache.tika.exception.TikaException: Error creating OOXML extractor

码姐姐匿名网友 2019-07-16 00:24:47

安卓上不知道能不能用?最新的1.11导入后编译过不了,这个试试。

码姐姐匿名网友 2019-07-16 00:24:47

这个可以有,挺好用

码姐姐匿名网友 2019-07-16 00:24:47

还好吧,并不是很全 StandardAnalyzer没有

码姐姐匿名网友 2019-07-16 00:24:47

刚好学习lucene用到tika,赞

码姐姐匿名网友 2019-07-16 00:24:47

挺好用的啊.

码姐姐匿名网友 2019-07-16 00:24:47

谢谢分享,非常实用

码姐姐匿名网友 2019-07-16 00:24:47

程序中需要的jar包