1. 首页
  2. 课程学习
  3. Java
  4. Elasticsearch Analysis Jieba 8.18.0中文分词插件

Elasticsearch Analysis Jieba 8.18.0中文分词插件

上传者: 2025-06-18 07:22:21上传 ZIP文件 3.81MB 热度 18次

中文搜索的准确性一直是个老大难问题,elasticsearch-analysis-jieba-8.18.0就挺适合拿来这个。它把熟的结巴分词整合进了Elasticsearch,中文能力一下子就提上去了。

结巴分词用的是词典加HMM模型的组合方案,像“苹果手机”和“苹果公司”这种歧义词,它能分得挺准。插件打包里有两个关键文件:jieba-analysis-1.0.2.jar是分词的算法库,elasticsearch-analysis-jieba-8.18.0.jar是插件的本体。

用这个插件后,Elasticsearch的中文搜索就不再鸡肋,什么用户搜索日志、商品、评论之类的,全都能识别得清清楚楚。还有commons-lang3-3.3.1.jar,就是个工具类库,字符串啊、日期啊都能用上。

另外插件里还有个plugin-descriptor.properties,别删,它是Elasticsearch识别插件要用的。不然你装了插件,ES 也找不到你是谁。

想自己加点新词?可以去动动dic目录。加些行业术语、常见名词,搜索结果会更精准。嗯,这点挺实用,尤其做金融、医疗这类垂直行业的。

如果你用的是 Elasticsearch 8.18.x,想提升中文搜索体验,这个插件真的蛮值得一试。顺手、稳定、效果也还不错。

下载地址
用户评论