1. 首页
  2. 课程学习
  3. 专业指导
  4. 中文分词及其在基于Lucene的全文检索中的应用

中文分词及其在基于Lucene的全文检索中的应用

上传者: 2020-08-14 06:31:22上传 DOC文件 928.5KB 热度 19次
本文构造出一种适应中英文信息处理的Lucene语言分析器,该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法,该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配,采用基于规则统计技术来进行新词识别,通过对分词中衍生词进行回溯分析来处理分词中歧义,从而达到了高效而准确的分词目的。此外,本文还为该语言分析器构造了一些过滤器,用来对初步分词结果进行过滤、优化。
下载地址
用户评论