lucene_search_engine_application 源码
lucene_search_engine_application 信息检索系统,它解析文本和html文档,并在给定的搜索查询中检索前10个相关文档,该搜索查询分别包含诸如文件名,标题,等级和得分之类的参数。 程序流程 该功能已模块化并实现为以下逻辑块: 进行文件的预处理。包括标记化和停用词消除以及将Porter Stemmer与English Analyzer结合使用的步骤。 索引编制 使用排名算法进行搜索,以根据文档的相似性对文档集合进行排序,以根据用户的查询检索最佳结果。 使用的库: Apache Lucene lucene-core-8.2.0-用于索引和搜索文本文档 jsoup-1.12.1-用于解析HTML文档 输出
下载地址
用户评论