1. 首页
  2. 编程语言
  3. Python
  4. 基于Whoosh和BM25算法实现的问答系统.zip

基于Whoosh和BM25算法实现的问答系统.zip

上传者: 2023-02-09 10:43:34上传 ZIP文件 253.89MB 热度 8次
一实验目的本次实验目的是对问答系统的设计与实现过程有一个全面的了解.实验主要内容包括对给定的文本集合进行处理建立索引找出问题的候选答案句并排序答案抽取逐步调优.二实验内容本次实验中首先要自己建立一个检索系统从文本库中检索到与问题最相关的文档可以是一个或者多个.然后对文档中的候选答案句进行排序抽取出最相关的候选答案句.最后在最相关的候选答案句中抽取最精简的答案这个答案可能是一个词或者几个词.实验提供了一部分有标注的数据作为训练集和开发集需要提交的那部分是去掉了标注的数据最终通过提交的答案和标准答案的相似度BLEU1值来评价本次实验的效果.三实验过程及结果3.1文本集合进行处理建立索引我在此章节分别使用了Whoosh开源库和BM25算法构建索引效果上略有差异Whoosh的top1值为86top3为91BM25的top1为89top3为93BM25较优于Whoosh具体讲解如下.3.1.1使用开源库Whoosh构建索引在开始使用whoosh之前需要一个index对象在第一次创建index对象时必须定
下载地址
用户评论