1. 首页
  2. 数据库
  3. 其它
  4. TF IDF和BM25算法原理及python实现

TF IDF和BM25算法原理及python实现

上传者: 2020-12-30 20:02:21上传 PDF文件 131.45KB 热度 16次
1 TF-IDF TF-IDF是英文Term Frequency–Inverse Document Frequency的缩写,中文叫做词频-逆文档频率。 一个用户问题与一个标准问题的TF-IDF相似度,是将用户问题中每一词与标准问题计算得到的TF-IDF值求和。计算公式如下: TF-IDF算法,计算较快,但是存在着缺点,由于它只考虑词频的因素,没有体现出词汇在文中上下文的地位,因此不能够很好的突出语义信息。 import numpy as np class TF_IDF_Model(object): def __init__(self, documents_list):
下载地址
用户评论