1. 首页
  2. 编程语言
  3. Python
  4. TF-IDF与余弦相似性的应用(一) 自动提取关键词

TF-IDF与余弦相似性的应用(一) 自动提取关键词

上传者: 2022-01-24 18:44:59上传 PDF文件 234.56 KB 热度 7次

考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。log表示对得到的值取对数。可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张。则它们的逆文档频率和TF-IDF如下:从上表可见,"蜜蜂"的TF-IDF值最高,"养殖"其次,"中国"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。TF-IDF算法的优点是简单快速,结果比较符合实际情况。)下一次,我将用TF-IDF结合余弦相似性,衡量文档之间的相似程度。

用户评论