1. 首页
  2. 数据库
  3. 其它
  4. Python 实现Jaccard相似度计算判断英文新闻标题相似度

Python 实现Jaccard相似度计算判断英文新闻标题相似度

上传者: 2020-12-23 01:43:01上传 PDF文件 39.13KB 热度 31次
相似文档检测 Mission data.csv中包含了一个新闻标题列表,试通过近似检测方法,通过Jaccard相似度,检测相似文章,将结果保存到csv文件中,不同文章间用空行隔开。 Work 思路: 两个词作为一段来计算,末尾不够截掉 Jaccard相关系数大于0.5则认为两个新闻标题相似 利用并查集将相似的合并在一起 Code import pandas as pd import nltk import numpy as np class Jaccard: def __init__(self, _len): # _len 为步长值,语句切分的步长值 self._len
用户评论