1. 首页
  2. 编程语言
  3. Python
  4. Python 比较文本相似性的方法(difflib,Levenshtein)

Python 比较文本相似性的方法(difflib,Levenshtein)

上传者: 2021-07-06 21:15:12上传 PDF文件 60.53 KB 热度 12次

最近工作需要用到序列匹配,检测相似性,不过有点复杂的是输入长度是不固定的,举例为:其中,需要从input_and_output 中选取不固定长度的一段作为输入,且顺序不定,然后去与总体进行比较,找出最符合的,开始是对汉字进行数值化编码,不过后来由于出现汉字越来越多,遂放弃该方法,转向别的方式,查找资料发现了两个python包广被推荐,从下面来看各有优缺点,记录之~简单来说,difflib使用时不一定为字符串,但匹配时只有单个元素完全匹配才计入,而Levenshtein则需要输入为字符串,匹配时是整体匹配

用户评论