Python实现中文论文相似度比较(jieba库用法)
利用jieba库对中文论文进行相似度比较和分类。源码包括001.py、003.py、004.py三个文件。001.py用于将原文转换为utf-8格式,用户可直接运行。003.py使用jieba库对训练集中的论文进行分词,并按词频排序输出至文档,停用词库存放在文件夹中的stopwords.txt中。004.py可进行论文相似度分析并输出结果。复旦大学中文文本分类数据集已包含在文档中,用户可从中选择训练集和测试集。运行001.py完成格式转换后,执行003.py可在List文件夹中生成训练集各类论文分词后的文档,测试集中的论文需与代码同级目录下。最后执行004.py获得相似度结果。
用户评论