1. 首页
  2. 人工智能
  3. 机器学习
  4. Stopwords中文停用词表合集

Stopwords中文停用词表合集

上传者: 2025-05-31 20:04:26上传 ZIP文件 13.79KB 热度 5次

中文项目里要做文本?你八成得先一遍停用词。stopwords-master这个资源就挺适合你,直接打包了哈工大、百度、川大几套常用的中文停用词表,挺全的,免去你到处找的麻烦。

哈工大的词表,偏学术风,适合偏向语言的项目;百度那套更接地气,挺适合内容运营、搜索优化这些场景;川大的也不错,偏中性,平衡了一下覆盖面和精准度。

压缩包叫stopwords-master.zip,你解压之后能看到好几个.txt格式的词表文件,用起来挺方便,Python 项目里用jieba或者nltk一引入就能跑,连预的代码都不用怎么改。

比如你在做关键词提取,直接加载停用词列表,用jieba.analyse.extract_tags就能排除那些“的”“是”“在”这种干扰词,关键词一下子清晰多了。

文件我翻了一下,基本没太多水分,而且每个词表都注明了来源,像哈工大停用词表.txtbaidu_stopwords.txt这种,按需选就行。Github 上多 NLP 项目也用这一套,稳定性和兼容性都还不错。

对了,这里可以下载最全打包版,有兴趣你也可以分开下载不同版本试试看,像哈工大川大的单独资源也都挂着。

如果你做的是爬虫、情感、搜索推荐这些中文相关的应用,建议直接把它塞进你的预流程,效果还挺。要是词表不太适合你项目的语境,删删改改也不难。

下载地址
用户评论