Stopwords中文停用词表合集
中文项目里要做文本?你八成得先一遍停用词。stopwords-master这个资源就挺适合你,直接打包了哈工大、百度、川大几套常用的中文停用词表,挺全的,免去你到处找的麻烦。
哈工大的词表,偏学术风,适合偏向语言的项目;百度那套更接地气,挺适合内容运营、搜索优化这些场景;川大的也不错,偏中性,平衡了一下覆盖面和精准度。
压缩包叫stopwords-master.zip
,你解压之后能看到好几个.txt
格式的词表文件,用起来挺方便,Python 项目里用jieba
或者nltk
一引入就能跑,连预的代码都不用怎么改。
比如你在做关键词提取,直接加载停用词列表,用jieba.analyse.extract_tags
就能排除那些“的”“是”“在”这种干扰词,关键词一下子清晰多了。
文件我翻了一下,基本没太多水分,而且每个词表都注明了来源,像哈工大停用词表.txt
、baidu_stopwords.txt
这种,按需选就行。Github 上多 NLP 项目也用这一套,稳定性和兼容性都还不错。
对了,这里可以下载最全打包版,有兴趣你也可以分开下载不同版本试试看,像哈工大、川大的单独资源也都挂着。
如果你做的是爬虫、情感、搜索推荐这些中文相关的应用,建议直接把它塞进你的预流程,效果还挺。要是词表不太适合你项目的语境,删删改改也不难。
下载地址
用户评论