清华大学中文文本分类数据集下载
本文介绍清华大学提供的中文文本分类数据集,该数据集包含女性、体育、文学、校园四种类型的文本。训练集、测试集和停用词集分别放在train、test和stop文件夹中,用户可以使用朴素贝叶斯分类对训练集进行训练,并对测试集进行验证。附带的《人人都听得懂的清华大学数据挖掘》里有更详细的练习指南和数据说明。快来下载吧!
下载地址
用户评论