搜狐新闻数据分类处理
共有24000条训练样本,12个分类,每个分类2000条样本。测试集包含12000条样本,同样是12个分类,每个分类1000条样本。提供的代码演示在.py文件中,不含数据集文本。数据集可在博主主页下载:sohu_test.txt、sohhu_train.txt、sohu_train_cut.txt以及stopwords.txt。
下载地址
用户评论