百万级别中文文本分类
文章目录0.split_word.py——分词1.concat_data.py——拼接2.train_model.py——模型训练3.result_judge.py——结果评判其他github 项目地址 从搜狐上爬取1042326篇新闻文本,其中包含10个类别:automobile、culture、dressing、entertainment、finance、life、medical、military、social、sports,每类包含十万篇文本左右,对训练集和测试集以 3:7 的比例划分进行文本分类。 文本格式如下所示 content:春运高峰,各航空公司为缓解运力紧张,在部分航线增设了夜
用户评论