机器学习中文文本分类实战代码数据
1.文本类别数10类2.训练集文档数50000篇每类平均5000篇.3.测试集文档数50000篇每类平均5000篇.分组完成实验组员数量3个人实现可以获得实验加分.实验内容利用分类算法实现对文本的数据挖掘主要包括1.语料库的构建主要包括利用爬虫收集Web文档等2.语料库的数据预处理包括文档建模如去噪分词建立数据字典使用词袋模型或主题模型表达文档等注使用主题模型如LDA可以获得实验加分3.选择分类算法朴素贝叶斯必做SVM其他等训练文本分类器理解所选的分类算法的建模原理实现过程和相关参数的含义4.对测试集的文本进行分类5.对测试集的分类结果利用正确率和召回率进行分析评价计算每类正确率召回率计算总体正确率和召回率.
用户评论