MachineLearning project 源码
数据集很大,请从kaggle下载: 下载training_variants.zip和training_text.zip解压缩,并将这两个解压缩的文件放在同一文件夹的training文件夹中。 项目概况 它是多类(9类)分类问题,分类错误的成本很高。 KPI(关键绩效指标):多类对数丢失和混淆矩阵。 有3个功能: 基因:绝对的 变体:分类 文字:文字 #分类特征是使用2种技术进行转换的: OneHot编码:高暗淡 响应编码:低暗 #单变量分析仅使用基因,仅变异,仅文本和文本的单变量分析是这三种方法中最好的。 我尝试了很多模型,下面列出了模型: 1. MultinomialNB天真贝叶斯 2. KNN 3.具有类平衡的逻辑回归 4.没有类平衡的逻辑回归 5.线性支持向量机 6.随机森林+响应编码数据 7.随机森林+ OneHotEncoded数据 8.堆叠分类器(LR + SVC
用户评论