基于C4.5算法的莺尾花分类辨识
该项目采用C4.5决策树算法,致力于对莺尾花进行有效分类辨识。在考虑到花萼长度、花萼宽度、花瓣长度、花瓣宽度为连续变量的前提下,必须进行离散化处理。通过应用Gini Index进行离散化,由于本次分类需分为三类,通过可视化观察发现,在四个属性上,三种花的分布存在显著差异。因此,在处理花萼长度、花萼宽度、花瓣长度、花瓣宽度这四个属性时,采用两个分界点将其分为三类。通过调整决策树的最大深度,得到了不同深度下的训练集和测试集准确率,其中最大深度为2时,训练集准确率为0.964,测试集准确率为0.895;最大深度为3时,训练集准确率为0.982,测试集准确率为0.974;最大深度为4时,训练集准确率为1.000,测试集准确率为0.974。
下载地址
用户评论