机器学习 利用Titanic沉船数据,对Titanic上的乘客做生存预测。
整理competition提供的数据集,例如:特征过滤,数据归一化。 2. 在linear regression、logistic regression、neuron network或competition提供的算法中,挑出两个算法(必须选择一个实验课上使用的算法做实验,另外一个可以选择其他算法),在Titanic数据集上做十字交叉验证。 3.把每个数据集随机分为两份,一份做训练,另外一份做测试。使用两个算法在划分后的数据上做测试,并记录准确率。这个过程做5次,每次选择不同的训练样本比例(例如:训练样本占总样本的比例为10%, 20%, 30%, 40%, 50%, 初始比例和每次增加的比例,可以自己决定)。 4. 在报告中对数据集以及两个算法做简单描述;在Experimental Results部分介绍实验步骤,并展示实验结果。在Discussion and Conclusion部分对得到的实验结果对比分析。
用户评论
参考很不错