Boston Housing回归模型数据集
机器学习里的老朋友<<1>>,挺适合拿来练手回归模型。数据结构简单,一共 506 条样本,14 个字段,全是跟房价相关的硬核信息,比如RM
房间数、LSTAT
低收入比例,都是有说服力的特征。
用的是.npz
格式,配合numpy.load()
一口气就能解压出来,拿着字典操作,简单直接。比起手动整理.csv
文件,效率高不少。新手也能轻松上手。
回归模型随便试:线性回归、随机森林、神经网络都挺合适。想玩深一点的,用 Keras 搭个MLP
试试看,效果也还不错,训练速度快,调参也不麻烦。
特征里像CHAS
这种是类别字段,建议先编码;数值字段的话,Z-score
标准化一遍更稳妥。数据量不算大,训练快,但也容易过拟合,交叉验证别忘了。
要注意一点:这个数据集历史挺久了,虽然经典,但实际预测房价用的话还是建议结合其他数据做补充。你要是练模型、调结构、熟悉流程,它真的挺合适。
如果你想下载,可以去这些地方看看:boston_housing.npz,还有其他格式的版本(如.csv
、.zip
)也都有。
下载地址
用户评论