特征工程.ipynb
异常处理:
通过箱线图(或3-Sigma)分析删除异常值;
BOX-COX转换(处理有偏分布);
长尾截断;
特征归一化/标准化:
标准化(转换为标准正态分布);
归一化(抓换到[0,1]区间);
针对幂律分布,可以取log
数据分桶:
等频分桶;
等距分桶;
Best-KS分桶(类似利用基尼指数进行二分类);
卡方分桶;
缺失值处理:
不处理(针对类似XGBoost等树模型);
删除(缺失数据太多);
插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩
下载地址
用户评论