1. 首页
  2. 大数据
  3. 算法与数据结构
  4. 特征工程.ipynb

特征工程.ipynb

上传者: 2020-06-21 06:45:09上传 IPYNB文件 131.62KB 热度 28次
异常处理: 通过箱线图(或3-Sigma)分析删除异常值; BOX-COX转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到[0,1]区间); 针对幂律分布,可以取log 数据分桶: 等频分桶; 等距分桶; Best-KS分桶(类似利用基尼指数进行二分类); 卡方分桶; 缺失值处理: 不处理(针对类似XGBoost等树模型); 删除(缺失数据太多); 插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩
用户评论