特征工程(三)不同类型数据处理pipeline
非常简略的整理下在特征工程我会采用的一些常规流程,不做具体介绍。 一.数值特征 1. 预处理 2. 离散值处理 labelEncoder / map / one-hot-encoding / get_dummy 二值特征转换 多项式特征(模型用SVM) 3. 连续特征离散化 binning 分位数切分 4. 对数变换(模拟正态分布) 二.日期特征 ts_objs = np.array([pd.Timestamp(item) for item in np.array(df.Time)]) 转换成timestamp标准格式 '2015-03-08 10:30:00.36
下载地址
用户评论