MATLAB数据挖掘实践指南
在数据挖掘中,单值列缺乏信息,应忽略。差异值列妨碍算法识别规律。提取地理信息等派生变量,忽略原始列。
异常值分析:异常值是显著偏离其他值的个别值。3σ原则:根据正态分布,异常值定义为偏差超过平均值三倍标准差的值,出现概率极低(0.003)。
下载地址
用户评论