1. 首页
  2. 大数据
  3. 算法与数据结构
  4. 《RapidMiner数据分析与挖掘实战》第7章数据预处理

《RapidMiner数据分析与挖掘实战》第7章数据预处理

上传者: 2019-01-07 21:23:23上传 DOC文件 1.45MB 热度 56次
在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。 数据预处理的主要内容包括数据清洗,数据集成,数据变换和数据规约。处理过程如图7 1所示。
用户评论