Hadoop大数据分析与挖掘实战.张良均(带详细书签).pdf
本书共14章,分三个部分:基础篇、实战篇、提高篇。基础篇介绍了数据挖掘、Hadoop大数据的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得大数据项目挖掘分析经验,同时快速领悟看似难懂的大数据分析与挖掘理论知识。读者在阅读过程中,应充分利用随书配套的案例建模数据,借助TipDM-HB大数据挖掘建模平台,通过上机实验,以快速理解相关知识与理论。 第一部分是基础篇(第1~4章),第1章的主要内容是数据挖掘概述、大数据餐饮行业应用;第2章针对大数据理论知识进行基础讲解,简明扼要的针对Hadoop安装、原理等做了介绍;第3章介绍了几种大数据挖掘建模平台,同时重点介绍了本书使用的TipDM-HB大数据挖掘平台;第4章对数 据挖掘的建模过程,各种挖掘建模的常用算法与原理及其在大数据挖掘算法库Mahout的实现原理进行了介绍。 第二部分是实战篇(第6~12章),重点对大数据挖掘技术在法律咨询、电子商务、航空、移动通信、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述大数据时代针对大数据的分析方法与过程,最后完成模型构建的顺序进行的,在建模过程关键环节,进行了详细的分析。最后通过上机实践,加深对大数据挖掘案例的认识以及分析流程。 第三部分是高级篇(第13~14章),介绍了基于Hadoop大数据开发的相关技术以及开发步骤,同时使用实例来展示这些步骤,使读者可以自己动手实践,亲自体会开发的乐趣;同时,还介绍了基于TipDM-HB大数据挖掘平台的二次开发实例,借助TipDM-HB大数据挖掘平台二次开发工具,可以更加快捷、高效的完成相关大数据应用的二次开发,降低开发难度,使读者更方便的体会到大数据分析与挖掘的强大魅力。 基础篇 1 第1章 数据挖掘基础 2 1.1 某知名连锁餐饮企业的困惑 2 1.2 从餐饮服务到数据挖掘 3 1.3 数据挖掘的基本任务 4 1.4 数据挖掘建模过程 4 1.4.1 定义挖掘目标 4 1.4.2 数据取样 5 1.4.3 数据探索 6 1.4.4 数据预处理 12 1.4.5 挖掘建模 14 1.4.6 模型评价 14 1.5 餐饮服务中的大数据应用 15 1.6 小结 15 第2章 Hadoop基础 16 2.1 概述 16 2.1.1 Hadoop简介 16 2.1.2 Hadoop生态系统 17 2.2 安装与配置 19 2.3 Hadoop原理 26 2.3.1 Hadoop HDFS原理 26 2.3.2 Hadoop MapReduce原理 27 2.3.3 Hadoop YARN原理 28 2.4 动手实践 30 2.5 小结 33 第3章 Hadoop生态系统:Hive 34 3.1 概述 34 3.1.1 Hive简介 34 3.1.2 Hive安装与配置 35 3.2 Hive原理 38 3.2.1 Hive架构 38 3.2.2 Hive的数据模型 40 3.3 动手实践 41 3.4 小结 45 第4章 Hadoop生态系统:HBase 46 4.1 概述 46 4.1.1 HBase简介 46 4.1.2 HBase安装与配置 47 4.2 HBase原理 50 4.2.1 HBase架构 50 4.2.2 HBase与RDBMS 51 4.2.3 HBase访问接口 52 4.2.4 HBase数据模型 53 4.3 动手实践 54 4.4 小结 61 第5章 大数据挖掘建模平台 62 5.1 常用的大数据平台 62 5.2 TipDM-HB大数据挖掘建模平台 63 5.2.1 TipDM-HB大数据挖掘建模平台的功能 63 5.2.2 TipDM-HB大数据挖掘建模平台操作流程及实例 65 5.2.3 TipDM-HB大数据挖掘建模平台的特点 67 5.3 小结 68 第6章 挖掘建模 69 6.1 分类与预测 69 6.1.1 实现过程 69 6.1.2 常用的分类与预测算法 70 6.1.3 决策树 71 6.1.4 Mahout中Random Forests算法的实现原理 75 6.1.5 动手实践 79 6.2 聚类分析 83 6.2.1 常用聚类分析算法 83 6.2.2 K-Means聚类算法 84 6.2.3 Mahout中K-Means算法的实现原理 88 6.2.4 动手实践 90 6.3 关联规则 93 6.3.1 常用的关联规则算法 93 6.3.2 FP-Growth关联规则算法 94 6.3.3 Mahout中Parallel Frequent Pattern Mining算法的实现原理 98 6.3.4 动手实践 100 6.4 协同过滤 102 6.4.1 常用的协同过滤算法 102 6.4.2 基于项目的协同过滤算法简介 102 6.4.3 Mahout中Itembased Collaborative Filtering算法的实现原理 103 6.4.4 动手实践 106 6.5 小结 109 实战篇 111 第7章 法律咨询数据分析与服务推荐 112 7.1 背景与挖掘目标 112 7.2 分析方法与过程 114 7.2.1 数据抽取 120 7.2.2 数据探索分析 120 7.2.3 数据预处理 125 7.2.4 模型构建 130 7.3 上机实验 139 7.4 拓展思考 140 7.5 小结 145 第8章 电商产品评论数据情感分析 146 8.1 背景与挖掘目标 146 8.2 分析方法与过程 146 8.2.1 评论数据采集 147 8.2.2 评论预处理 150 8.2.3 文本评论分词 155 8.2.4 构建模型 155 8.3 上机实验 167 8.4 拓展思考 168 8.5 小结 169 第9章 航空公司客户价值分析 170 9.1 背景与挖掘目标 170 9.2 分析方法与过程 171 9.2.1 数据抽取 174 9.2.2 数据探索分析 174 9.2.3 数据预处理 175 9.2.4 模型构建 177 9.3 上机实验 182 9.4 拓展思考 183 9.5 小结 183 第10章 基站定位数据商圈分析 184 10.1 背景与挖掘目标 184 10.2 分析方法与过程 186 10.2.1 数据抽取 186 10.2.2 数据探索分析 187 10.2.3 数据预处理 188 10.2.4 构建模型 191 10.3 上机实验 194 10.4 拓展思考 195 10.5 小结 195 第11章 互联网电影智能推荐 196 11.1 背景与挖掘目标 196 11.2 分析方法与过程 197 11.2.1 数据抽取 199 11.2.2 构建模型 199 11.3 上机实验 201 11.4 拓展思考 202 11.5 小结 203 第12章 家电故障备件储备预测分析 204 12.1 背景与挖掘目标 204 12.2 分析方法与过程 206 12.2.1 数据探索分析 207 12.2.2 数据预处理 209 12.2.3 构建模型 212 12.3 上机实验 216 12.4 拓展思考 217 12.5 小结 217 第13章 市供水混凝投药量控制分析 218 13.1 背景与挖掘目标 218 13.2 分析方法与过程 220 13.2.1 数据抽取 221 13.2.2 数据探索分析 221 13.2.3 数据预处理 223 13.2.4 构建模型 227 13.3 上机实验 237 13.4 拓展思考 238 13.5 小结 239 第14章 基于图像处理的车辆压双黄线检测 240 14.1 背景与挖掘目标 240 14.2 分析方法与过程 241 14.2.1 数据抽取 242 14.2.2 数据探索分析 242 14.2.3 数据预处理 242 14.2.4 构建模型 249 14.3 上机实验 250 14.4 拓展思考 250 14.5 小结 251 高级篇 253 第15章 基于Mahout的大数据挖掘开发 254 15.1 概述 254 15.2 环境配置 255 15.3 基于Mahout算法接口的二次开发 258 15.3.1 Mahout算法实例 258 15.3.2 Mahout算法接口的二次开发示例 259 15.4 小结 271 第16章 基于TipDM-HB的数据挖掘二次开发 272 16.1 概述 272 16.1.1 TipDM-HB大数据挖掘建模平台服务接口 272 16.1.2 Apache CXF简介 276 16.2 TipDM-HB大数据挖掘建模平台服务开发实例 277 16.2.1 环境配置 277 16.2.2 开发实例 280 16.3 小结 288 参考资料 289 据挖掘的建模过程,各种挖掘建模的常用算法与原理及其在大数据挖掘算法库Mahout的实现原理进行了介绍。 第二部分是实战篇(第6~12章),重点对大数据挖掘技术在法律咨询、电子商务、航空、移动通信、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述大数据时代针对大数据的分析方法与过程,最后完成模型构建的顺序进行的,在建模过程关键环节,进行了详细的分析。最后通过上机实践,加深对大数据挖掘案例的认识以及分析流程。 第三部分是高级篇(第13~14章),介绍了基于Hadoop大数据开发的相关技术以及开发步骤,同时使用实例来展示这些步骤,使读者可以自己动手实践,亲自体会开发的乐趣;同时,还介绍了基于TipDM-HB大数据挖掘平台的二次开发实例,借助TipDM-HB大数据挖掘平台二次开发工具,可以更加快捷、高效的完成相关大数据应用的二次开发,降低开发难度,使读者更方便的体会到大数据分析与挖掘的强大魅力。 基础篇 1 第1章 数据挖掘基础 2 1.1 某知名连锁餐饮企业的困惑 2 1.2 从餐饮服务到数据挖掘 3 1.3 数据挖掘的基本任务 4 1.4 数据挖掘建模过程 4 1.4.1 定义挖掘目标 4 1.4.2 数据取样 5 1.4.3 数据探索 6 1.4.4 数据预处理 12 1.4.5 挖掘建模 14 1.4.6 模型评价 14 1.5 餐饮服务中的大数据应用 15 1.6 小结 15 第2章 Hadoop基础 16 2.1 概述 16 2.1.1 Hadoop简介 16 2.1.2 Hadoop生态系统 17 2.2 安装与配置 19 2.3 Hadoop原理 26 2.3.1 Hadoop HDFS原理 26 2.3.2 Hadoop MapReduce原理 27 2.3.3 Hadoop YARN原理 28 2.4 动手实践 30 2.5 小结 33 第3章 Hadoop生态系统:Hive 34 3.1 概述 34 3.1.1 Hive简介 34 3.1.2 Hive安装与配置 35 3.2 Hive原理 38 3.2.1 Hive架构 38 3.2.2 Hive的数据模型 40 3.3 动手实践 41 3.4 小结 45 第4章 Hadoop生态系统:HBase 46 4.1 概述 46 4.1.1 HBase简介 46 4.1.2 HBase安装与配置 47 4.2 HBase原理 50 4.2.1 HBase架构 50 4.2.2 HBase与RDBMS 51 4.2.3 HBase访问接口 52 4.2.4 HBase数据模型 53 4.3 动手实践 54 4.4 小结 61 第5章 大数据挖掘建模平台 62 5.1 常用的大数据平台 62 5.2 TipDM-HB大数据挖掘建模平台 63 5.2.1 TipDM-HB大数据挖掘建模平台的功能 63 5.2.2 TipDM-HB大数据挖掘建模平台操作流程及实例 65 5.2.3 TipDM-HB大数据挖掘建模平台的特点 67 5.3 小结 68 第6章 挖掘建模 69 6.1 分类与预测 69 6.1.1 实现过程 69 6.1.2 常用的分类与预测算法 70 6.1.3 决策树 71 6.1.4 Mahout中Random Forests算法的实现原理 75 6.1.5 动手实践 79 6.2 聚类分析 83 6.2.1 常用聚类分析算法 83 6.2.2 K-Means聚类算法 84 6.2.3 Mahout中K-Means算法的实现原理 88 6.2.4 动手实践 90 6.3 关联规则 93 6.3.1 常用的关联规则算法 93 6.3.2 FP-Growth关联规则算法 94 6.3.3 Mahout中Parallel Frequent Pattern Mining算法的实现原理 98 6.3.4 动手实践 100 6.4 协同过滤 102 6.4.1 常用的协同过滤算法 102 6.4.2 基于项目的协同过滤算法简介 102 6.4.3 Mahout中Itembased Collaborative Filtering算法的实现原理 103 6.4.4 动手实践 106 6.5 小结 109 实战篇 111 第7章 法律咨询数据分析与服务推荐 112 7.1 背景与挖掘目标 112 7.2 分析方法与过程 114 7.2.1 数据抽取 120 7.2.2 数据探索分析 120 7.2.3 数据预处理 125 7.2.4 模型构建 130 7.3 上机实验 139 7.4 拓展思考 140 7.5 小结 145 第8章 电商产品评论数据情感分析 146 8.1 背景与挖掘目标 146 8.2 分析方法与过程 146 8.2.1 评论数据采集 147 8.2.2 评论预处理 150 8.2.3 文本评论分词 155 8.2.4 构建模型 155 8.3 上机实验 167 8.4 拓展思考 168 8.5 小结 169 第9章 航空公司客户价值分析 170 9.1 背景与挖掘目标 170 9.2 分析方法与过程 171 9.2.1 数据抽取 174 9.2.2 数据探索分析 174 9.2.3 数据预处理 175 9.2.4 模型构建 177 9.3 上机实验 182 9.4 拓展思考 183 9.5 小结 183 第10章 基站定位数据商圈分析 184 10.1 背景与挖掘目标 184 10.2 分析方法与过程 186 10.2.1 数据抽取 186 10.2.2 数据探索分析 187 10.2.3 数据预处理 188 10.2.4 构建模型 191 10.3 上机实验 194 10.4 拓展思考 195 10.5 小结 195 第11章 互联网电影智能推荐 196 11.1 背景与挖掘目标 196 11.2 分析方法与过程 197 11.2.1 数据抽取 199 11.2.2 构建模型 199 11.3 上机实验 201 11.4 拓展思考 202 11.5 小结 203 第12章 家电故障备件储备预测分析 204 12.1 背景与挖掘目标 204 12.2 分析方法与过程 206 12.2.1 数据探索分析 207 12.2.2 数据预处理 209 12.2.3 构建模型 212 12.3 上机实验 216 12.4 拓展思考 217 12.5 小结 217 第13章 市供水混凝投药量控制分析 218 13.1 背景与挖掘目标 218 13.2 分析方法与过程 220 13.2.1 数据抽取 221 13.2.2 数据探索分析 221 13.2.3 数据预处理 223 13.2.4 构建模型 227 13.3 上机实验 237 13.4 拓展思考 238 13.5 小结 239 第14章 基于图像处理的车辆压双黄线检测 240 14.1 背景与挖掘目标 240 14.2 分析方法与过程 241 14.2.1 数据抽取 242 14.2.2 数据探索分析 242 14.2.3 数据预处理 242 14.2.4 构建模型 249 14.3 上机实验 250 14.4 拓展思考 250 14.5 小结 251 高级篇 253 第15章 基于Mahout的大数据挖掘开发 254 15.1 概述 254 15.2 环境配置 255 15.3 基于Mahout算法接口的二次开发 258 15.3.1 Mahout算法实例 258 15.3.2 Mahout算法接口的二次开发示例 259 15.4 小结 271 第16章 基于TipDM-HB的数据挖掘二次开发 272 16.1 概述 272 16.1.1 TipDM-HB大数据挖掘建模平台服务接口 272 16.1.2 Apache CXF简介 276 16.2 TipDM-HB大数据挖掘建模平台服务开发实例 277 16.2.1 环境配置 277 16.2.2 开发实例 280 16.3 小结 288 参考资料 289
用户评论