greenplum从大数据战略到实现 pdf
这是一本系统剖析Greenplum开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书! 本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用Greenplum大数据和机器学习平台实现大数据战略的实践指南。 本书作者来自Greenplum核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于Greenplum开源社区培养大数据产业更多人才。 本书分为四个部分。 第一部分介绍大数据战略。其中,第1章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第2章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。 第二部分介绍大数据平台。其中,第3章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么Greenplum是理想的大数据平台。第4章将介绍Greenplum数据库快速入门指南。第5章将介绍Greenplum架构的主要特点和核心引擎。第6章将介绍数据加载、数据联邦和数据虚拟化。第7章将介绍Greenplum的资源管理以及对混合负载的支持。 第三部分介绍机器学习。其中,第8章介绍Greenplum的各种过程化编程语言(用户自定义函数),用户可以使用Python、R、Java等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第9章将介绍Greenplum内建的机器学习库MADlib,数据科学家可以使用内建的50多种机器学习算法用SQL对数据进行高级分析,并介绍如何扩展MADlib以实现新算法。第10章和第11章将分别介绍Greenplum如何对文本数据和时空数据(GIS)进行存储、计算和分析。第12章将介绍Greenplum丰富的图计算能力。 第四部分介绍运维管理和数据迁移。其中,第13章会介绍各种监控和管理工具及相关企业级产品。第14章介绍数据库备份和恢复。第15章和第16章将分别介绍如何从Oracle和Teradta迁移到Greenplum。