ApacheKylin权威指南
Apache Kylin权威指南,解决Hadoop查询速度的问题,做到亚秒级的查询速度目录推荐序推荐序二推荐序三推荐序四前言第1章 Apache Kylin概述1.1背景和历史1.2 Apache Kylin的使命1.2.1为什么要使用 Apache Kylin1.2.2 Apache Kylin怎样解决关键问题13 Apache Kylin的工作原理3.1维度和度量简介1.3.2Cube和 Cuboid1.3.3工作原理1.4 Apache Kylin的技术架构1.5 Apache Kylin的主要特点1.5.1标准SO接口1.5.2支持超大数据集53亚秒级响应1.54可伸缩性和高吞吐率1.5.5BI及可视化工具集成1.6与其他开源产品比较1.7小结第2章快速入门2.1核心概念2.1.1数据仓库、OLAP与BI2.1.2维度和度量2.1.3事实表和维度表2.1.4Cube、 Cuboid和 Cube segment22在Hive中准备数据2.2.1星形模型222维度表的设计2.2.3Hive表分区2.2.4了解维度的基数2.2.5 Sample Data23设计Cube2.3.1导入Hive表定义2.3.2创建数据模型2.3.3创建Cube24构建Cube2.4.1全量构建和增量构建242历史数据刷新24.3合并2.5查询Cube2.6SQL参考2.7小结第3章增量构建3.1为什么要增量构建3.2设计增量Cube3.2.1设计增量Cube的前提3.2.2增量Cube的创建33触发增量构建3.3.1 Web Gu触发332构建相关的 Rest Api34管理Cube碎片34.1合并 Segment34.2自动合并343保留 Segment3.4.4数据持续更新3.5小结第4章流式构建4.1为什么要流式构建4.2准备流式数据4.2.1数据格式4.2.2消息队列4.2.3创建 Schema4.3设计流式Cube4.3.1创建 Model4.3.2创建Cube4.4流式构建原理4.5蝕发流式构建4.5.1单次触发4.52自动化多次触发4.5.3出错处理4.6小结第5章查询和可视化5.1 Web GUI5.1.1查询5.1.2显示结果5.2 Rest API5.2.1杳询认证52.2查询请求参数52.3查询返回结果5.3 ODBC5.4 JDBC5.4.1获得驱动包5.4.2认证54.3URL格式5.44获取元数据信息5.5通过 Tableau访问 Kylin5.5.1连接 Kylin数据源5.52设计数据模型5.53通过Live方式连接554自定义SQL555可视化5.5.6发布到 Tableau server5.6 Zeppelin集成5.6.1 Zeppelin架构简介56.2 KylinInterpreter的工作原理563如何使用 Zeppelin访问 Kylin57小结第6章Cube优化6. Cuboid剪枝优化6.1.1维度的诅咒6..2检查 Cuboid数量6.1.3检查Cube大小6.1.4空间与时间的平衡62剪枝优化的工具62.1使用衍生维度6.2.2使用聚合组6.3并发粒度优化64 Row keys优化64.1编码64.2按维度分片64.3调整 Rowkeys顺序6.5其他优化6.5.1降低度量精度6.5.2及吋清理无用的 Segment6.6小结第7章应用案例分析7.1基本多维分析7.1.1数据集7.1.2数据导入7.1.3创建数据模型7.1.4创建Cube7.1.5构建Cube7.1.6SOL查询7.2流式分析7.2.1 Kafka数据源7.2.2创建数据表7.2.3创建数据模型7.2.4创建Cube7.2.5构建Cube7.2.6SOL查询7.3小结第8章扩展 Apache Kylin8.1可扩展式架构8.1.1工作原理8.1.2三大主要接口82计算引擎扩展8.2.1 EngineFactory8.2.2 MRBatch Engine28.2.3 BatchCubingJobBuilder28.2.4 IMRInput8.2.5 IMROutput283数据源扩展84存储扩展8.5聚合类型扩展8.5.1聚合的JSON定义8.52聚合类型工厂8.53聚合类型的实现8.6维度编码扩展8.6.1维度编码的JSON定义8.6.2维度编码工厂8.63维度编码的实现8.7小结第9章 Apache Kylin的企业级功能91身份验证91.1自定义验证9.1.2LDAP验证9.1.3单点登录92授权93小结第10章运维管理10.1安装和配置10.1.1必备条件
用户评论