1. 首页
  2. 大数据
  3. Hive
  4. 基于统计方法的Hive数据仓库查询优化实现

基于统计方法的Hive数据仓库查询优化实现

上传者: 2019-10-13 22:25:59上传 PDF文件 1.35MB 热度 43次
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computationbalancedmodel,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于HiveETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负
用户评论