1. 首页
  2. 数据库
  3. 其它
  4. 腾讯大数据之TDW计算引擎解析——Shuffle

腾讯大数据之TDW计算引擎解析——Shuffle

上传者: 2021-02-01 16:32:37上传 PDF文件 625.48KB 热度 21次
腾讯分布式数据仓库(TencentdistributedDataWarehouse,简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求,TDW也在向实时化方向发展,为用户提供更加高效、稳定、丰富的服务。TDW计算引擎包括两部分:一个是偏离线的MapReduce,一个是偏实时的Spark,两者内部都包含了一个重要的过程——Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuf
用户评论