1. 首页
  2. 大数据
  3. spark
  4. Spark SQL 在字节跳动的优化实践 郭俊.pdf

Spark SQL 在字节跳动的优化实践 郭俊.pdf

上传者: 2020-07-21 20:03:52上传 PDF文件 47.95MB 热度 24次
Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。
用户评论