1. 首页
  2. 操作系统
  3. Linux
  4. Apache Spark Shuffle I/O 在 Facebook 的优化

Apache Spark Shuffle I/O 在 Facebook 的优化

上传者: 2020-12-09 13:56:13上传 ZIP文件 120.87MB 热度 19次
我们都知道,Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook,单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据;而且 shuffle reads 也是一种低效的操作,这会大大延长作业的整体执行时间,并且消耗大量的系统资源。 为了提高 shuffle 的性能并提高资源利用率,Facebook 开发了 Spark-optimized Shuffle (SOS) 。 这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了,作业整体
下载地址
用户评论