1. 首页
  2. 数据库
  3. 其它
  4. Hadoop面试题总结(五)——优化问题

Hadoop面试题总结(五)——优化问题

上传者: 2021-01-16 12:51:29上传 PDF文件 84.43KB 热度 9次
1、MapReduce跑得慢的原因?(☆☆☆☆☆) Mapreduce 程序效率的瓶颈在于两点: 1)计算机性能 CPU、内存、磁盘健康、网络 2)I/O 操作优化 (1)数据倾斜 (2)map和reduce数设置不合理 (3)reduce等待过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)spill次数过多 (7)merge次数过多等 2、MapReduce优化方法(☆☆☆☆☆) 1)数据输入 (1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map任务,增大map任务装载次数,而任务的装载比较耗时,从而导致mr运行
下载地址
用户评论