Hadoop之mr分布式计算机框架
Hadoop之mr分布式计算机框架 Hadoop核心组件–MR Hadoop 分布式计算框架 1.MapReduce设计理念 何为分布式计算 移动计算,而不是移动数据 2.计算机框架MR 从HDFS存储的数据/文件作为输入(MR的数据来源) 对于这些数据首先要处理成一个个片段 split 每个片段都有个map线程去执行 reduce步骤 生成数据默认也保存在HDFS上 MR对很大的数据统计所有单词出现的次数的过程 分为四个步骤 splitting mapping(java线程执行分析数据片段,并发的同时执行)(根据写的代码执行)(将split中的每个单词都取出来,单词的本身作为键,1作为值
用户评论