1. 首页
  2. 数据库
  3. 其它
  4. 大数据常用组件流程

大数据常用组件流程

上传者: 2021-01-17 00:19:21上传 PDF文件 116.48KB 热度 11次
MR 1.MapTask调用Inputformat方法创建一个RecordReader RecordReader以此调用nextkeyvalue getcurrentkey getcurrentvalue方法 获取传递给Mapper类,每读取一行数据就会调用一次map方法,然后将 通过逻辑处理后的输出到OutputCollector 2.Collector将数据缓存到环形缓冲区中,存满80%的数据后会溢出到溢出器 spiller中,然后再溢出器中进行分区和快速排序,将分区后的数据生成 几个文件(多次溢出生成多个文件) 3.在Merge中将这几个文件进行归并排序后生成一个(局部有序–>分区内有序
用户评论