1. 首页
  2. 数据库
  3. 其它
  4. 用python+hadoopstreaming编写分布式程序

用python+hadoopstreaming编写分布式程序

上传者: 2021-02-01 15:09:02上传 PDF文件 282.42KB 热度 5次
什么是Hadoop?Google为自己的业务需要提出了编程模型MapReduce和分布式文件系统GoogleFileSystem,并发布了相关论文(可在Google Research的网站上获得:GFS、MapReduce)。DougCutting和Mike Cafarella在开发搜索引擎Nutch时对这两篇论文做了自己的实现,即同名的MapReduce和HDFS,合起来就是Hadoop。MapReduce的Dataflow如下图,原始数据经过mapper处理,再进
用户评论