Hadoop大数据处理框架
分布式架构的 Hadoop,大数据真的是一把好手。体量大、类型杂、更新快、价值密度低?它都能搞定。你只要把数据往集群里一塞,剩下的事就交给 HDFS、MapReduce 和 YARN,嗯,真的省心不少。
传统数据库在 TB 级以上就开始吃力了,性能一下子掉下去。但Hadoop不一样,它天生就为大规模数据准备的。支持Linux、Windows这些平台也没问题,跑在普通的X86 硬件上也挺稳。配置完一套,用起来还是蛮爽的。
HDFS负责存数据,按块分,分布存放;MapReduce负责算,写好逻辑后它自动并行执行;YARN则是个资源管家,任务调度也靠它。整个系统配合得还不错,是2.x 版本之后,引入 YARN 后灵活性大大提升。
如果你数据类型比较复杂,像图片、视频、日志这类非结构化数据,Hadoop 也能,只是你要配合Hive、HBase这些工具一起用。要理解非结构化内容,嗯,还得靠机器学习那一套。
想深入的话,可以看看这几篇文章,还挺实用的:大数据仓库、4Hive– 基于 HADOOP 的数据仓库、结构化数据和非结构化数据。
如果你正好在折腾大数据,尤其要 PB 级数据,Hadoop 这套方案真挺值得一试的。别忘了去看看Hadoop 官网,文档写得还不错,新手也能看懂。
下载地址
用户评论