HBase基础知识培训教程
HBase 的大数据能力,真的挺强的。它是那种你扔进亿级数据也不带喘的分布式列式数据库,底层用的是 Hadoop 这套老底子,稳定还抗造。你只要搞清楚RowKey、Column Family这些基本概念,上手其实不难。设计表结构的时候可以稀疏,不同的行你爱加啥列都行,HBase 根本不管。嗯,存数据的时候也挺灵活,默认还带多版本功能,像时间戳自动帮你记着历史记录,查日志、审计那种场景合适。
HBase 的访问方式比较多样,HBase Shell适合简单操作,Java API效率高,连Thrift
都支持,Python、PHP 都能接。你要是偏向数据那边,Hive、Pig这些工具也能联动着用。操作不复杂,但建议多用命令行熟练下基本操作,比如create
、put
、scan
,能帮你理解数据是怎么流转的。
内部结构方面也蛮有意思的。HMaster主要是个大管家,负责分配任务、宕机啥的,但它不负责读写,真正干活的是HRegionServer。每个 RegionServer 下面有一堆Region,数据从内存的MemStore缓一下再写到硬盘StoreFile,落到HFile里。整个过程写入快、读取也还不错,适合那种读多写少、访问有规律的场景。
你要是对列族设计比较关心,推荐你看看HBase 最佳实践列族设计优化,讲得还挺细。还有像Region 合并与拆分这类文章,蛮适合了解集群稳定性维护。
提醒一句:HBase 不是万能的,适合那种数据量大、写多读少或者读规律的情况。如果你追求复杂查询或者事务能力,那得配合其他数据库一起用了。
下载地址
用户评论