分布式数据库HBase技术解析
随着关系数据库的长时间流行,Hadoop引入了HDFS和MapReduce,但为何需要引入HBase呢?虽然Hadoop在处理大规模数据的离线批量任务上表现出色,但由于Hadoop MapReduce编程框架的高延迟数据处理机制,使其无法满足对实时处理的需求。HDFS则面向批量访问,不支持随机访问,使得在大规模数据实时处理应用中受限。传统的通用关系型数据库在数据规模剧增时很难解决系统扩展性和性能问题,即使采用分库分表也难以应对。而传统关系数据库在数据结构变化时通常需要停机维护,而空列则浪费了存储空间。因此,业界涌现出一类系统,专注于半结构化数据存储和处理,具有高可扩展性和低写入/查询延迟,包括键值数据库、文档数据库以及列族数据库,比如BigTable和HBase等。HBase已成功应用于互联网服务和传统行业的众多在线数据分析处理系统中。
下载地址
用户评论