基于云计算架构的分布式数据挖掘
云计算架构里的分布式数据挖掘,挺适合大数据场景的。比如你有一堆数据分布在不同节点上,通过DDM可以边边挖掘,效率还不错。搭配IaaS、PaaS、SaaS三种服务模型,用起来也蛮灵活,部署和管理省不少事。
OLAP和OLTP的配合,是数据的双保险。一个搞,一个事务,两者整合好,数据挖掘能快不少。尤其你用云平台的时候,多基础资源都能动态分配,压力大的时候也不慌。
像多代理系统那种方案,在分布式环境下蛮聪明的。每个智能代理自己干活,还能互相协同。嗯,这种方式适合挖掘过程中任务多、节点多的情况,效率蹭蹭往上走。
不过也别光顾着兴奋,数据安全和隐私保护可不能忽视。还有数据一致性和系统容错这些问题,实际开发时都得考虑进去。不然真遇到故障,怕是得重头来一遍。
资源方面,推荐几个不错的地址,你可以看看:分布式数据挖掘系统讲得挺详细;Hadoop 分布式云计算这篇对初学者也挺友好;还有OLAP 商业数据仓库这份资料,做报表可以参考下。
如果你正折腾云上的大数据,不妨研究下分布式数据挖掘这块内容。工具、框架都成熟了不少,上手也不难。
下载地址
用户评论