1. 首页
  2. 编程语言
  3. 其他
  4. 论文研究Hadoop平台的海量数据并行随机抽样.pdf

论文研究Hadoop平台的海量数据并行随机抽样.pdf

上传者: 2020-01-01 03:15:33上传 UNKONW文件 498KB 热度 68次
在“信息爆炸”的当今社会,海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的同时,研究并行化数据随机抽样进一步降低处理的数据规模。提出一种单次扫描即可实现清理脏数据并实现等概率抽样的mapreduce并行抽样算法。在hadoop平台上实现并与普通随机抽样方法进行比较,得出其时间效率非常高,是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。
用户评论
码姐姐匿名网友 2019-05-03 18:22:28

不能用啊,总是错

码姐姐匿名网友 2019-05-03 18:22:28

不能用啊,囧

码姐姐匿名网友 2019-05-03 18:22:28

好像不能用,是不是我不会用啊

码姐姐匿名网友 2019-05-03 18:22:28

编译的语法分析器比较复杂,这个实现的不太完整。

码姐姐匿名网友 2019-05-03 18:22:28

不能使用呀

码姐姐匿名网友 2019-05-03 18:22:28

运行后不知道应该输入什么形式的,总是报output of begin is error!

码姐姐匿名网友 2019-05-03 18:22:28

好像不能用啊,缺少一个文件!