1. 首页
  2. 编程语言
  3. Python
  4. 基于MapReduce和分布式缓存的KNN分类算法研究

基于MapReduce和分布式缓存的KNN分类算法研究

上传者: 2020-10-28 07:12:41上传 PDF文件 369.9KB 热度 13次
随着大数据时代的到来,K最近邻(KNN)算法较高的计算复杂度的弊端日益凸显。在深入研究了KNN算法的基础上,结合MapReduce编程模型,利用其开源实现Hadoop,提出了一种基于MapReduce和分布式缓存机制的KNN并行化方案。该方案只需要通过Mapper阶段就能完成分类任务,减少了TaskTracker与JobTracker之间的通信开销,同时也避免了Mapper的中间结果在集群任务节点之间的通信开销。通过在Hadoop集群上实验,验证了所提出的并行化KNN方案有着优良的加速比和扩展性。
下载地址
用户评论