1. 首页
  2. 大数据
  3. Hadoop
  4. 基于关联规则挖掘的分布式小文件存储方法

基于关联规则挖掘的分布式小文件存储方法

上传者: 2019-01-08 09:14:57上传 PDF文件 905.7KB 热度 24次
Hadoop分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了NameNode的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。
用户评论