1. 首页
  2. 编程语言
  3. 其他
  4. 论文研究一种面向HDFS中海量小文件的存取优化方法.pdf

论文研究一种面向HDFS中海量小文件的存取优化方法.pdf

上传者: 2019-09-06 06:38:31上传 PDF文件 1.21MB 热度 53次
为了解决HDFS(Hadoopdistributedfilesystem)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS。从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高了文件命中率和处理速度。实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率。
用户评论