HDFS如何处理小文件

HDFS小文件的影响

  • 影响NameNode的寿命,因为每个文件元数据存储在NameNode的内存中
  • 影响计算引擎的任务数量,比如每个小的文件都会生成一个Map任务

数据输入小文件处理

  • 合并小文件:对小文件进行归档(Har)
  • 采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景
  • 对于大量小文件job,可以开启JVM重用

(四处整理的)

猜你喜欢

转载自blog.csdn.net/gym02/article/details/111463830