统计hdfs中小文件的占比 - 代码天地

统计hdfs中小文件的占比

其他 2018-12-24 12:39:51 阅读次数: 0

package kaoshi831;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Options.CreateOpts.BlockSize;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;

//编写程序统计出HDFS文件系统中文件大小小于HDFS集群中的默认块大小的文件占比
public class tongji {

    public static void main(String[] args) throws IOException, InterruptedException, URISyntaxException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf, "hadoop");
        Path path = new Path("/");
        long blockSize;
        int smallfile = 0;
        int filecount = 0;
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(path, false);
        while(listFiles.hasNext()){
            filecount++;

            LocatedFileStatus next = listFiles.next();
            //获取每个文件的大小
            long len = next.getLen();
            //获取hdfs的默认块大小
            blockSize = next.getBlockSize();
            //如果小于默认block块的大小，则视为小文件
            if(len < blockSize){
                //指定目录下小文件计数器
                smallfile++;
            }
        }
        //计算小文件的占比，并输出
                String result = (smallfile * 1f /filecount * 100)+"%";
                System.out.println(result);
                System.out.println(blockSize);
        fs.close();
    }

}

猜你喜欢

转载自blog.csdn.net/YZY_001/article/details/82314205

统计hdfs中小文件的占比

hdfs小文件问题

HDFS处理小文件

合并hdfs小文件

hdfs小文件处理

HDFS小文件优化方法

hdfs小文件问题及解决

HDFS小文件治理方案

hdfs大量小文件压缩

hadoop中小文件的处理思路

hdfs上小文件文件合并，

hdfs 小文件合并方案(附代码)

利用Hbase解决HDFS小文件合并

清理hdfs小文件shell脚本

HDFS无法对大量小文件进行存储

HDFS的API操作-小文件的合并

将HDFS上的小文件进行归档

HDFS如何处理小文件

python spark中parquet文件写到hdfs，同时避免太多的小文件（block小文件合并）

合并HDFS和本地文件系统中的小文件

HDFS小文件解决方案---archive归档文件命令

HDFS无法高效存储大量小文件，如何处理好小文件？

如何从根源上解决 HDFS 小文件问题

hdfs为啥不擅长存储大量的小文件

小文件有什么危害？（hive、spark到hdfs）

Hadoop中HDFS小文件产生场景及其处理方案

JAVA API操作小文件合并至HDFS（笔记）

大数据优化方案----HDFS小文件优化方法

【大数据优化】（一）HDFS 上小文件优化

flume sink到hdfs不断生成小文件

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)