HDFS的API操作-小文件的合并 - 代码天地

HDFS的API操作-小文件的合并

其他 2020-02-29 09:37:01 阅读次数: 0

小文件合并

由于 Hadoop 擅长存储大文件，因为大文件的元数据信息比较少，如果 Hadoop 集群当中有大量的小文件，那么每个小文件都需要维护一份元数据信息，会大大的增加集群管理元数据的内存压力，所以在实际工作当中，如果有必要一定要将小文件合并成大文件进行一起处理

在我们的 HDFS 的 Shell 命令模式下，可以通过命令行将很多的 hdfs 文件合并成一个大文件下载到本地

cd /export/servers
hdfs dfs -getmerge /config/*.xml ./hello.xml

既然可以在下载的时候将这些小文件合并成一个大文件一起下载，那么肯定就可以在上传的时候将小文件合并到一个大文件里面去

@Test
public void mergeFile() throws  Exception{
    //获取分布式文件系统
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://192.168.52.250:8020"), new 
Configuration(),"hadoop");
    FSDataOutputStream outputStream = fileSystem.create(new Path("/bigfile.xml"));
    //获取本地文件系统
    LocalFileSystem local = FileSystem.getLocal(new Configuration());
    //通过本地文件系统获取文件列表，为一个集合
    FileStatus[] fileStatuses = local.listStatus(new Path("file:///F:\\上传小文件合并"));
    for (FileStatus fileStatus : fileStatuses) {
        FSDataInputStream inputStream = local.open(fileStatus.getPath());
       IOUtils.copy(inputStream,outputStream);
        IOUtils.closeQuietly(inputStream);
    }
    IOUtils.closeQuietly(outputStream);
    local.close();
    fileSystem.close();
}

Leon_Jinhai_Sun

发布了2209 篇原创文章 · 获赞 50 · 访问量 15万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/Leon_Jinhai_Sun/article/details/104464562

HDFS的API操作-小文件的合并

JAVA API操作小文件合并至HDFS（笔记）

合并hdfs小文件

【大数据day11】——HDFS 的 API 操作（使用文件系统方式访问数据，HDFS小文件合并，HDFS的高可用机制, Hadoop的联邦机制(Federation)）

hdfs上小文件文件合并，

hdfs 小文件合并方案(附代码)

利用Hbase解决HDFS小文件合并

合并HDFS和本地文件系统中的小文件

python spark中parquet文件写到hdfs，同时避免太多的小文件（block小文件合并）

hdfs小文件问题

HDFS处理小文件

hdfs小文件处理

hive小文件合并

小文件合并

Hadoop小文件合并

Hadoop合并小文件

【图文详细】HDFS面试题：当小文件数量过多时，如何合并小文件

HDFS小文件优化方法

hdfs小文件问题及解决

HDFS小文件治理方案

hdfs大量小文件压缩

Java API操作HDFS文件

转：Hive小文件合并

使用Impala合并小文件

Spark合并输出小文件

HDFS的Java Api操作【获取Hdfs文件系统、遍历、创建文件和文件夹、上传、下载、权限访问控制、合并上传或下载】

统计hdfs中小文件的占比

清理hdfs小文件shell脚本

HDFS无法对大量小文件进行存储

将HDFS上的小文件进行归档

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)