python spark中parquet文件写到hdfs，同时避免太多的小文件（block小文件合并） - 代码天地

python spark中parquet文件写到hdfs，同时避免太多的小文件（block小文件合并）

其他 2018-10-20 00:07:54 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yepeng2007fei/article/details/78249138

在pyspark中，使用数据框的文件写出函数write.parquet经常会生成太多的小文件，例如申请了100个block，而每个block中的结果

只有几百K，这在机器学习算法的结果输出中经常出现，这是一种很大的资源浪费，那么如何同时避免太多的小文件（block小文件合并）？

其实有一种简单方法，该方法需要你对输出结果的数据量有个大概估计，然后使用Dataframe中的coalesce函数来指定输出的block数量

即可，具体使用代码如下：

df.coalesce(2).write.parquet(path,mode)

这里df是指你要写出的数据框，coalesce(2)指定了写到2个block中，一个block默认128M，path是你的写出路径，mode是写出模式，常用的是

"overwrite"和"append"。

有任何问题想跟我交流，请加qq群636866908（Python&大数据）与我联系，或者加qq群456726635（R语言＆大数据分析）也可。

猜你喜欢

转载自blog.csdn.net/yepeng2007fei/article/details/78249138

python spark中parquet文件写到hdfs，同时避免太多的小文件（block小文件合并）

合并hdfs小文件

python多进程读取大量小文件

Python TXT 文件读取（大文件、小文件、任意行）

Spark合并输出小文件

Python文件读写案例——复制大小文件

hdfs上小文件文件合并，

python读取hdfs上的parquet文件

合并HDFS和本地文件系统中的小文件

hdfs小文件问题

HDFS处理小文件

hdfs小文件处理

hdfs 小文件合并方案(附代码)

利用Hbase解决HDFS小文件合并

HDFS的API操作-小文件的合并

hive小文件合并

小文件合并

Hadoop小文件合并

Hadoop合并小文件

spark小文件合并解决多级分区

Spark定期合并Hive表小文件

spark小文件过多

hive on spark 动态解决小文件太多的办法

HDFS小文件优化方法

hdfs小文件问题及解决

HDFS小文件治理方案

hdfs大量小文件压缩

Hadoop 中的小文件

python将print结果写到文件中

Python: 将文件夹划分为数个小文件夹

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)