sparksql减少输出数据中的小文件数量

其他 2018-08-01 16:16:17 阅读次数: 0

由于项目中开发用到sparksql ，将一个大表的数据查询后插入到另一种表中，此时数据令也不是太大，

但是产生了200多个小文件，占用namenode资源，为了改善该情况使用，

将hive中的表加载为一个df，然后重新分区+缓存+注册为临时表，在进行查询，插入操作，此时文件为20个

关键代码如下：

val aDF =hiveContext.table("info_user").repartition(2).persist()

    aDF.registerTempTable("info_user")

猜你喜欢

转载自blog.csdn.net/u014236468/article/details/78675596

sparksql减少输出数据中的小文件数量

hive 小文件数据合并

SparkSql如何读取parquet文件数据

【图文详细】HDFS面试题：当小文件数量过多时，如何合并小文件

统计文件数量

查看文件数量

sparksql写入hive合并小文件

Linux 查询文件数量

Linux查看文件数量

Spark合并输出小文件

赛门铁克：垃圾邮件数量减少83%

Hadoop 中的小文件

sparksql运算调优纪事（一）——hive小文件处理

java中 Excel文件数据的导入

Hive、SparkSQL是如何决定写文件的数量的？

KETTLE-Hadoop文件数据抽取及输出

查看文件数量和大小

Linux对打开文件数量的限制

linux 中统计目录/文件数量

linux 命令文件数量统计

Linux 查看目录下的文件数量

在大文件中照小文件对应项的剩余部分并输出

hive中的小文件问题

【Qt】Log4Qt（四）：周期性输出日志，并且限制日志文件数量

Android减少开发过程中Drawable xml文件的数量

拷贝文件数据

抓取文件数据

locate文件查找（在文件数据库中查找）

Java中如何在磁盘里指定的文件中找出所有jpg格式的文件数量

统计指定文件夹下的文件数量，包含在文件夹下的文件夹中的数量，不考虑用递归

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)