sparksql写入hive合并小文件 - 代码天地

sparksql写入hive合并小文件

其他 2018-11-10 12:54:25 阅读次数: 0

版权声明：原创文章，转载请注明出处 https://blog.csdn.net/xianpanjia4616/article/details/82888608

今天主要来说一下sparksql写入hive后小文件太多,影响查询性能的问题.在另外一篇博客里面也稍微提到了一下,但还是感觉要单独说一下,首先我们要知道hive里面文件的数量=executor-cores*num-executors*job数,所以如果我们batchDuration的设置的比较小的话,每天在一个分区里面就会生成很多的小文件,我们在hive里面查询的时候就会非常的影响性能,下面介绍两种方法优化小文件:

(1),第一种,可以在创建的DataFrame的时候,cache一下,然后对DataFrame进行重新分区,可以把分区设置为1,可以用reparation,当然也可以用coalesce,这两个的区别,可以看我的另外一篇博客,这个时候就会一个job产生一个文件.但是这么做就降低了写入的性能,所以数据量不是特别大的时候,还是可以用的,但是如果数据量很大,就需谨慎使用,

(2),第二种方法是利用sql定时执行一下,insert overwrite table a select * from a;这个时候会覆盖表的数据达到合并小文件的目的,具体的sql下面会有.

下面看一下具体的代码吧:

 val df = spark.createDataFrame(rowRDD, schema).cache()
          df.coalesce(1).createOrReplaceTempView("tempTable")
          val sq = "insert into combine_data partition(day_time='" + day_time + "') select * from tempTable"
          sql(sq)
          println("插入hive成功了")
          df.unpersist(true)

insert overwrite table combine_data partition (day_time='2018-08-01') select data,enter_time from combine_data where day_time = '2018-08-01';

代码我就贴了重要的部分的,详细的代码在我的另外一篇博客中有,有兴趣的可以看一下.今天就写到这吧.

如果有写的不对的地方,欢迎大家指正,如果有什么疑问,可以加QQ群:340297350,谢谢

猜你喜欢

转载自blog.csdn.net/xianpanjia4616/article/details/82888608

sparksql写入hive合并小文件

hive小文件合并

转：Hive小文件合并

hive 小文件数据合并

hive小文件合并设置参数

hive 合并小文件处理方案

Hive 利用 on tez 引擎合并小文件

Hive合并小文件，减小map数

Spark定期合并Hive表小文件

sparksql运算调优纪事（一）——hive小文件处理

【图文详细】Hive 优化策略之小文件合并

Hive小文件合并与数据压缩

HIVE优化和数据倾斜、合并小文件

hive小文件问题

小文件合并

Hadoop小文件合并

Hadoop合并小文件

合并hdfs小文件

Hive-生成一个大文件（小文件合并）

hive中的小文件问题

hive解决小文件问题

使用Impala合并小文件

Spark合并输出小文件

Flink Sql on Zeppelin（7）——Hive Streaming Sink之合并小文件

【大数据之Hive】二十五、HQL语法优化之小文件合并

hdfs上小文件文件合并，

sparksql减少输出数据中的小文件数量

Hive如何处理小文件问题？

hdfs 小文件合并方案(附代码)

MapReduce编程场景之小文件合并

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)