使用Spark SQL合并小文件的一个例子 - 代码天地

使用Spark SQL合并小文件的一个例子

其他 2019-10-28 10:15:55 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_42411818/article/details/100583088

小文件的危害完我就不在多说,请见:https://blog.csdn.net/qq_34341930/article/details/89031661

直接上代码,可以做个定时任务结合自己的业务去定时调度

import org.apache.spark.sql.{SaveMode, SparkSession}

/**
  * 使用Spark SQL合并小文件
  */
object SmallFileMerger {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("SmallFileMerger")
      .master("local")
      .getOrCreate()

    val inputPath = spark.conf.get("spark.small.file.merge.inputPath",
      "hdfs://mycluster/user/hadoop-jrq/dw-course/streaming-etl/user-action-parquet/year=2019/month=201909/day=20190906")

    val numberPartition = spark.conf.get("spark.small.file.merge.numberPartition", "2").toInt

    val outputPath = spark.conf.get("spark.small.file.merge.outputPath",
      "hdfs://mycluster/user/hadoop-jrq/dw-course/streaming-etl/user-action-merged/year=2019/month=201909/day=20190906")

    spark.read.parquet(inputPath)
      .repartition(numberPartition)
      //.coalesce(numberPartition)
      .write
      .mode(SaveMode.Overwrite)
      .parquet(outputPath)

    spark.stop()
  }
}

猜你喜欢

转载自blog.csdn.net/weixin_42411818/article/details/100583088

使用Spark SQL合并小文件的一个例子

使用xargs的一个例子

使用Spark cache来保障正确的一个例子

字节码工具asm使用的一个例子

Automake和Autoconf使用一个例子

C#中使用handsometable的一个例子

【Spark】一个例子带你了解Spark运算流程

Spark合并输出小文件

Spark 04 Spark SQL 使用

spark学习笔记8 一个例子_Apache日志分析

Spark SQL处理小文件

一个sql游标使用例子

Julia 使用如何使用相对路径的一个例子

spark小文件合并解决多级分区

Spark定期合并Hive表小文件

使用DOM4J解析XML的一个例子

使用jdbc连接ORACLE数据库进行查询的一个例子

一个例子包含mvp、rxjava以及retrofit2的使用

Python使用rabbitmq作爬虫的消息队列的一个例子

Servlet和JDBC如何配合使用请给一个例子？

使用Zabbix的SNMP trap监控类型监控设备的一个例子

TCP和Web Socket混合使用的一个例子

使用Dockerfile制定镜像(这里举一个例子)

使用 CPSGEN 命令，对节点耦合进行拷贝的一个例子

一个例子学会使用Jetpack Compose Modifier

一个例子来使用sklearn中的TfidfVectorizer

glibc: fgets 使用规范；如果不规范，CPU吃满的一个例子

Kernel: vmcore: tracepoint 使用机制错误导致的一个例子

【Spark九十四】spark-sql工具的使用

spark streaming 中使用 spark sql

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)