Spark：从oracle读取大表写入hive实践 - 代码天地

Spark：从oracle读取大表写入hive实践

其他 2019-01-11 09:30:54 阅读次数: 0

oracle表数据量

60G，数据条数：58475050

提交参数

spark-submit --master yarn --deploy-mode client \
--class com.xjb.Test \
--jars ojdbc5-11.2.0.3.jar \
--conf spark.yarn.executor.memoryOverhead=300M \
--num-executors 10 --executor-cores 2 --executor-memory 3724M \
etl.jar

程序

import org.apache.spark.sql._
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions._
import com.hs.xlzf.data.etl._

object Test {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("Test")
      .config("spark.sql.parquet.writeLegacyFormat", true)
      .enableHiveSupport()
      .getOrCreate()

    val ct = 58475050
    val sql_str = s"(select a.*, ROWNUM rownum__rn from db1.tb1 a) b"
    val table = spark.read
      .format("jdbc")
      .option("driver", "oracle.jdbc.driver.OracleDriver")
      .option("url", "jdbc:oracle:thin:@10.18.2.3:1521:etc")
      .option("user", "***")
      .option("password", "***")
      .option("dbtable", sql_str)
      .option("fetchsize", 100000)
      .option("partitionColumn", "rownum__rn")
      .option("lowerBound", 0)
      .option("upperBound", ct)
      .option("numPartitions", 10)
      .load()
      .drop("rownum__rn")

    table
      .repartition(100)
      .write
      .mode(SaveMode.Overwrite)
      .saveAsTable("db1.tb1")
  }
}

执行时间

25分钟

猜你喜欢

转载自blog.csdn.net/xuejianbest/article/details/86000784

Spark：从oracle读取大表写入hive实践

spark写入hive表

代码 | Spark读取mongoDB数据写入Hive普通表和分区表

[Spark SQL]Spark SQL读取Kudu，写入Hive

spark读取hive表，获取分区字段

spark streaming 接收kafka数据写入Hive分区表

Spark之读取Hbase数据库表并写入文件

spark 数据写入与读取

从任意hive单表读取并计算数据写入任意mysql单表的hive工具

spark读取Oracle数据到hive的艰辛之路

Spark SQL读取hbase映射到hive表-----异常记录

【原创】大叔经验分享（65）spark读取不到hive表

Spark无法读取hive 3.x的表数据

spark-sql读取不到parquet格式的hive表

hcatalog读取hive数据并写入hive

Spark读取Es写入Hdfs

spark从hbase读取写入数据

Spark访问Hive的表

Spark 读写Hive 表

使用spark将内存中的数据写入到hive表中

flume的sink写入hive表

spark读取hive数据-java

pyspark读取hive表解析json日志并写入hive表的简单案例——原始数据初步清洗

Spark获取json写入hive(工作实例)

Hive读取Flume正在写入的HDFS

Flume读取数据写入Hive、Mysql

Flink SQL 连接Hive并写入/读取数据

从源码看Spark读取Hive表数据小文件和分块的问题

【原创】大叔经验分享（60）hive和spark读取kudu表

Spark SQL 读取 Hive表中数据在Cluster模式下找不到库

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)