hive与mysql两种数据源之间的join - 代码天地

hive与mysql两种数据源之间的join

其他 2018-07-28 17:53:37 阅读次数: 0

　　这篇文章是基于上一篇文章的续集

一：程序

1.程序、

 1 package com.scala.it
 2 
 3 import java.util.Properties
 4 
 5 import org.apache.spark.sql.SaveMode
 6 import org.apache.spark.sql.hive.HiveContext
 7 import org.apache.spark.{SparkConf, SparkContext}
 8 
 9 object HiveToMysql {
10   def main(args: Array[String]): Unit = {
11     val conf = new SparkConf()
12       .setMaster("local[*]")
13       .setAppName("hive-yo-mysql")
14     val sc = SparkContext.getOrCreate(conf)
15     val sqlContext = new HiveContext(sc)
16     val (url, username, password) = ("jdbc:mysql://linux-hadoop01.ibeifeng.com:3306/hadoop09", "root", "123456")
17     val props = new Properties()
18     props.put("user", username)
19     props.put("password", password)
20 
21     // ==================================
22     // 第一步：同步hive的dept表到mysql中
23     sqlContext
24       .read
25       .table("hadoop09.dept") // database.tablename
26       .write
27       .mode(SaveMode.Overwrite) // 存在覆盖
28       .jdbc(url, "mysql_dept", props)
29 
30     // 第二步：hive表和mysql表进行数据join操作 ==> 采用HQL语句实现
31     // 2.1 将mysql的数据注册成为临时表
32     sqlContext
33       .read
34       .jdbc(url, "mysql_dept", props)
35       .registerTempTable("temp_mysql_dept") // 临时表中不要出现"."
36 
37     // 第三步数据join
38     sqlContext.sql(
39       """
40         |SELECT a.*,b.dname,b.loc
41         |FROM hadoop09.emp a join temp_mysql_dept b on a.deptno = b.deptno
42       """.stripMargin)
43       .write
44       .format("org.apache.spark.sql.execution.datasources.parquet")
45       .mode(SaveMode.Overwrite)
46       .save("/spark/join/parquet")
47 
48     // 检测数据是否join成功
49     sqlContext
50       .read
51       .format("parquet")
52       .load("/spark/join/parquet")
53       .show()
54 
55   }
56 }

2.效果

　　

二：知识点

1.format

　　可以写包名。

　　

猜你喜欢

转载自www.cnblogs.com/juncaoit/p/9382707.html

hive与mysql两种数据源之间的join

Spark利用hive与MySQL外部数据源做join

springboot连接mysql和sqlserver数据库配置两种数据源并实现动态切换

集智数据平台两种数据源连接的配置方式

reportConfig.xml两种数据源连接的配置方式

Spark SQL外部数据源综合使用(Hive和MySQL进行Join)

项目中两种数据源的切换（针对项目中不同的数据库使用不同的数据源）

Grafana（二）Grafana 两种数据源图表展示（json-api与数据库）

hive指定mysql数据源

Springboot配置2种数据源(Oracle,MySQL)

润乾配置数据源的两种方式

Spring配置Druid数据源的两种方式

BW增强数据源的两种方法

Spring 配置oracle数据源的两种格式

Flink的各种数据源（source）

superset连接各种数据源

SparkSQL的多种数据源的读写

StructuredStreaming的多种数据源详解

MySQL中的两种数据库引擎

配置Hive使用Mysql作为数据源

SpringBoot多数据源配置(hive/mysql)

Mysql、Oracle、Sqlserver三种数据源下查询元数据的方法

hive的四种导入数据方式两种数据导出方式

BW增强数据源1-通过增加字段增强数据源（两种方法）

springboot多数据源配置mybatis采用druid连接池对mysql，hive双数据源整合

Spring连接各种数据库数据源

mybatis 兼容两种数据的写法

Android的两种数据解析

Hive数据源的安装与配置

spark sql数据源--hive

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)