Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源 - 代码天地

Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源

其他 2018-12-12 07:30:50 阅读次数: 0

1. External Data Source 外部数据源

1）每一个spark程序以加载数据开始，以输出数据结束

2）方便快速的从不同的数据源（json、parquet/rdbms），经过混合处理，在将处理结果以特定的格式，写回到指定的系统（HDFS S3)中

处理过程：

1）要从关系型数据库导入大数据系统，然后处理完再导回原有数据库

目标：

1）对于开发者：不需要把代码合并到spark源码中

2）非常方便的加载和读取

spark.read.format(format) 读

people.write.format("parquet").save("path") 写格式+路径

2. 操作Parquet文件数据

1）加载数据 spark.read.format("parquet").load(path)

2）写入数据 df.write.format("parquet").save(path)

3. 操作Hive表数据

1）Spark.table(tableNmae) 读Hive表数据

2）df.write.saveAsTable(tableName) 写入数据

3）spark.sql("select deptno,count(1)from emp group by deptno"）.filter("deptno is not null").write.saveAs

4）spark.tbale("在这里写入sql语句")

5）注意设置分区数量，默认是200

spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")

4. 操作Mysql数据库等关系型数据库

5.关联MySQL和Hive表数据关联操作

猜你喜欢

转载自blog.csdn.net/canglan211/article/details/82953549

Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源

Spark学习实例(Python)：加载数据源Load Data Source

Spark SQL之数据源(Data Source)与保存模式(Save Modes)

spark -外部数据源

数据源属性$ Data Source Bean创建异常: DataSourceProperties$DataSourceBeanCreationException

3. Data Source 介绍

Flink学习：Source数据源算子API操作

flume的Source(数据源)

Flink Source(数据源）

第7章 External Data Source

Spark SQL之外部数据源

Spark操作外部数据源--parquet

Spark操作外部数据源--MySQL

Spark SQL操作外部数据源

入门大数据---Flink_Data_Source

【大数据Flink系列】Flink Data Source

Spark SQL External Data Source 产生背景 & 概述 & 目标 & 使用

Spark SQL External DataSource外部数据源操作流程

Spark SQL External DataSource外部数据源

Spark中的Data Sources （数据源)【官网学习摘录笔记】

Flink的各种数据源（source）

Spark学习（陆）- Spark操作外部数据源

Spring Data Source Redis

Grafana +MySQL Data Source

Druid Data Source

Flink 之 Data Source

energy/heating data source

Spark 系列（十）—— Spark SQL 外部数据源

Spark利用hive与MySQL外部数据源做join

Spark SQL 笔记(9)—— 外部数据源(1) parquet

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)