Spark SQL是处理结构化的数据 - 代码天地

Spark SQL是处理结构化的数据

其他 2019-10-04 11:01:16 阅读次数: 0

Spark SQL是处理结构化的数据，可以存储在二维表中，类似数据库中的表一样存储数据

Spark1.x

val sqlContext = new SparkContext(conf)

val sqlContext = new SQLContext(sc)

//将RDD和Schema信息关联到一起，1,RDD和case class 2,RDD和StructType

//case class Person将RDD中的数据转换成case class 属性相对应的类型，然后设置到case class中

val rdd:RDD[Person] = ....

//将RDD转换成DataFrame

val df = rdd.toDF

//对df进行操作（1,直接使用DataFrame上的算子DSL。2,写SQL）

//将df注册成临时表

扫描二维码关注公众号，回复： 7423125 查看本文章

df.registerTempTable("t_person")

//执行SQL

val result :DataFrame = sqlContext.sql("select * from t_person");

result.show()

Spark2.x

val spark = SparkSession.builder().appName("a").master("local[*]").getOrCreate()

//创建DF

val df = spark.createDataFrame(RDD[Row], schema)

//DSL 和 SQL

df.createTempView("v_user")

//执行SQL

val result:DataFrame = spark.sql("select * from t_user")

//执行action

result.show()

//

猜你喜欢

转载自www.cnblogs.com/cindy-zl24/p/11621540.html

Spark SQL是处理结构化的数据

Spark SQL 结构化数据处理流程及原理是什么？

Spark（六）：SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理

Spark读取结构化数据

元数据与数据治理｜Spark SQL结构化数据分析（第六篇）

Spark 结构化流

Spark九读取和保存数据之Spark SQL的结构化数据，数据库和键值对存储

【华为云技术分享】Spark如何与深度学习框架协作，处理非结构化数据

Spark 实战，第 3 部分: 使用 Spark SQL 对结构化数据进行统计分析

[Spark]-结构化数据查询详解

[Spark]-结构化数据查询之数据源篇

[Spark]-结构化数据查询之自定义UDAF

[Spark]-结构化流之用法篇

[Spark]-结构化流之初始篇

[Spark]-结构化流之输出篇

[Spark]-结构化流之监控&故障恢复篇

Spark基础（一）——结构化API（思维导图）

spark笔记-spark sql

Spark SQL

Spark可以处理my sql的数据吗

Hive on Spark 与Spark SQL比较

Spark之spark.sql

Spark基础：（六）Spark SQL

spark基础六 spark SQL

Spark 04 Spark SQL 使用

Spark 03 Spark SQL 概述

Spark-Spark SQL and DataFrame

Spark SQL与Hive on Spark的比较

Spark学习之Spark SQL

Spark学习笔记：Spark SQL

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

SVN同步出现问题

解决 nginx 出现 413 Request Entity Too Large 的问题

第一节区块链服务BaaS的总体架构以及基本模块设计的一种方案

ITeye 2013年度盘点——社区赠书书单

IDEA / git 和github 的新手使用教程史上最简单的 IntelliJ IDEA 教程史上最简单的 GitHub 教程

测试工程方法：测试用例设计综合策略

Spark优化(三)：对多次使用的RDD进行持久化

使用STM32 ST-LINK Utility 设置读保护后不能运行

exgcd 解同余方程ax=b(%n)

Android使用脚本进行多渠道打包

每日归档

更多

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)