二、spark SQL交互scala操作示例 - 代码天地

二、spark SQL交互scala操作示例

其他 2018-11-23 16:57:51 阅读次数: 0

一、安装spark

spark SQL是spark的一个功能模块，所以我们事先要安装配置spark，参考：

https://www.cnblogs.com/lay2017/p/10006935.html

二、数据准备

演示操作将从一个类似json文件里面读取数据作为数据源，并初始化为dataframe，我们准备一个user.json文件

在/usr/local/hadoop/spark目录（可以自定义目录）下新建一个user.json文件内容如下：

{"id" : "1201", "name" : "satish", "age" : "25"}
{"id" : "1202", "name" : "krishna", "age" : "28"}
{"id" : "1203", "name" : "amith", "age" : "39"}
{"id" : "1204", "name" : "javed", "age" : "23"}
{"id" : "1205", "name" : "prudvi", "age" : "23"}

文件内容类似json，但是不是json，按照一行一行的结构

三、spark SQL示例

先启动spark-shell

spark-shell

dataFrame操作

初始化一个SQLContext，传入sparkContext

var sqlContext = new org.apache.spark.sql.SQLContext(sc)

读取user.json文件作为dataFrame

var dfs = sqlContext.read.json("/usr/local/hadoop/spark/user.json")

查询age > 25的name的数据

dfs.filter(dfs("age") > 25).select("name").show()

你会看到

猜你喜欢

转载自www.cnblogs.com/lay2017/p/10008457.html

二、spark SQL交互scala操作示例

Spark基础-scala学习（二）

Spark学习（二）scala语法

Spark（6）——Spark与scala交互

Spark SQL:从入门到精通(二)[IDEA开发Spark SQL]

二、Spark上运行Scala版本helloworld

spark实验(二)--scala安装(1)

十、spark graphx的scala示例

十二、spark MLlib的scala示例

【Spark106】Spark SQL动态代码生成二

【spark】示例：二次排序

【spark sql】使用 scala 语言操作 spark sql 入门实例（超详细）

Spark SQL Dataset 常用API 二

理解Spark SQL(二）—— SQLContext和HiveContext

Spark SQL UDF示例

Spark编程模型Transformation操作二

Spark-SQL-Scala编程

【spark】示例：连接操作

Spark SQL 和 Hive 的交互

Spark基础-Scala集合操作

Spark中的键值对操作-scala

spark操作hive方式(scala)

Spark基础排序+二次排序（java+scala）

Spark Streaming状态管理函数（二）——updateStateByKey的使用（scala版）

spark 二次排序两种方法（scala）

Spark SQL简单示例学习

Spark SQL简单示例(WordCount)

Spark代码可读性与性能优化——示例二

SparkML -- LightGBM On Spark 二分类LightGBMClassifier示例

Spark-2.4.5官方文档说明-Ubuntu运行示例（二）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)